一種海上多模態態勢認知方法及裝置制造方法及圖紙

技術編號：44495925 閱讀：3 留言：0更新日期：2025-03-04 18:02

本發明專利技術涉及態勢認知技術領域，特別是涉及一種海上多模態態勢認知方法及裝置，包括：對多模態大模型進行訓練，以采用訓練好的多模態大模型對海上態勢進行預測；獲取同一時間段的圖像數據和文本數據；圖像編碼器對圖像數據進行特征提取得到圖像特征，文本編碼器對文本數據進行特征提取得到文本特征；多模態融合器對圖像特征和文本特征進行配對處理，得到跨模態特征，并根據跨模態特征分析海上態勢。相較于現有的雙塔架構的多模態大模型僅在最后一層進行圖像特征和文本特征的交互和融合，本發明專利技術所采用的模型結構和特征融合的方法能夠更加充分捕捉圖像特征和文本特征之間的深層關系，對圖像特征和文本特征的融合效果更佳。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及態勢認知，特別是涉及一種海上多模態態勢認知方法及裝置。

技術介紹

1、在現代社會，隨著海洋活動的日益頻繁，海上安全環境變得更加復雜，不確定因素逐漸增多。海上態勢感知，即對海域環境、各類船只分布的現狀及其發展動向的把握，是確保海洋活動順利進行的重要基礎。目前，海上態勢信息的獲取渠道眾多，信息量龐大且變動快速，存在信息碎片化、局部化和不穩定性等問題。因此，如何構建從當前海域狀況到未來趨勢預測的復雜映射關系，成為準確理解海上態勢變化，輔助航運企業、海洋管理部門等決策者進行有效決策的關鍵所在。

2、當前主流的多模態大模型架構主要分為單塔和雙塔架構。其中，單塔架構只利用一個深度神經網絡結構來完成圖像和文本之間的交互融合，屬于信息前融合方案；雙塔架構利用不同的神經網絡來完成不同模態的信息抽取，然后僅在最后一層進行信息交互和融合，屬于信息后融合方案。但目前的雙塔結構的多模態大模型訓練效率較低，且圖像數據和文本數據僅在最后一層進行信息交互和融合，可能無法充分捕捉模態之間的深層關系，對于處理復雜的態勢任務，其推理速度會受到一定影響。

3、鑒于此，克服該現有技術所存在的缺陷是本
亟待解決的問題。

技術實現思路

1、本專利技術要解決的技術問題是現有的雙塔結構的多模態大模型訓練效率較低，圖像數據和文本數據的融合效果和處理復雜態勢任務的速度有待提高的問題。

2、本專利技術采用如下技術方案：

3、第一方面，本專利技術提供一種海上多模態態勢認知方法，包括：

4、對多模態大模型進行訓練，以采用訓練好的多模態大模型對海上態勢進行預測；其中，所述多模態大模型包括圖像編碼器、文本編碼器和多模態融合器；

5、獲取同一時間段的圖像數據和文本數據；

6、圖像編碼器對所述圖像數據進行特征提取得到圖像特征，文本編碼器對文本數據進行特征提取得到文本特征；

7、所述圖像編碼器對所述圖像特征進行文本特征的配對處理，所述文本編碼器對所述文本特征進行圖像特征的配對處理。

8、所述多模態融合器對已配對的所述圖像特征和所述文本特征進行融合得到跨模態特征，并根據所述跨模態特征分析海上態勢。

9、優選的，所述對多模態大模型進行訓練包括：

10、獲取正樣本和負樣本；其中，所述正樣本包括配對的圖像數據和文本數據，所述負樣本包括隨機的圖像數據和文本數據；

11、所述圖像編碼器對圖像數據進行特征識別，獲取圖像嵌入向量；所述文本編碼器對文本數據進行文本識別，獲取文本嵌入向量；

12、所述圖像編碼器和所述文本編碼器通過對比學習的方式，采用損失函數不斷迭代優化所述圖像編碼器的參數和所述文本編碼器的參數，以使所述正樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離減小，所述負樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離增大，以降低所述損失函數的損失值。

13、優選的，所述圖像編碼器和所述文本編碼器通過對比學習的方式，采用損失函數不斷迭代優化所述圖像編碼器的參數和所述文本編碼器的參數，以使所述正樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離減小，所述負樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離增大，以降低所述損失函數的損失值，具體包括：

14、所述圖像編碼器和所述文字編碼器之間設置有相似度計算模塊，所述相似度計算模塊計算所述圖像嵌入向量和所述文本嵌入向量之間的余弦相似度；

15、所述相似度計算模塊通過比較所述余弦相似度與預期相似度之間的差值，若存在誤差，所述相似度計算模塊將誤差傳輸回所述圖像編碼器和所述文本編碼器；

16、所述圖像編碼器和所述文本編碼器根據損失函數的梯度來更新圖像編碼器和文本編碼器的參數。

17、優選的，所述圖像編碼器采用的損失函數為圖像-文本損失函數，具體為：

18、

19、所述文本編碼器采用的損失函數為文本-圖像損失函數，具體為：

20、

21、其中，xi指的是在第i個圖像和文本對中的圖像嵌入向量，yi指的是在第i個圖像和文本對中的文本嵌入向量；xj指的是在第j個圖像和文本對中的圖像嵌入向量，yj指的是在第j個圖像和文本對中的文本嵌入向量，n是批尺寸，σ是溫度參數。

22、優選的，所述多模態融合器在訓練過程中所采用的損失函數為：

23、lcl＝αli2t+βlt2i；

24、其中，α,β指的是不同損失函數的權重，li2t是圖像-文本損失函數，li2t是文本-圖像損失函數。

25、優選的，所述圖像編碼器使用帶有全局池化的高效網絡用以獲得圖像嵌入向量，所述文本編碼器使用帶有[cls]token嵌入的bert用以獲得文本嵌入向量。

26、優選的，所述多模態融合器對所述圖像特征和所述文本特征進行配對處理，得到跨模態特征，并根據所述跨模態特征分析海上態勢，具體包括：

27、構建提示模板；

28、所述多模態融合器依據所述提示模板對所述跨模態特征進行推理，獲取海上態勢的分析結果；

29、將所述分析結果輸入態勢庫。

30、優選的，當所述分析結果為復雜態勢的分析結果時，所述多模態融合器從所述態勢庫中篩選出相關數據，對所述提示模板和所述相關數據進行聯合推理，獲得所述復雜態勢的分析結果。

31、第二方面，本專利技術提供一種海上多模態態勢認知方法的裝置，用于實現第一方面所述的海上多模態態勢認知方法，所述裝置包括：

32、至少一個處理器；以及，與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述至少一個處理器執行的指令，所述指令被所述處理器執行，用于執行第一方面所述的海上多模態態勢認知方法。

33、第三方面，本專利技術提供一種非易失性計算機存儲介質，用于實現第一方面所述的海上多模態態勢認知方法，包括：所述計算機存儲介質存儲有計算機可執行指令，該計算機可執行指令被一個或多個處理器執行，用于第一方面所述的海上多模態態勢認知方法。

34、與現有技術相比，本專利技術的有益效果在于：本專利技術分別使用圖像編碼器和文本編碼器提取圖像特征和文本特征，對圖像特征和文本特征進行配對處理后，使得配對的圖像特征和文本特征聚集在一起，而不配對的圖像特征和文本特征被拉遠，最后使用多模態融合器對配對的圖像特征和文本特征進行融合得到跨模態特征，并根據所述跨模態特征分析海上態勢，相較于現有的雙塔架構的多模態大模型僅在最后一層進行圖像特征和文本特征的交互和融合，本專利技術所采用的模型結構和特征融合的方法能夠更加充分捕捉圖像特征和文本特征之間的深層關系，對圖像特征和文本特征的融合效果更佳。

35、在優選方案中，本專利技術對圖像編碼器和文本編碼器通過對比學習的方式采用損失函數以及反向傳播的算法進行訓練，圖像編碼器和文本編碼器根據損失函數的梯度來更新圖像編碼器和文本編碼器的參數，以使圖像編碼器和文本編碼器能本文檔來自技高網...

【技術保護點】

1.一種海上多模態態勢認知方法，其特征在于，包括：

2.根據權利要求1所述海上多模態態勢認知方法，其特征在于，所述對多模態大模型進行訓練包括：

3.根據權利要求2所述海上多模態態勢認知方法，其特征在于，所述圖像編碼器和所述文本編碼器通過對比學習的方式，采用損失函數不斷迭代優化所述圖像編碼器的參數和所述文本編碼器的參數，以使所述正樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離減小，所述負樣本所對應的圖像嵌入向量和文本嵌入向量之間的距離增大，以降低所述損失函數的損失值，具體包括：

4.根據權利要求3所述的海上多模態態勢認知方法，其特征在于，所述圖像編碼器采用的損失函數為圖像-文本損失函數，具體為：

5.根據權利要求4所述的海上多模態態勢認知方法，其特征在于，所述對多模態大模型進行訓練包括：

6.根據權利要求2所述的海上多模態態勢認知方法，其特征在于，所述圖像編碼器使用帶有全局池化的高效網絡用以獲得圖像嵌入向量，所述文本編碼器使用帶有[CLS]token嵌入的BERT用以獲得文本嵌入向量。

7.根據權利要求1所述

8.根據權利要求7所述的海上多模態態勢認知方法，其特征在于，當所述分析結果為復雜態勢的分析結果時，所述多模態融合器從所述態勢庫中篩選出相關數據，對所述提示模板和所述相關數據進行聯合推理，獲得所述復雜態勢的分析結果。

9.一種海上多模態態勢認知方法的裝置，用于實現權利要求1-8任一項所述的海上多模態態勢認知方法，其特征在于，所述裝置包括：

10.一種非易失性計算機存儲介質，用于實現權利要求1-8任一項所述的海上多模態態勢認知方法，其特征在于，包括：所述計算機存儲介質存儲有計算機可執行指令，該計算機可執行指令被一個或多個處理器執行，用于權利要求1-8任一項所述的海上多模態態勢認知方法。

...

【技術特征摘要】

1.一種海上多模態態勢認知方法，其特征在于，包括：

2.根據權利要求1所述海上多模態態勢認知方法，其特征在于，所述對多模態大模型進行訓練包括：

4.根據權利要求3所述的海上多模態態勢認知方法，其特征在于，所述圖像編碼器采用的損失函數為圖像-文本損失函數，具體為：

5.根據權利要求4所述的海上多模態態勢認知方法，其特征在于，所述對多模態大模型進行訓練包括：

6.根據權利要求2所述的海上多模態態勢認知方法，其特征在于，所述圖像編碼器使用帶有全局池化的高效網絡用以獲得圖像嵌入向量，所述文本編...

【專利技術屬性】
技術研發人員：武霞，高子文，王振杰，劉俊濤，
申請(專利權)人：中國船舶集團有限公司第七〇九研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術