System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本說明書一個或多個實施例涉及深度學習領域,尤其涉及一種獲取多模態特征的方法和裝置。
技術介紹
1、現代社會運行中產生的數據越來越多,其中包括文本、圖像、音頻、視頻等多種模態的數據。這些多模態數據之間存在著復雜的關聯和交互,所以希望高效地將這些數據結合起來例如用于多模態大模型訓練,以提高多模態模型對于多模態數據的分析和處理能力。目前現有的多模態大模型的訓練依賴于特定任務下的需經人工標注的多模態數據集,然而人工標注的數據集構建成本非常高,也限制了數據集的規模,從而限制了多模態大模型的訓練效果和泛化能力。
技術實現思路
1、本說明書中的實施例旨在提供一種獲取多模態特征的方法和裝置,可以通過不同模態之間的信息檢索將豐富的多模態數據用于多模態特征的提取。進而,可以將提取的多模態特征用于多模態大模型訓練中,從而可以極大提高模型訓練時所使用數據的豐富程度,降低訓練數據的構建成本,提高模型的訓練效果和泛化能力,解決現有技術的不足。
2、根據第一方面,提供了一種獲取多模態特征的方法,包括:
3、獲取第一模態的第一信息,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息;
4、將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征;將所述第一特征和第二特征輸入交叉編碼器,得到多模態特征。
5、在一種可能的實施方式中,所述第一模態
6、在一種可能的實施方式中,所述方法還包括:
7、獲取第二模態的第二信息,根據第二信息從所述多模態檢索數據庫中獲取第二模態的第三相關信息和第一模態的第四相關信息;
8、將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征,包括:將所述第一信息、第一相關信息和第四相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;
9、將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征,包括:將所述第二信息、第二相關信息和第四相關信息,輸入與第二模態對應的第二編碼器,得到第二特征。
10、在一種可能的實施方式中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。
11、在一種可能的實施方式中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。
12、在一種可能的實施方式中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:
13、通過預先訓練的特征提取器,從第一信息中提取第一提取特征;
14、從預先設立的多模態檢索數據庫中,獲取與所述第一提取特征k鄰近的多個鍵對應的值包括的所述第一相關信息和第二相關信息。
15、在一種可能的實施方式中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關信息、以及與所述第二模態的信息不同模態的相關信息。
16、在一種可能的實施方式中,所述交叉編碼器基于transformer模型。
17、在一種可能的實施方式中,所述第一模態為文本模態,所述第一模態對應的第一編碼器基于詞袋模型、序列模型或注意力機制模型中的一種。
18、在一種可能的實施方式中,所述第一模態為圖像模態或視頻模態,所述第一模態對應的第一編碼器基于卷積神經網絡或transformer模型中的一種。
19、在一種可能的實施方式中,所述第一模態為文本模態,所述第二模態為圖像模態或視頻模態,所述第一相關信息為第一信息的上下文信息,所述第二相關信息為與第一信息中的文本內容相關的圖像或視頻,所述第三相關信息為第二信息的同類圖像或視頻,所述第四相關信息為與第二信息中的圖像內容相關的文本。
20、根據第二方面,提供一種獲取多模態特征的裝置,所述裝置包括:
21、相關信息獲取單元,配置為,獲取第一模態的第一信息,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息;
22、特征提取單元,配置為,將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征;將所述第一特征和第二特征輸入交叉編碼器,得到多模態特征。
23、根據第三方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,當所述計算機程序在計算機中執行時,令計算機執行第一所述的方法。
24、根據第四方面,提供了一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執行代碼,所述處理器執行所述可執行代碼時,實現第一所述的方法。
25、利用以上各個方面中的方法、裝置、計算設備、存儲介質中的一個或多個,可以極大提高模型訓練時所使用數據的豐富程度,降低訓練數據的構建成本,提高模型的訓練效果和泛化能力,解決現有技術的不足。
本文檔來自技高網...【技術保護點】
1.一種獲取多模態特征的方法,包括:
2.根據權利要求1所述的方法,其中,所述第一模態和第二模態分別為文本模態、圖像模態、視頻模態中的一種,且所述第二模態不同于所述第一模態。
3.根據權利要求1所述的方法,還包括:
4.根據權利要求1所述的方法,其中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。
5.根據權利要求4所述的方法,其中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。
6.根據權利要求4所述的方法,其中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:
7.根據權利要求4所述的方法,其中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關
8.根據權利要求1所述的方法,其中,所述交叉編碼器基于Transformer模型。
9.根據權利要求2所述的方法,其中,所述第一模態為文本模態,所述第一模態對應的第一編碼器基于詞袋模型、序列模型或注意力機制模型中的一種。
10.根據權利要求2所述的方法,其中,所述第一模態為圖像模態或視頻模態,所述第一模態對應的第一編碼器基于卷積神經網絡或Transformer模型中的一種。
11.根據權利要求3所述的方法,其中,所述第一模態為文本模態,所述第二模態為圖像模態或視頻模態,所述第一相關信息為第一信息的上下文信息,所述第二相關信息為與第一信息中的文本內容相關的圖像或視頻,所述第三相關信息為第二信息的同類圖像或視頻,所述第四相關信息為與第二信息中的圖像內容相關的文本。
12.一種獲取多模態特征的裝置,所述裝置包括:
13.一種計算機可讀存儲介質,其上存儲有計算機程序,當所述計算機程序在計算機中執行時,令計算機執行權利要求1-11中任一項的所述的方法。
14.一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執行代碼,所述處理器執行所述可執行代碼時,實現權利要求1-11中任一項所述的方法。
...【技術特征摘要】
1.一種獲取多模態特征的方法,包括:
2.根據權利要求1所述的方法,其中,所述第一模態和第二模態分別為文本模態、圖像模態、視頻模態中的一種,且所述第二模態不同于所述第一模態。
3.根據權利要求1所述的方法,還包括:
4.根據權利要求1所述的方法,其中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。
5.根據權利要求4所述的方法,其中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。
6.根據權利要求4所述的方法,其中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:
7.根據權利要求4所述的方法,其中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關信息、以及與所述第二模態的信息不同模態的相關信息。
8.根...
【專利技術屬性】
技術研發人員:俞旭錚,郭清沛,
申請(專利權)人:支付寶杭州信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。