System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码av不卡一区二区三区,亚洲av无码片vr一区二区三区 ,亚洲&
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種獲取多模態特征方法和裝置制造方法及圖紙

    技術編號:40332530 閱讀:23 留言:0更新日期:2024-02-09 14:23
    本說明書實施例提供了一種獲取多模態特征的方法和裝置,該方法包括:獲取第一模態的第一信息,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息;將第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;將第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征;將第一特征和第二特征輸入交叉編碼器,得到多模態特征。

    【技術實現步驟摘要】

    本說明書一個或多個實施例涉及深度學習領域,尤其涉及一種獲取多模態特征的方法和裝置。


    技術介紹

    1、現代社會運行中產生的數據越來越多,其中包括文本、圖像、音頻、視頻等多種模態的數據。這些多模態數據之間存在著復雜的關聯和交互,所以希望高效地將這些數據結合起來例如用于多模態大模型訓練,以提高多模態模型對于多模態數據的分析和處理能力。目前現有的多模態大模型的訓練依賴于特定任務下的需經人工標注的多模態數據集,然而人工標注的數據集構建成本非常高,也限制了數據集的規模,從而限制了多模態大模型的訓練效果和泛化能力。


    技術實現思路

    1、本說明書中的實施例旨在提供一種獲取多模態特征的方法和裝置,可以通過不同模態之間的信息檢索將豐富的多模態數據用于多模態特征的提取。進而,可以將提取的多模態特征用于多模態大模型訓練中,從而可以極大提高模型訓練時所使用數據的豐富程度,降低訓練數據的構建成本,提高模型的訓練效果和泛化能力,解決現有技術的不足。

    2、根據第一方面,提供了一種獲取多模態特征的方法,包括:

    3、獲取第一模態的第一信息,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息;

    4、將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征;將所述第一特征和第二特征輸入交叉編碼器,得到多模態特征。

    5、在一種可能的實施方式中,所述第一模態和第二模態分別為文本模態、圖像模態、視頻模態中的一種,且所述第二模態不同于所述第一模態。

    6、在一種可能的實施方式中,所述方法還包括:

    7、獲取第二模態的第二信息,根據第二信息從所述多模態檢索數據庫中獲取第二模態的第三相關信息和第一模態的第四相關信息;

    8、將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征,包括:將所述第一信息、第一相關信息和第四相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;

    9、將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征,包括:將所述第二信息、第二相關信息和第四相關信息,輸入與第二模態對應的第二編碼器,得到第二特征。

    10、在一種可能的實施方式中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。

    11、在一種可能的實施方式中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。

    12、在一種可能的實施方式中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:

    13、通過預先訓練的特征提取器,從第一信息中提取第一提取特征;

    14、從預先設立的多模態檢索數據庫中,獲取與所述第一提取特征k鄰近的多個鍵對應的值包括的所述第一相關信息和第二相關信息。

    15、在一種可能的實施方式中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關信息、以及與所述第二模態的信息不同模態的相關信息。

    16、在一種可能的實施方式中,所述交叉編碼器基于transformer模型。

    17、在一種可能的實施方式中,所述第一模態為文本模態,所述第一模態對應的第一編碼器基于詞袋模型、序列模型或注意力機制模型中的一種。

    18、在一種可能的實施方式中,所述第一模態為圖像模態或視頻模態,所述第一模態對應的第一編碼器基于卷積神經網絡或transformer模型中的一種。

    19、在一種可能的實施方式中,所述第一模態為文本模態,所述第二模態為圖像模態或視頻模態,所述第一相關信息為第一信息的上下文信息,所述第二相關信息為與第一信息中的文本內容相關的圖像或視頻,所述第三相關信息為第二信息的同類圖像或視頻,所述第四相關信息為與第二信息中的圖像內容相關的文本。

    20、根據第二方面,提供一種獲取多模態特征的裝置,所述裝置包括:

    21、相關信息獲取單元,配置為,獲取第一模態的第一信息,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息;

    22、特征提取單元,配置為,將所述第一信息和第一相關信息,輸入與第一模態對應的第一編碼器,得到第一特征;將所述第二相關信息,輸入與第二模態對應的第二編碼器,得到第二特征;將所述第一特征和第二特征輸入交叉編碼器,得到多模態特征。

    23、根據第三方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,當所述計算機程序在計算機中執行時,令計算機執行第一所述的方法。

    24、根據第四方面,提供了一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執行代碼,所述處理器執行所述可執行代碼時,實現第一所述的方法。

    25、利用以上各個方面中的方法、裝置、計算設備、存儲介質中的一個或多個,可以極大提高模型訓練時所使用數據的豐富程度,降低訓練數據的構建成本,提高模型的訓練效果和泛化能力,解決現有技術的不足。

    本文檔來自技高網...

    【技術保護點】

    1.一種獲取多模態特征的方法,包括:

    2.根據權利要求1所述的方法,其中,所述第一模態和第二模態分別為文本模態、圖像模態、視頻模態中的一種,且所述第二模態不同于所述第一模態。

    3.根據權利要求1所述的方法,還包括:

    4.根據權利要求1所述的方法,其中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。

    5.根據權利要求4所述的方法,其中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。

    6.根據權利要求4所述的方法,其中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:

    7.根據權利要求4所述的方法,其中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關信息、以及與所述第二模態的信息不同模態的相關信息。

    8.根據權利要求1所述的方法,其中,所述交叉編碼器基于Transformer模型。

    9.根據權利要求2所述的方法,其中,所述第一模態為文本模態,所述第一模態對應的第一編碼器基于詞袋模型、序列模型或注意力機制模型中的一種。

    10.根據權利要求2所述的方法,其中,所述第一模態為圖像模態或視頻模態,所述第一模態對應的第一編碼器基于卷積神經網絡或Transformer模型中的一種。

    11.根據權利要求3所述的方法,其中,所述第一模態為文本模態,所述第二模態為圖像模態或視頻模態,所述第一相關信息為第一信息的上下文信息,所述第二相關信息為與第一信息中的文本內容相關的圖像或視頻,所述第三相關信息為第二信息的同類圖像或視頻,所述第四相關信息為與第二信息中的圖像內容相關的文本。

    12.一種獲取多模態特征的裝置,所述裝置包括:

    13.一種計算機可讀存儲介質,其上存儲有計算機程序,當所述計算機程序在計算機中執行時,令計算機執行權利要求1-11中任一項的所述的方法。

    14.一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執行代碼,所述處理器執行所述可執行代碼時,實現權利要求1-11中任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種獲取多模態特征的方法,包括:

    2.根據權利要求1所述的方法,其中,所述第一模態和第二模態分別為文本模態、圖像模態、視頻模態中的一種,且所述第二模態不同于所述第一模態。

    3.根據權利要求1所述的方法,還包括:

    4.根據權利要求1所述的方法,其中,所述多模態檢索數據庫中預先保存有多個鍵值對,所述鍵值對中的鍵用于保存預先獲取的第一模態的信息的特征,所述鍵值對中的值用于保存與所述第一模態的信息相同模態的相關信息、以及與所述第一模態的信息不同模態的相關信息。

    5.根據權利要求4所述的方法,其中,所述鍵值對中的鍵具有第一標識,用于標識所述鍵保存的信息對應的模態,所述鍵值對中的值具有第二標識,用于標識所述值保存的信息對應的模態。

    6.根據權利要求4所述的方法,其中,根據第一信息從預先設立的多模態檢索數據庫中獲取第一模態的第一相關信息和第二模態的第二相關信息,包括:

    7.根據權利要求4所述的方法,其中,所述鍵值對中的鍵還用于保存預先獲取的第二模態的信息的特征,所述鍵值對中的值用于保存與所述第二模態的信息相同模態的相關信息、以及與所述第二模態的信息不同模態的相關信息。

    8.根...

    【專利技術屬性】
    技術研發人員:俞旭錚,郭清沛,
    申請(專利權)人:支付寶杭州信息技術有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码mv在线观看网站| 无码AV中文一区二区三区| 无码日本精品XXXXXXXXX| 国产午夜激无码av毛片| 中文字幕无码精品三级在线电影| 久久亚洲日韩看片无码| 亚洲国产精品无码中文字| 中文字幕乱偷无码av先锋蜜桃| 国产精品无码翘臀在线观看| 亚洲av无码乱码国产精品| 国产在线拍揄自揄拍无码视频| 久久亚洲精品中文字幕无码| 无码人妻av一区二区三区蜜臀| 无码国产69精品久久久久网站| 日韩精品无码人妻一区二区三区| 最新亚洲春色Av无码专区| 亚洲中文字幕无码日韩| 性色AV一区二区三区无码| 无码专区人妻系列日韩精品少妇 | 国产成人无码一区二区在线播放| 无码中文字幕一区二区三区| 亚洲av无码不卡| 亚洲欧洲自拍拍偷午夜色无码| 免费A级毛片无码A| 无码不卡亚洲成?人片| 亚洲av无码成人影院一区| 久久男人Av资源网站无码软件| 国产aⅴ无码专区亚洲av| 国产成人无码一区二区三区在线 | 亚洲αⅴ无码乱码在线观看性色| 国产爆乳无码视频在线观看| 亚洲中文字幕无码一久久区| 久久国产精品无码网站| 东京热无码av一区二区 | H无码精品3D动漫在线观看| 国产丝袜无码一区二区视频| 亚洲AV无码乱码在线观看| 午夜无码视频一区二区三区| 妖精色AV无码国产在线看| 午夜无码视频一区二区三区| 免费a级毛片无码av|