用于處理多模態數據的方法、裝置、介質和程序產品制造方法及圖紙

技術編號：43972914 閱讀：11 留言：0更新日期：2025-01-10 20:00

本申請提供了一種用于處理多模態數據的方法、裝置、電子設備、計算機可讀介質和計算機程序產品。本申請的方法包括：通過將待處理數據的文本內容進行詞表征處理，得到文本特征向量；如果待處理數據包含預定數量的圖片，則通過提取每一張圖片的圖片特征并將圖片特征映射至文本特征空間，得到圖片特征向量，如果待處理數據中圖片張數小于預定數量，則在將圖片特征映射至文本特征空間后，對映射結果根據預設的輸入序列長度進行零填充；將所述文本特征向量和所述圖片特征向量進行特征融合得到的多模態融合特征，作為多模態模型的輸入；訓練所述多模態模型，以在多模態模型中基于輸入的多模態融合特征輸出預定預測任務的預測結果。本申請實現了使用一個模型來同時處理純文本數據和包含文本和圖片的數據，節省了計算資源。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及計算機，尤其涉及一種用于處理多模態數據的方法、裝置、電子設備、計算機可讀介質和計算機程序產品。

技術介紹

1、在現有的社交網絡平臺中，動態分享功能已成為用戶實時信息交流的重要工具。用戶可以發布包含文本和圖片的動態內容，并享受轉發、評論、點贊等互動服務。動態內容主要分為兩大類：含圖動態和純文本動態。含圖動態不僅包含文本信息，還可附加預定數量的圖片，而純文本動態則僅由文本組成，不包含任何圖片。

2、鑒于含圖動態和純文本動態在內容特征上的差異，在對動態和其他類似的數據進行機審時，現有技術通常采用不同的模型來分別處理不同特征的數據。例如，在對動態進行違規審核的場景，采用兩種不同的風險分模型來識別違規內容。一種為多模態風險分模型，專門設計來識別含圖動態中的違規信息；另一種為文本風險分模型，用于檢測純文本動態是否包含違規內容。

3、然而，這種分離式模型訓練方法存在一些明顯的不足。因為需要分別處理不同類型的動態內容，所以需要訓練、部署兩個模型結構相似的模型，從而造成了機器審核資源的重復投入以及后續模型迭代部署中人力資源和時間成本的雙倍消耗。

技術實現思路

1、本申請的多個方面提供一種用于處理多模態數據的方法、裝置、電子設備、計算機可讀介質和計算機程序產品。

2、本申請的一方面，提供一種用于處理多模態數據的方法，其中，所述方法包括：

3、通過將待處理數據的文本內容進行詞表征處理，得到文本特征向量；

4、如果待處理數據包含預定數量

5、將所述文本特征向量和所述圖片特征向量進行特征融合得到的多模態融合特征，作為多模態模型的輸入；

6、訓練所述多模態模型，以在多模態模型中基于輸入的多模態融合特征輸出預定預測任務的預測結果。

7、本申請的一方面，提供一種用于處理多模態數據的裝置，其中，所述裝置包括：

8、用于通過將待處理數據的文本內容進行詞表征處理，得到文本特征向量的裝置；

9、用于如果待處理數據包含預定數量的圖片，則通過提取每一張圖片的圖片特征并將圖片特征映射至文本特征空間，得到圖片特征向量，如果待處理數據中圖片張數小于預定數量，則在將圖片特征映射至文本特征空間后，對映射結果根據預設的輸入序列長度進行零填充的裝置；

10、用于將所述文本特征向量和所述圖片特征向量進行特征融合得到的多模態融合特征，作為多模態模型的輸入的裝置；

11、用于訓練所述多模態模型，以在多模態模型中基于輸入的多模態融合特征輸出預定預測任務的預測結果的裝置。

12、本申請的另一方面，提供一種計算機可讀存儲介質，其上存儲有計算機程序指令，所述計算機程序指令可被處理器執行以實現本申請實施例的方法。

13、本申請的另一方面，提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現本申請實施例的方法。

14、本申請實施例提供的方案中，通過將待處理數據對應的文本特征和圖片特征作為基于bert的多模態模型的兩個輸入token，并在多模態模型中對文本特征和圖片特征進行拼接融合，進而基于融合特征輸出預定預測任務的預測結果，實現了使用一個模型來同時處理純文本數據和包含文本和圖片的數據，無需如傳統方式那樣分別訓練不同的模型來處理這兩種數據，節省了計算資源，節約了模型后續迭代優化的人力成本。

本文檔來自技高網...

【技術保護點】

1.一種用于處理多模態數據的方法，其中，所述方法包括：

2.根據權利要求1所述的方法，其中，所述訓練所述多模態模型包括：

3.根據權利要求2所述的方法，其中，在多模態模型為風險分模型的場景，所述的下一句預測任務任務的目的是讓多模態模型基于輸入的第一輸入序列和第二輸入序列學習到圖片和文本之間的相關性。

4.根據權利要求1或2所述的方法，其中，所述如果待處理數據包含預定數量的圖片，則通過提取每一張圖片的圖片特征并將圖片特征映射至文本特征空間，得到圖片特征向量包括：

5.根據權利要求1或2所述的方法，其中，所述如果待處理數據中圖片張數小于預定數量，則在將圖片特征映射至文本特征空間后，對映射結果根據預設的輸入序列長度進行零填充包括：

6.根據權利要求1至3中任一項所述的方法，其中，所述方法還包括：

7.根據要求1或2所述的方法，其中，多模態模型為風險分模型，所述在多模態模型中基于輸入的多模態融合特征輸出預定預測任務的預測結果包括：

8.一種用于處理多模態數據的裝置，其中，所述裝置包括：

9.一

10.一種計算機可讀介質，其上存儲有計算機程序指令，所述計算機程序指令可被處理器執行以實現如權利要求1至7中任一項所述的方法。

11.一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法。

...

【技術特征摘要】

1.一種用于處理多模態數據的方法，其中，所述方法包括：

2.根據權利要求1所述的方法，其中，所述訓練所述多模態模型包括：

5.根據權利要求1或2所述的方法，其中，所述如果待處理數據中圖片張數小于預定數量，則在將圖片特征映射至文本特征空間后，對映射結果根...

【專利技術屬性】
技術研發人員：丁建文，包穎，黃彥春，
申請(專利權)人：上海嗶哩嗶哩科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術