多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品制造方法及圖紙

技術編號：44285496 閱讀：5 留言：0更新日期：2025-02-14 22:21

本申請實施例提供多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品。該方法包括：獲取多媒體以及與多媒體相關的文本；對多媒體和文本進行特征處理，得到多媒體特征和文本特征；利用可學習潛變量對文本特征進行語義信息提取，得到語義信息；利用語義信息對多媒體特征進行增強處理，得到文本指導視覺標識；將文本指導視覺標識輸入到大語言模型，生成與多媒體相關的響應結果。將文本中的語義信息提煉，并以其作為指導信息對原本的多媒體特征進行增強處理。克服傳統多模態模型不同模態之間的編碼過程孤立的問題，同時更加貼合現實中人類的思考邏輯，帶著問題與目的去觀察圖像，進而使得多模態模型輸出更加符合用戶提出的文本需求的響應結果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及計算機，尤其涉及多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品。

技術介紹

1、隨著多模態模型應用技術的發展，在越來越多的場景中使用了多模態技術，比如，在圖文處理場景中，利用多模態模型技術來提高圖文處理能力。

2、在現有技術中，為了提升多模態模型對圖文處理能力，研發人員專注于對視覺語音模型的模型進行改進，比如，對模型中的連接器和/或語言模型進行優化，取得了一定的改進效果。但是，所取得的改進效果仍然有限，在進行圖文處理的時候，兩者之間的結合不夠緊密，無法像人類處理思維那樣進行圖文分析。因此，需要一種能夠提高多模態模型多媒體處理能力的方案。

技術實現思路

1、為解決或改善現有技術中存在的問題，本申請各實施例提供了多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品。

2、第一方面，在本申請的一個實施例中，提供了一種多媒體處理方法。應用于多模態模型，該方法包括：

3、獲取多媒體以及與所述多媒體相關的文本；

4、對所述多媒體和所述文本進行特征處理，得到多媒體特征和文本特征；

5、利用可學習潛變量對所述文本特征進行語義信息提取，得到語義信息；

6、利用所述語義信息對所述多媒體特征進行增強處理，得到文本指導視覺標識；

7、將所述文本指導視覺標識輸入到大語言模型，生成與所述多媒體相關的響應結果。

8、第二方面，在本申請的一個實施例中，提供了一種模型訓練方法。該方法包括：

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術