System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码夫の前で人妻を侵犯,无码人妻一区二区三区免费 ,久久久久亚洲AV片无码下载蜜桃
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品制造方法及圖紙

    技術編號:44285496 閱讀:5 留言:0更新日期:2025-02-14 22:21
    本申請實施例提供多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品。該方法包括:獲取多媒體以及與多媒體相關的文本;對多媒體和文本進行特征處理,得到多媒體特征和文本特征;利用可學習潛變量對文本特征進行語義信息提取,得到語義信息;利用語義信息對多媒體特征進行增強處理,得到文本指導視覺標識;將文本指導視覺標識輸入到大語言模型,生成與多媒體相關的響應結果。將文本中的語義信息提煉,并以其作為指導信息對原本的多媒體特征進行增強處理。克服傳統多模態模型不同模態之間的編碼過程孤立的問題,同時更加貼合現實中人類的思考邏輯,帶著問題與目的去觀察圖像,進而使得多模態模型輸出更加符合用戶提出的文本需求的響應結果。

    【技術實現步驟摘要】

    本申請涉及計算機,尤其涉及多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品


    技術介紹

    1、隨著多模態模型應用技術的發展,在越來越多的場景中使用了多模態技術,比如,在圖文處理場景中,利用多模態模型技術來提高圖文處理能力。

    2、在現有技術中,為了提升多模態模型對圖文處理能力,研發人員專注于對視覺語音模型的模型進行改進,比如,對模型中的連接器和/或語言模型進行優化,取得了一定的改進效果。但是,所取得的改進效果仍然有限,在進行圖文處理的時候,兩者之間的結合不夠緊密,無法像人類處理思維那樣進行圖文分析。因此,需要一種能夠提高多模態模型多媒體處理能力的方案。


    技術實現思路

    1、為解決或改善現有技術中存在的問題,本申請各實施例提供了多媒體處理、模型訓練方法、系統、裝置、設備、介質及產品。

    2、第一方面,在本申請的一個實施例中,提供了一種多媒體處理方法。應用于多模態模型,該方法包括:

    3、獲取多媒體以及與所述多媒體相關的文本;

    4、對所述多媒體和所述文本進行特征處理,得到多媒體特征和文本特征;

    5、利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息;

    6、利用所述語義信息對所述多媒體特征進行增強處理,得到文本指導視覺標識;

    7、將所述文本指導視覺標識輸入到大語言模型,生成與所述多媒體相關的響應結果。

    8、第二方面,在本申請的一個實施例中,提供了一種模型訓練方法。該方法包括:

    >9、構建多模態訓練樣本;其中,所述多模態訓練樣本包括多媒體訓練樣本以及所述多媒體訓練樣本相關的文本訓練樣本;

    10、在保持視覺編碼器和大語言模型的權重不變的情況下,利用所述多模態訓練樣本對投影器和全局掩碼模塊進行訓練,得到第一訓練結果、文本指導的全局掩碼訓練結果;以及,

    11、利用所述投影器訓練輸出的所述第一訓練結果對細節感知器進行訓練,得到文本指導的細節感知令牌訓練結果;

    12、將所述文本指導的全局掩碼訓練結果與所述文本指導的細節感知令牌訓練結果融合到所述大語言模型進行處理,得到多模態輸出結果,以根據所述多模態輸出結果對所述投影器、所述全局掩碼模塊以及所述細節感知器進行優化。

    13、第三方面,本申請的一個實施例中,提供了一種多媒體處理系統,所述系統包括:

    14、多媒體編碼器,用于對多媒體進行編碼處理,得到多媒體特征;

    15、文本編碼器,用于對文本進行編碼處理,得到文本特征;

    16、投影器,用于對所述多媒體特征進行轉換處理,得到與大語言模型對齊的多媒體嵌入令牌;

    17、全局處理模塊,用于利用所述文本特征對所述多媒體特征進行全局增強處理,得到文本指導的全局掩碼;

    18、細節處理模塊,用于利用所述文本特征對所述多媒體特征進行細節增強處理,得到文本指導的細節感知令牌;

    19、所述大語言模型,用于將所述文本指導的全局掩碼和所述文本指導的細節感知令牌輸入大語言模型,生成與所述多媒體相關的響應結果。

    20、第四方面,本申請的一個實施例中,提供了一種多媒體處理裝置,所述裝置包括:

    21、獲取模塊,用于獲取多媒體以及與所述多媒體相關的文本。

    22、特征處理模塊,用于對所述多媒體和所述文本進行特征處理,得到多媒體特征和文本特征。

    23、提取模塊,用于利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息。

    24、增強處理模塊,用于利用所述語義信息對所述多媒體特征進行增強處理,得到文本指導視覺標識。

    25、生成模塊,用于將所述文本指導視覺標識輸入到大語言模型,生成與所述多媒體相關的響應結果。

    26、第五方面,在本申請的一個實施例中,提供了一種電子設備,包括存儲器及處理器;其中,

    27、所述存儲器,用于存儲程序;

    28、所述處理器,與所述存儲器耦合,用于執行所述存儲器中存儲的所述程序,以用于實現第一方面所述的方法。

    29、第六方面,在本申請的一個實施例中,提供了一種非暫時性機器可讀存儲介質,所述非暫時性機器可讀存儲介質上存儲有可執行代碼,當所述可執行代碼被電子設備的處理器執行時,使所述處理器執行如第一方面所述的方法。

    30、第七方面,在本申請的一個實施例中,提供了一種計算機程序產品,包括計算機程序/指令,該計算機程序/指令被處理器執行時實現如第一方面所述的方法。

    31、本申請實施例提供的技術方案,該方案應用于多模態模型,具體來說是能夠進行圖文處理的多模態模型。假設,已經預先訓練好了用于圖文處理的多模態模型后,可以獲取用戶提供或者主動接收到的多媒體,以及與該多媒體相關的文本。分別對多媒體和文本進行特征提取,得到多媒體特征和文本特征。進一步,利用文本特征對多媒體特征進行增強處理。具體如下:利用文本特征對多媒體特征進行全局增強處理,得到文本指導的全局掩碼,實現了借助文本對多媒體進行全局關注;并且,利用文本特征對多媒體特征進行細節增強處理,得到文本指導的細節感知令牌,實現了借助文本對多媒體進行細節感知。這里,通過建立文本特征與多媒體特征的交互關系,使得多模態模型能夠像人類一下通過對文本分析后對多媒體進行細節和全局的關注,從而能夠獲得更加準的模型輸出結果。將得到的文本指導的全局掩碼以及文本指導的細節感知令牌輸入大語言模型后,得到準確的與多媒體相關的響應結果。通過上述方式,將文本中的語義信息提煉,并以其作為指導信息對原本的多媒體特征進行增強處理。這樣一來克服了傳統多模態模型不同模態之間的編碼過程孤立的窘境,同時更加貼合現實中人類的思考邏輯,帶著問題與目的去觀察物體,進而使得多模態模型輸出更加符合用戶提出的文本需求的響應結果。

    本文檔來自技高網...

    【技術保護點】

    1.一種多媒體處理方法,其特征在于,應用于多模態模型,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述多媒體和所述文本進行特征處理,得到多媒體特征和文本特征,包括:

    3.根據權利要求1或2所述的方法,其特征在于,所述利用所述語義信息對所述多媒體特征進行增強處理,得到文本指導視覺標識,包括:

    4.根據權利要求3所述的方法,其特征在于,所述利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息,包括:

    5.根據權利要求3所述的方法,其特征在于,所述利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息,包括:

    6.根據權利要求5所述的方法,其特征在于,利用文本細節指導令牌對所述多媒體特征進行增強處理之前,還包括:

    7.根據權利要求1所述的方法,其特征在于,所述將所述文本指導視覺標識輸入到大語言模型,包括:

    8.一種模型訓練方法,其特征在于,所述方法包括:

    9.一種多媒體處理系統,其特征在于,所述系統包括:

    10.一種多媒體處理裝置,其特征在于,應用于服務器,所述裝置包括:

    11.一種電子設備,包括存儲器及處理器;其中,

    12.一種非暫時性機器可讀存儲介質,所述非暫時性機器可讀存儲介質上存儲有可執行代碼,當所述可執行代碼被電子設備的處理器執行時,使所述處理器執行如權利要求1至8中任一項所述的方法。

    13.一種計算機程序產品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執行時實現權利要求1至8中任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種多媒體處理方法,其特征在于,應用于多模態模型,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述多媒體和所述文本進行特征處理,得到多媒體特征和文本特征,包括:

    3.根據權利要求1或2所述的方法,其特征在于,所述利用所述語義信息對所述多媒體特征進行增強處理,得到文本指導視覺標識,包括:

    4.根據權利要求3所述的方法,其特征在于,所述利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息,包括:

    5.根據權利要求3所述的方法,其特征在于,所述利用可學習潛變量對所述文本特征進行語義信息提取,得到語義信息,包括:

    6.根據權利要求5所述的方法,其特征在于,利用文本細節指導令牌對所述多媒體特征進行增強處理之前,還包括:...

    【專利技術屬性】
    技術研發人員:李揚閆大偉陳慶國
    申請(專利權)人:杭州阿里巴巴海外互聯網產業有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲精品无码VA大香大香| 国产精品无码A∨精品影院| 无码国产精品一区二区免费式影视| 无码人妻精品一区二区蜜桃| 久久精品无码一区二区日韩AV | 国产激情无码视频在线播放性色| 亚洲av无码片在线播放| 免费无码又爽又黄又刺激网站| 国产精品三级在线观看无码| 国产福利无码一区在线| 亚洲日韩国产精品无码av| 影院无码人妻精品一区二区| 婷婷四虎东京热无码群交双飞视频| 在线a亚洲v天堂网2019无码 | 无码熟妇αⅴ人妻又粗又大| 亚洲国产成人精品无码区在线秒播 | 久久人妻少妇嫩草AV无码蜜桃| 久久久久久久亚洲Av无码| 亚洲真人无码永久在线| 国产成人精品无码专区| 中文字幕av无码无卡免费| 久久AV高清无码| 精品人妻大屁股白浆无码| 亚洲av无码一区二区三区不卡| 国产成人无码一区二区在线观看 | 四虎成人精品无码永久在线| 亚洲av中文无码乱人伦在线观看 | 无码精品前田一区二区| 欧美性生交xxxxx无码影院∵| 69天堂人成无码麻豆免费视频| 无码人妻久久久一区二区三区| 无码人妻精品中文字幕| 精品无码久久久久国产| av区无码字幕中文色| 毛片免费全部播放无码| 无码高潮爽到爆的喷水视频app| 亚洲精品无码你懂的| 日韩精品中文字幕无码专区| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 国产在线无码视频一区二区三区| 免费一区二区无码东京热|