System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及文本數據生成,尤其涉及一種文本數據生成方法、裝置、電子設備及介質。
技術介紹
1、隨著互聯網技術的飛速發展,多模態大語言模型在圖像與文本的識別與理解中展現出了巨大的潛力。這些模型能夠通過對圖像和文本的融合分析,提供更為豐富的語義理解,從而推動了計算機視覺和自然語言處理領域的進步。
2、然而,現有的多模態大語言模型在向人工通用智能系統的演進過程中,面臨著幾個顯著的關鍵缺點。首先,盡管大型語言模型在參數規模和性能上取得了顯著進展,現有的多模態模型在視覺和視覺語言基礎模型的發展上卻未能保持同步。這導致視覺編碼器的參數規模和特征表示能力與大型語言模型之間存在顯著差距,限制了多模態模型的整體表現。其次,當前的多模態大語言模型通常采用輕量級的“膠水”層來對齊視覺和語言模型的特征。然而,這種方法在參數尺度的差異、表征的一致性以及連接的效率等方面存在諸多問題,影響了模型的整體性能和應用效果。此外,現實世界中圖像的多樣性和復雜性對多模態大語言模型的魯棒性提出了嚴峻挑戰?,F有模型在處理低分辨率和多尺度圖像時表現出一定的局限性,難以充分捕捉圖像中的細節和豐富信息,從而影響了語義理解的準確性和深度。最后,現有的多模態大語言模型缺乏對目標級特征的有效整合以及對多維度特征的處理能力。這一不足限制了模型在復雜視覺場景中的表現,降低了其理解深度和應用范圍。因此,亟需對多模態大語言模型進行改進,以提升其在視覺和語言交互中的表現能力,從而推動人工通用智能系統的進一步發展。
技術實現思路
1、有鑒
2、本公開實施例的第一方面,提供了一種文本數據生成方法,包括:獲取圖像數據和提示文本數據;通過多粒度圖像編碼器對圖像數據進行語義處理,得到圖像數據的語義特征,多粒度圖像編碼器是基于歷史圖像數據和歷史圖像數據的真實語義文本數據訓練的;通過第一多層感知機對圖像數據的語義特征進行處理,得到第一語義特征;通過第一文本編碼器對提示文本數據進行編碼處理,并通過第二多層感知機對第一文本編碼器的結果進行處理,得到第二語義特征,第一文本編碼器是基于歷史圖像數據的真實語義文本數據和多粒度圖像編碼器輸出的結果訓練的;通過第二文本編碼器對提示文本數據進行編碼處理,并通過第三多層感知機多第二文本編碼器的結果進行處理,得到第三語義特征,第二文本編碼器是基于歷史圖像數據和歷史提示文本數據訓練的;對第一語義特征、第二語義特征、以及第三語義特征進行拼接處理,得到圖像數據的目標語義數據;通過大語言模型對圖像數據的目標語義數據進行處理,得到圖像數據的反饋文本數據。
3、本公開實施例的第二方面,提供了一種文本數據生成裝置,包括:獲取模塊,用于獲取圖像數據和提示文本數據;第一處理模塊,用于通過多粒度圖像編碼器對圖像數據進行語義處理,得到圖像數據的語義特征,多粒度圖像編碼器是基于歷史圖像數據和歷史圖像數據的真實語義文本數據訓練的;第二處理模塊,用于通過第一多層感知機對圖像數據的語義特征進行處理,得到第一語義特征;第三處理模塊,用于通過第一文本編碼器對提示文本數據進行編碼處理,并通過第二多層感知機對第一文本編碼器的結果進行處理,得到第二語義特征,第一文本編碼器是基于歷史圖像數據的真實語義文本數據和多粒度圖像編碼器輸出的結果訓練的;第四處理模塊,用于通過第二文本編碼器對提示文本數據進行編碼處理,并通過第三多層感知機多第二文本編碼器的結果進行處理,得到第三語義特征,第二文本編碼器是基于歷史圖像數據和歷史提示文本數據訓練的;拼接模塊,用于對第一語義特征、第二語義特征、以及第三語義特征進行拼接處理,得到圖像數據的目標語義數據;生成文本模塊,用于通過大語言模型對圖像數據的目標語義數據進行處理,得到圖像數據的反饋文本數據。
4、本公開實施例的第三方面,提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序,該處理器執行計算機程序時實現上述方法的步驟。
5、本公開實施例的第四方面,提供了一種計算機可讀存儲介質,該計算機可讀存儲介質存儲有計算機程序,該計算機程序被處理器執行時實現上述方法的步驟。
6、本公開實施例與現有技術相比存在的有益效果是:本公開實施例可以通過多粒度圖像編碼器對圖像數據進行語義處理,能夠提取更為豐富和細致的語義特征。這種基于歷史圖像數據和真實語義文本數據的訓練方式,使得模型能夠更好地理解圖像內容,從而提升了對復雜視覺場景的理解深度。通過將第一文本編碼器與多粒度圖像編碼器的輸出結果相結合,能夠有效減少不同特征表示之間的差異,提高了圖像和文本特征的對齊效果。這種一致性有助于模型在處理多模態數據時,提供更為準確的語義反饋。通過對第一、第二、第三語義特征的拼接處理,實現了對不同維度特征的有效整合。這種多層次的特征融合能夠更全面地反映圖像數據的目標語義,提升了模型在復雜任務中的表現能力。本專利技術在處理低分辨率和多尺度圖像時,通過多粒度圖像編碼器增強了模型對圖像多樣性和復雜性的魯棒性。這使得模型在實際應用中能夠更好地適應不同場景和條件下的圖像數據。通過大語言模型對圖像數據的目標語義數據進行處理,能夠生成更為精準和相關的反饋文本數據。這種高質量的文本反饋不僅提升了用戶體驗,也為后續的應用提供了更為可靠的信息基礎。
本文檔來自技高網...【技術保護點】
1.一種文本數據生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,在所述通過多粒度圖像編碼器對所述圖像數據進行語義處理之前,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,在所述通過第一文本編碼器對所述提示文本數據進行編碼處理之前,所述方法還包括:
4.根據權利要求2所述的方法,其特征在于,所述多粒度圖像編碼器中還包含交叉注意力層、第四多層感知機和第五多層感知機;
5.根據權利要求4所述的方法,其特征在于,在所述通過第二文本編碼器對所述提示文本數據進行編碼處理之前,所述方法還包括:
6.根據權利要求5所述的方法,其特征在于,在所述通過第一多層感知機對所述圖像數據的語義特征進行處理之前,所述方法還包括:
7.根據權利要求2所述的方法,其特征在于,通過多粒度圖像編碼器對所述圖像數據進行語義處理,得到所述圖像數據的語義特征包括:
8.一種文本數據生成裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述方法的步驟。
...【技術特征摘要】
1.一種文本數據生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,在所述通過多粒度圖像編碼器對所述圖像數據進行語義處理之前,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,在所述通過第一文本編碼器對所述提示文本數據進行編碼處理之前,所述方法還包括:
4.根據權利要求2所述的方法,其特征在于,所述多粒度圖像編碼器中還包含交叉注意力層、第四多層感知機和第五多層感知機;
5.根據權利要求4所述的方法,其特征在于,在所述通過第二文本編碼器對所述提示文本數據進行編碼處理之前,所述方法還包括:
6.根據權利要求5所述的方法,其特征在于,在所述...
【專利技術屬性】
技術研發人員:石雅潔,
申請(專利權)人:北京龍智數科科技服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。