數(shù)據(jù)生成方法、裝置及電子設(shè)備制造方法及圖紙

技術(shù)編號：43972925 閱讀：8 留言：0更新日期：2025-01-10 20:00

本申請公開一種數(shù)據(jù)生成方法、裝置及電子設(shè)備，屬于人工智能技術(shù)領(lǐng)域，該方法包括：通過第一大語言模型，對第一語料集的原始文本語料進行擴充處理，得到第二語料集，其中，所述第一語料集包含至少兩條原始文本語料，所述第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料；通過文生圖模型，生成與所述第二語料集中每條文本語料相關(guān)的描述圖像；對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像；其中，一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本申請屬于人工智能，具體涉及一種數(shù)據(jù)生成方法、裝置及電子設(shè)備。

技術(shù)介紹

1、隨著人工智能技術(shù)的不斷發(fā)展，大型語言模型如gpt-3、bert等在文本生成領(lǐng)域取得了巨大成功。然而，對于多模態(tài)大模型訓(xùn)練所需的圖文對數(shù)據(jù)的生成，尤其是高質(zhì)量、多樣化的圖文對數(shù)據(jù)，仍然是一個具有挑戰(zhàn)性的問題。相關(guān)技術(shù)中，圖文對數(shù)據(jù)的生成方法主要依賴于大量的手工標注數(shù)據(jù)，成本較高且比較耗時，導(dǎo)致圖文對數(shù)據(jù)的生成效率較低，限制了圖文對數(shù)據(jù)的規(guī)模和多樣性。

技術(shù)實現(xiàn)思路

1、本申請實施例的目的是提供一種數(shù)據(jù)生成方法、裝置及電子設(shè)備，能夠降低圖文對數(shù)據(jù)的生成成本和耗時，提高圖文對數(shù)據(jù)的生成效率，擴大圖文對數(shù)據(jù)的規(guī)模，提高圖文對數(shù)據(jù)的內(nèi)容多樣性。

2、第一方面，本申請實施例提供了一種數(shù)據(jù)生成方法，包括：

3、通過第一大語言模型，對第一語料集中的原始文本語料進行擴充處理，得到第二語料集，其中，所述第一語料集包含至少兩條原始文本語料，所述第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料；

4、通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像；

5、對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像；

6、其中，一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

7、第二方面，本申請實施例提供了一種數(shù)據(jù)生成裝置，包括：

8、處理模塊，用于通過第一大語言模型

9、通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像；

10、對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像；

11、其中，一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

12、第三方面，本申請實施例提供了一種電子設(shè)備，包括處理器和存儲器，所述存儲器存儲可在所述處理器上運行的程序或指令，所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

13、第四方面，本申請實施例提供了一種可讀存儲介質(zhì)，所述可讀存儲介質(zhì)上存儲程序或指令，所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

14、第五方面，本申請實施例提供了一種芯片，所述芯片包括處理器和通信接口，所述通信接口和所述處理器耦合，所述處理器用于運行程序或指令，實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

15、第六方面，本申請實施例提供一種計算機程序產(chǎn)品，該程序產(chǎn)品被存儲在存儲介質(zhì)中，該程序產(chǎn)品被至少一個處理器執(zhí)行以實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

16、在本申請實施例中，通過第一大語言模型，對第一語料集中的原始文本語料進行擴充處理，得到第二語料集，其中，第一語料集包含至少兩條原始文本語料，第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料；通過文生圖模型，生成與第二語料集中的每條文本語料相關(guān)的描述圖像；對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像；其中，一張增強圖像和一張增強圖像對應(yīng)的第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。可見，本申請實施例中，由于以上圖文對數(shù)據(jù)的生成過程中，只需利用大語言模型、文生圖模型和傳統(tǒng)的數(shù)據(jù)增強技術(shù)，就可以自動化地完成由文本數(shù)據(jù)到高質(zhì)量、多樣化的圖文對數(shù)據(jù)的生成，而不必用戶手工標注，因此能夠降低圖文對數(shù)據(jù)的生成成本和耗時，提高圖文對數(shù)據(jù)的生成效率，擴大圖文對數(shù)據(jù)的規(guī)模，提高圖文對數(shù)據(jù)的內(nèi)容多樣性。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種數(shù)據(jù)生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過第一大語言模型，對第一語料集中的原始文本語料進行擴充處理，得到第二語料集之前，還包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過第一大語言模型，對描述性語料類別的原始文本語料進行擴充處理，得到所述描述性語料類別的原始文本語料對應(yīng)的擴充文本語料，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過所述第一大語言模型，對OCR語料類別的原始文本語料進行擴充處理，得到所述OCR語料類別的原始文本語料對應(yīng)的擴充文本語料，包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像，包括：

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像，包括：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像，包括：

8.根據(jù)權(quán)利要求2所

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述在所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像中，添加光影干擾信息，包括：

10.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述對添加光影干擾信息后的每張描述圖像進行扭曲處理，包括：

11.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

12.一種數(shù)據(jù)生成裝置，其特征在于，包括：

13.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述處理模塊，還用于通過第二大語言模型，確定所述第一語料集中的每條原始文本語料的語料類別，其中，所述語料類別包括以下至少一種：描述性語料類別、光學(xué)字符識別OCR語料類別、無效語料類別；

14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于通過第一大語言模型，確定描述性語料類別的原始文本語料所描述的場景信息；

15.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于通過所述第一大語言模型，確定OCR語料類別的原始文本語料的語義信息和內(nèi)容信息；

16.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于通過文生圖模型，生成所述第二語料集中的描述性語料類別的每條文本語料對應(yīng)的描述圖像。

17.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于提取所述第二語料集中的OCR語料類別的每條文本語料的關(guān)鍵信息；

18.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于在所述第二語料集中的描述性語料類別的每條文本語料對應(yīng)的描述圖像中，添加隨機噪聲，得到每張描述圖像的增強圖像。

19.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述處理模塊，具體用于在所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像中，添加光影干擾信息，并對添加光影干擾信息后的每張描述圖像進行扭曲處理；

20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述處理模塊，具體用于對參考圖像和所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像進行圖像融合處理；

21.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述處理模塊，具體用于將文檔校正數(shù)據(jù)集Doc3D的樣本圖像的三維形變坐標映射到二維坐標系，得到二維形變坐標；

22.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述處理模塊，還用于通過多模態(tài)大模型，確定每個語料圖文對的文本語料與增強圖像是否匹配；

23.一種電子設(shè)備，其特征在于，包括處理器和存儲器，所述存儲器存儲可在所述處理器上運行的程序或指令，所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-11中任一項所述的數(shù)據(jù)生成方法的步驟。

...

【技術(shù)特征摘要】

1.一種數(shù)據(jù)生成方法，其特征在于，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過所述第一大語言模型，對ocr語料類別的原始文本語料進行擴充處理，得到所述ocr語料類別的原始文本語料對應(yīng)的擴充文本語料，包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像，包括：

6.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述通過文生圖模型，生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像，包括：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像，包括：

8.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述對每張描述圖像進行數(shù)據(jù)增強處理，得到每張描述圖像的增強圖像，包括：

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述在所述第二語料集中的ocr語料類別的每條文本語料對應(yīng)的描述圖像中，添加光影干擾信息，包括：

10.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述對添加光影干擾信息后的每張描述圖像進行扭曲處理，包括：

11.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

12.一種數(shù)據(jù)生成裝置，其特征在于，包括：

13.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述處理模塊，還用于通過第二大語言模型，確定所述第一語料集中的每條原始文本語料的語料類別，其中，所述語料類別包括以下至少一種：描述性語料類別、光學(xué)字符識別ocr語料類別、無效語料...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：吳磊，
申請(專利權(quán))人：維沃移動通信有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)