System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕久久精品无码APP,免费人妻无码不卡中文字幕18禁,无码专区天天躁天天躁在线
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數(shù)據(jù)生成方法、裝置及電子設(shè)備制造方法及圖紙

    技術(shù)編號:43972925 閱讀:8 留言:0更新日期:2025-01-10 20:00
    本申請公開一種數(shù)據(jù)生成方法、裝置及電子設(shè)備,屬于人工智能技術(shù)領(lǐng)域,該方法包括:通過第一大語言模型,對第一語料集的原始文本語料進行擴充處理,得到第二語料集,其中,所述第一語料集包含至少兩條原始文本語料,所述第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料;通過文生圖模型,生成與所述第二語料集中每條文本語料相關(guān)的描述圖像;對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像;其中,一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請屬于人工智能,具體涉及一種數(shù)據(jù)生成方法、裝置及電子設(shè)備


    技術(shù)介紹

    1、隨著人工智能技術(shù)的不斷發(fā)展,大型語言模型如gpt-3、bert等在文本生成領(lǐng)域取得了巨大成功。然而,對于多模態(tài)大模型訓(xùn)練所需的圖文對數(shù)據(jù)的生成,尤其是高質(zhì)量、多樣化的圖文對數(shù)據(jù),仍然是一個具有挑戰(zhàn)性的問題。相關(guān)技術(shù)中,圖文對數(shù)據(jù)的生成方法主要依賴于大量的手工標注數(shù)據(jù),成本較高且比較耗時,導(dǎo)致圖文對數(shù)據(jù)的生成效率較低,限制了圖文對數(shù)據(jù)的規(guī)模和多樣性。


    技術(shù)實現(xiàn)思路

    1、本申請實施例的目的是提供一種數(shù)據(jù)生成方法、裝置及電子設(shè)備,能夠降低圖文對數(shù)據(jù)的生成成本和耗時,提高圖文對數(shù)據(jù)的生成效率,擴大圖文對數(shù)據(jù)的規(guī)模,提高圖文對數(shù)據(jù)的內(nèi)容多樣性。

    2、第一方面,本申請實施例提供了一種數(shù)據(jù)生成方法,包括:

    3、通過第一大語言模型,對第一語料集中的原始文本語料進行擴充處理,得到第二語料集,其中,所述第一語料集包含至少兩條原始文本語料,所述第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料;

    4、通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像;

    5、對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像;

    6、其中,一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

    7、第二方面,本申請實施例提供了一種數(shù)據(jù)生成裝置,包括:

    8、處理模塊,用于通過第一大語言模型,對第一語料集中的原始文本語料進行擴充處理,得到第二語料集,其中,所述第一語料集包含至少兩條原始文本語料,所述第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料;

    9、通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像;

    10、對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像;

    11、其中,一張增強圖像和一張增強圖像對應(yīng)的所述第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。

    12、第三方面,本申請實施例提供了一種電子設(shè)備,包括處理器和存儲器,所述存儲器存儲可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

    13、第四方面,本申請實施例提供了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)上存儲程序或指令,所述程序或指令被處理器執(zhí)行時實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

    14、第五方面,本申請實施例提供了一種芯片,所述芯片包括處理器和通信接口,所述通信接口和所述處理器耦合,所述處理器用于運行程序或指令,實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

    15、第六方面,本申請實施例提供一種計算機程序產(chǎn)品,該程序產(chǎn)品被存儲在存儲介質(zhì)中,該程序產(chǎn)品被至少一個處理器執(zhí)行以實現(xiàn)如第一方面所述的數(shù)據(jù)生成方法的步驟。

    16、在本申請實施例中,通過第一大語言模型,對第一語料集中的原始文本語料進行擴充處理,得到第二語料集,其中,第一語料集包含至少兩條原始文本語料,第二語料集包含擴充處理得到的擴充文本語料和每條擴充文本語料對應(yīng)的原始文本語料;通過文生圖模型,生成與第二語料集中的每條文本語料相關(guān)的描述圖像;對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像;其中,一張增強圖像和一張增強圖像對應(yīng)的第二語料集中的擴充文本語料構(gòu)成一個語料圖文對。可見,本申請實施例中,由于以上圖文對數(shù)據(jù)的生成過程中,只需利用大語言模型、文生圖模型和傳統(tǒng)的數(shù)據(jù)增強技術(shù),就可以自動化地完成由文本數(shù)據(jù)到高質(zhì)量、多樣化的圖文對數(shù)據(jù)的生成,而不必用戶手工標注,因此能夠降低圖文對數(shù)據(jù)的生成成本和耗時,提高圖文對數(shù)據(jù)的生成效率,擴大圖文對數(shù)據(jù)的規(guī)模,提高圖文對數(shù)據(jù)的內(nèi)容多樣性。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種數(shù)據(jù)生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過第一大語言模型,對第一語料集中的原始文本語料進行擴充處理,得到第二語料集之前,還包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過第一大語言模型,對描述性語料類別的原始文本語料進行擴充處理,得到所述描述性語料類別的原始文本語料對應(yīng)的擴充文本語料,包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過所述第一大語言模型,對OCR語料類別的原始文本語料進行擴充處理,得到所述OCR語料類別的原始文本語料對應(yīng)的擴充文本語料,包括:

    5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像,包括:

    6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像,包括:

    7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像,包括:

    8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像,包括:

    9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述在所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像中,添加光影干擾信息,包括:

    10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對添加光影干擾信息后的每張描述圖像進行扭曲處理,包括:

    11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

    12.一種數(shù)據(jù)生成裝置,其特征在于,包括:

    13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述處理模塊,還用于通過第二大語言模型,確定所述第一語料集中的每條原始文本語料的語料類別,其中,所述語料類別包括以下至少一種:描述性語料類別、光學(xué)字符識別OCR語料類別、無效語料類別;

    14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于通過第一大語言模型,確定描述性語料類別的原始文本語料所描述的場景信息;

    15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于通過所述第一大語言模型,確定OCR語料類別的原始文本語料的語義信息和內(nèi)容信息;

    16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于通過文生圖模型,生成所述第二語料集中的描述性語料類別的每條文本語料對應(yīng)的描述圖像。

    17.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于提取所述第二語料集中的OCR語料類別的每條文本語料的關(guān)鍵信息;

    18.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于在所述第二語料集中的描述性語料類別的每條文本語料對應(yīng)的描述圖像中,添加隨機噪聲,得到每張描述圖像的增強圖像。

    19.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊,具體用于在所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像中,添加光影干擾信息,并對添加光影干擾信息后的每張描述圖像進行扭曲處理;

    20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述處理模塊,具體用于對參考圖像和所述第二語料集中的OCR語料類別的每條文本語料對應(yīng)的描述圖像進行圖像融合處理;

    21.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述處理模塊,具體用于將文檔校正數(shù)據(jù)集Doc3D的樣本圖像的三維形變坐標映射到二維坐標系,得到二維形變坐標;

    22.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述處理模塊,還用于通過多模態(tài)大模型,確定每個語料圖文對的文本語料與增強圖像是否匹配;

    23.一種電子設(shè)備,其特征在于,包括處理器和存儲器,所述存儲器存儲可在所述處理器上運行的程序或指令,所述程序或指令被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-11中任一項所述的數(shù)據(jù)生成方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種數(shù)據(jù)生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過第一大語言模型,對第一語料集中的原始文本語料進行擴充處理,得到第二語料集之前,還包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過第一大語言模型,對描述性語料類別的原始文本語料進行擴充處理,得到所述描述性語料類別的原始文本語料對應(yīng)的擴充文本語料,包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過所述第一大語言模型,對ocr語料類別的原始文本語料進行擴充處理,得到所述ocr語料類別的原始文本語料對應(yīng)的擴充文本語料,包括:

    5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像,包括:

    6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述通過文生圖模型,生成與所述第二語料集中的每條文本語料相關(guān)的描述圖像,包括:

    7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像,包括:

    8.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對每張描述圖像進行數(shù)據(jù)增強處理,得到每張描述圖像的增強圖像,包括:

    9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述在所述第二語料集中的ocr語料類別的每條文本語料對應(yīng)的描述圖像中,添加光影干擾信息,包括:

    10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對添加光影干擾信息后的每張描述圖像進行扭曲處理,包括:

    11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

    12.一種數(shù)據(jù)生成裝置,其特征在于,包括:

    13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述處理模塊,還用于通過第二大語言模型,確定所述第一語料集中的每條原始文本語料的語料類別,其中,所述語料類別包括以下至少一種:描述性語料類別、光學(xué)字符識別ocr語料類別、無效語料...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:吳磊
    申請(專利權(quán))人:維沃移動通信有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产精品一区二区免费式直播 | 2020无码专区人妻系列日韩| 亚洲AV无码国产在丝袜线观看| 日韩人妻无码一区二区三区久久 | 熟妇人妻中文字幕无码老熟妇| 亚洲最大av资源站无码av网址| 国产精品无码av天天爽 | 无码国产色欲XXXXX视频| 国产精品无码AV天天爽播放器| 亚洲av无码乱码国产精品fc2| 亚洲视频无码高清在线| 亚洲第一极品精品无码久久| 人妻无码中文字幕| 亚洲av无码专区在线电影天堂| 一夲道无码人妻精品一区二区| 国产午夜无码福利在线看网站| av无码久久久久久不卡网站| 无码无遮挡又大又爽又黄的视频| 国语成本人片免费av无码| 97性无码区免费| 久久av无码专区亚洲av桃花岛| 一本一道AV无码中文字幕| 国产精品亚洲а∨无码播放不卡 | 台湾无码AV一区二区三区| 无码高潮少妇毛多水多水免费| 中文字幕人成无码人妻| 中文字幕无码不卡一区二区三区| 无码无遮挡又大又爽又黄的视频| 成人无码WWW免费视频| 久久影院午夜理论片无码| 日本爆乳j罩杯无码视频| 久久国产精品无码网站| 日本爆乳j罩杯无码视频| 久久国产加勒比精品无码| 亚洲国产AV无码专区亚洲AV | 中文无码日韩欧免费视频| 亚洲成A∨人片天堂网无码| 波多野结衣AV无码久久一区| 亚洲日韩精品A∨片无码| 国产AV无码专区亚洲AV手机麻豆| 国产成人无码av|