System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其是涉及到一種合規文生圖訓練集構建方法、裝置、設備及存儲介質。
技術介紹
1、文生圖模型(text-to-image?models)是一種根據文本描述生成相應的圖像的人工智能模型,如生成對抗網絡(gans)、擴散模型(diffusion?models)或自回歸模型等,文生圖模型可以基于深度學習技術來學習文本和圖像之間的映射關系。通過構建訓練集,并使用訓練集對文生圖模型執行訓練,使文生圖模型能夠正確理解輸入的文本描述,并輸出符合文本描述的圖像。
2、由于文生圖模型基于單一語言語料進行訓練,導致對于其他語言的支持能力受限。并且文生圖模型的訓練語料在構建時,主要考慮當地的價值觀及法律限制,導致生成的結果偏向于當地要求,與其他地區的要求區別較大,因此直接使用訓練好的文生圖模型經常輸出不合規的圖像生成結果。
3、為了獲得合規的圖像生成結果,需要重新構建符合使用地區要求的訓練語料,用于執行文生圖模型訓練。例如,在壽險、健康險、產險等業務場景中,為了維護客情、拓展新客而創建的宣傳文案中使用的圖像,多數為本地元素及風格,同時還要考慮本地的法律法規及道德規范,因此需要構建相應訓練語料訓練模型才能更好的滿足此類業務場景需求。但是,文生圖模型訓練過程需要大量的訓練數據集,如果從零構建訓練語料,不僅構建周期長,而且容易導致模型泛化能力下降,輸出的圖像生成結果不準確。
技術實現思路
1、有鑒于此,本申請實施例提供一種合規文生圖訓練集構建方法、裝置、設備及存儲介質
2、根據本申請的一個方面,提供一種合規文生圖訓練集構建方法,所述方法包括:
3、獲取開源訓練數據集,所述開源訓練數據集包括訓練語料數據,所述訓練語料數據包括圖片語料以及與所述圖片語料具有關聯關系的文本標注語料;
4、根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,所述合規語料數據包括合規圖片以及合規文本標注;所述合規性評價信息至少包括版權信息、敏感詞信息以及圖像特征信息中的一種;
5、基于所述合規語料數據中的合規圖片反推提示詞;
6、將所述提示詞輸入目標文生圖模型,以通過所述目標文生圖模型生成擴充圖像,所述目標文生圖模型為適用于目標領域且已訓練好的文生圖模型;
7、根據所述提示詞、所述擴充圖像以及所述合規語料數據構建合規文生圖訓練集。
8、根據本申請的另一方面,提供一種合規文生圖訓練集構建裝置,所述裝置包括:
9、數據獲取模塊,用于獲取開源訓練數據集,所述開源訓練數據集包括訓練語料數據,所述訓練語料數據包括圖片語料以及與所述圖片語料具有關聯關系的文本標注語料;
10、合規性檢測模塊,用于根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,所述合規語料數據包括合規圖片以及合規文本標注;所述合規性評價信息至少包括版權信息、敏感詞信息以及圖像特征信息中的一種;
11、提示詞生成模塊,用于基于所述合規語料數據中的合規圖片反推提示詞;
12、圖像擴充模塊,用于將所述提示詞輸入目標文生圖模型,以通過所述目標文生圖模型生成擴充圖像,所述目標文生圖模型為適用于目標領域且已訓練好的文生圖模型;
13、數據集構建模塊,用于根據所述提示詞、所述擴充圖像以及所述合規語料數據構建合規文生圖訓練集。
14、依據本申請又一個方面,提供一種計算機設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現上述合規文生圖訓練集構建方法。
15、依據本申請再一個方面,提供一種存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現上述合規文生圖訓練集構建方法。
16、借由上述技術方案,本申請實施例提供的一種合規文生圖訓練集構建方法、裝置、設備及存儲介質,可以在獲取開源訓練數據集后,先根據合規性評價信息從開源訓練數據集中提取合規語料數據,再基于合規語料數據中的合規圖片反推提示詞,以及將提示詞輸入目標文生圖模型,以通過目標文生圖模型生成擴充圖像,再根據提示詞、擴充圖像以及合規語料數據構建合規文生圖訓練集。所述方法可以基于開源訓練數據集構建適配指定業務場景的合規訓練集,縮短數據集的構建周期。并且通過擴充圖像,提升訓練數據集的數據量,使得在應用構建的訓練數據集后,文生圖模型可以輸出更準確的圖像生成結果。所述方法還可以快速應用到其他文生圖模型以及圖片理解的開源語料上,提高訓練集的擴展性。此外,通過微調范式可以容易的遷移到不同業務領域,達到賦能業務的目的。
17、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
本文檔來自技高網...【技術保護點】
1.一種合規文生圖訓練集構建方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
3.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
4.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
5.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
6.根據權利要求1所述的方法,其特征在于,將所述提示詞輸入目標文生圖模型,以通過所述目標文生圖模型生成擴充圖像,包括:
7.根據權利要求1所述的方法,其特征在于,將所述提示詞輸入目標文生圖模型,以通過所述目標文生圖模型生成擴充圖像,包括:
8.一種合規文生圖訓練集構建裝置,其特征在于,所述裝置包括:
9.一種計算機設備,包括存儲介質、處理器及存儲在存儲介質上并可在處理器上運行的計算機程序,其特征在于,
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法。
...【技術特征摘要】
1.一種合規文生圖訓練集構建方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
3.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
4.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
5.根據權利要求1所述的方法,其特征在于,根據合規性評價信息從所述開源訓練數據集中提取合規語料數據,包括:
6.根據權利要求1所述的方法,其特征在于,將...
【專利技術屬性】
技術研發人員:鄭喜民,舒暢,陳遠旭,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。