當(dāng)前位置: 首頁(yè) > 專利查詢>中電信數(shù)智科技有限公司專利>正文

一種基于LLM的數(shù)據(jù)集制作方法、系統(tǒng)、設(shè)備及介質(zhì)技術(shù)方案

技術(shù)編號(hào)：44486866 閱讀：5 留言：0更新日期：2025-03-04 17:52

本發(fā)明專利技術(shù)公開了一種基于LLM的數(shù)據(jù)集制作方法、系統(tǒng)、設(shè)備及介質(zhì)，包括：進(jìn)行數(shù)據(jù)收集，形成含有多樣性標(biāo)注的數(shù)據(jù)集，確保數(shù)據(jù)集中的數(shù)據(jù)具有多樣化的來源；采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理：首先對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，識(shí)別出存在偏差的數(shù)據(jù)類別或?qū)傩裕蝗缓蟾鶕?jù)這些數(shù)據(jù)類別或?qū)傩缘臄?shù)據(jù)樣本的數(shù)量和重要性，對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行加權(quán)或重采樣，使得數(shù)據(jù)集在整體上更加均衡；采用對(duì)抗訓(xùn)練技術(shù)增強(qiáng)數(shù)據(jù)集的多樣性和公平性；通過指標(biāo)進(jìn)行評(píng)估和調(diào)整。本發(fā)明專利技術(shù)通過上述方案能夠增強(qiáng)數(shù)據(jù)集的多樣性和公平性，提升LLM在實(shí)際應(yīng)用中的表現(xiàn)。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及數(shù)據(jù)集制作，具體涉及一種基于llm的數(shù)據(jù)集制作方法、系統(tǒng)、設(shè)備及介質(zhì)。

技術(shù)介紹

1、隨著人工智能和機(jī)器學(xué)習(xí)領(lǐng)域中計(jì)算能力和數(shù)據(jù)存儲(chǔ)能力的提升，機(jī)器學(xué)習(xí)模型從簡(jiǎn)單的線性回歸和決策樹，逐步發(fā)展到復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)和大語(yǔ)言模型。這一過程中，對(duì)大規(guī)模、高質(zhì)量數(shù)據(jù)集的需求也不斷增加。尤其是在自然語(yǔ)言處理(nlp)領(lǐng)域，模型的訓(xùn)練效果在很大程度上依賴于數(shù)據(jù)集的規(guī)模和質(zhì)量。然而，傳統(tǒng)的數(shù)據(jù)收集和標(biāo)注方法往往耗時(shí)耗力，難以滿足快速發(fā)展的技術(shù)需求。為了應(yīng)對(duì)這一挑戰(zhàn)，研究人員和工程師們開始探索自動(dòng)化和高效的數(shù)據(jù)集制作方法。

2、自動(dòng)化數(shù)據(jù)收集技術(shù)的發(fā)展，使得海量數(shù)據(jù)的獲取變得更加容易。通過網(wǎng)絡(luò)爬蟲和api接口，可以快速收集到來自不同來源的多樣化數(shù)據(jù)。然而，原始數(shù)據(jù)通常存在噪聲和不一致的問題，需要經(jīng)過數(shù)據(jù)清洗和預(yù)處理，以保證數(shù)據(jù)的質(zhì)量和可用性。數(shù)據(jù)清洗技術(shù)包括去除重復(fù)數(shù)據(jù)、修正錯(cuò)誤數(shù)據(jù)和填補(bǔ)缺失數(shù)據(jù)等步驟，這些技術(shù)的進(jìn)步極大地提升了數(shù)據(jù)處理的效率和效果。

3、數(shù)據(jù)標(biāo)注是數(shù)據(jù)集制作中的另一重要環(huán)節(jié)。傳統(tǒng)的人工標(biāo)注方法不僅耗時(shí)，而且容易引入主觀偏差。隨著深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的發(fā)展，自動(dòng)化標(biāo)注工具應(yīng)運(yùn)而生。利用預(yù)訓(xùn)練模型進(jìn)行自動(dòng)標(biāo)注，可以在大多數(shù)情況下替代人工標(biāo)注，從而顯著提高標(biāo)注效率。此外，眾包標(biāo)注平臺(tái)也提供了一種高效的解決方案，通過眾多標(biāo)注者的協(xié)作，能夠快速完成大規(guī)模數(shù)據(jù)的標(biāo)注任務(wù)。

4、數(shù)據(jù)增強(qiáng)技術(shù)是提高數(shù)據(jù)集多樣性和模型魯棒性的重要手段。通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換、生成和擴(kuò)展，可以創(chuàng)造出更多樣化

5、然而，數(shù)據(jù)集高效制作技術(shù)在實(shí)際應(yīng)用中也面臨諸多挑戰(zhàn)。數(shù)據(jù)的隱私保護(hù)和倫理問題需要引起高度重視。在自動(dòng)化數(shù)據(jù)收集和標(biāo)注過程中，如何確保用戶隱私不被泄露，如何避免數(shù)據(jù)中的偏見和歧視，都是需要深入研究和解決的問題。此外，隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大，數(shù)據(jù)存儲(chǔ)和管理也成為一大難題。如何有效地組織和管理海量數(shù)據(jù)，如何在大數(shù)據(jù)環(huán)境下進(jìn)行高效的查詢和分析，也是數(shù)據(jù)集制作技術(shù)亟需解決的關(guān)鍵問題。

6、數(shù)據(jù)集高效制作技術(shù)在推動(dòng)llm發(fā)展和應(yīng)用中發(fā)揮了重要作用。通過自動(dòng)化和智能化的手段，顯著提升了數(shù)據(jù)集的制作效率和質(zhì)量，滿足了大規(guī)模數(shù)據(jù)驅(qū)動(dòng)模型訓(xùn)練的需求。未來，隨著技術(shù)的不斷進(jìn)步和應(yīng)用的深入，數(shù)據(jù)集制作技術(shù)將進(jìn)一步發(fā)展，為大語(yǔ)言模型的訓(xùn)練和應(yīng)用提供更堅(jiān)實(shí)的基礎(chǔ)。

7、由于數(shù)據(jù)收集和標(biāo)注過程中的自動(dòng)化程度較高，難免會(huì)引入和放大原始數(shù)據(jù)中的偏見和錯(cuò)誤。這種偏差不僅會(huì)影響模型的公平性，還可能導(dǎo)致模型在特定人群或場(chǎng)景中的表現(xiàn)不佳。如果訓(xùn)練數(shù)據(jù)集中某一類語(yǔ)言或文化背景的樣本過多，模型可能會(huì)對(duì)這類樣本表現(xiàn)出過度擬合，而對(duì)其他語(yǔ)言或文化背景的樣本則缺乏足夠的泛化能力。這種數(shù)據(jù)偏差問題在llm的實(shí)際應(yīng)用中尤為突出，可能導(dǎo)致嚴(yán)重的社會(huì)和倫理問題。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)的目的是提供一種基于llm的數(shù)據(jù)集制作方法、系統(tǒng)、設(shè)備及介質(zhì)，采用基于多樣性和公平性的數(shù)據(jù)集增強(qiáng)算法，通過重采樣和加權(quán)來平衡不同類別和屬性的數(shù)據(jù)分布，結(jié)合對(duì)抗訓(xùn)練技術(shù)生成對(duì)抗樣本，增強(qiáng)數(shù)據(jù)集的多樣性和公平性。

2、為實(shí)現(xiàn)上述目的，本專利技術(shù)提供的技術(shù)方案是：

3、本申請(qǐng)的第一方面提供了一種基于llm的數(shù)據(jù)集制作方法，包括以下步驟：

4、進(jìn)行數(shù)據(jù)收集，形成含有多樣性標(biāo)注的數(shù)據(jù)集，確保數(shù)據(jù)集中的數(shù)據(jù)具有多樣化的來源；

5、采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理：首先對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，識(shí)別出存在偏差的數(shù)據(jù)類別或?qū)傩裕蝗缓蟾鶕?jù)這些數(shù)據(jù)類別或?qū)傩缘臄?shù)據(jù)樣本的數(shù)量和重要性，對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行加權(quán)或重采樣，使得數(shù)據(jù)集在整體上更加均衡；

6、采用對(duì)抗訓(xùn)練技術(shù)增強(qiáng)數(shù)據(jù)集的多樣性和公平性；

7、通過指標(biāo)進(jìn)行評(píng)估和調(diào)整。

8、為優(yōu)化上述技術(shù)方案，采取的具體措施還包括：

9、進(jìn)行數(shù)據(jù)收集后，對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理，包括去除重復(fù)數(shù)據(jù)、糾正拼寫錯(cuò)誤、規(guī)范化文本格式和對(duì)數(shù)據(jù)設(shè)置標(biāo)簽和注釋；還包括使用數(shù)據(jù)擴(kuò)充技術(shù)，通過翻譯和反翻譯技術(shù)將文本數(shù)據(jù)轉(zhuǎn)換成多種不同語(yǔ)言，增加語(yǔ)言多樣性；對(duì)形成的含有多樣性標(biāo)注的數(shù)據(jù)集建立反饋機(jī)制，收集用戶和專家對(duì)數(shù)據(jù)集的反饋，識(shí)別和糾正可能存在的偏見和錯(cuò)誤，通過迭代優(yōu)化數(shù)據(jù)集和訓(xùn)練過程，改進(jìn)多樣性和公平性。

10、進(jìn)一步地，所述的采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理，包括：通過多級(jí)分類來細(xì)化數(shù)據(jù)集；定期進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析，識(shí)別出數(shù)據(jù)集中的最新偏差，動(dòng)態(tài)調(diào)整各類別的權(quán)重；綜合使用過采樣和欠采樣技術(shù)，以平衡數(shù)據(jù)集；通過融合多源數(shù)據(jù)構(gòu)建更全面的數(shù)據(jù)集，并對(duì)其進(jìn)行重采樣處理；建立持續(xù)監(jiān)測(cè)和反饋優(yōu)化機(jī)制。

11、進(jìn)一步地，所述的采用對(duì)抗訓(xùn)練技術(shù)增強(qiáng)數(shù)據(jù)集的多樣性和公平性為，通過對(duì)抗訓(xùn)練生成對(duì)抗樣本，迫使訓(xùn)練過程中面對(duì)更復(fù)雜和多變的輸入，從而提高泛化能力和魯棒性；所述的對(duì)抗訓(xùn)練的方法采用fgsm，通過計(jì)算輸入數(shù)據(jù)的梯度，并在梯度方向上添加微小擾動(dòng)來生成對(duì)抗樣本，具體過程包括：

12、計(jì)算梯度：對(duì)于每個(gè)訓(xùn)練樣本，計(jì)算損失函數(shù)相對(duì)于輸入數(shù)據(jù)的梯度；

13、添加擾動(dòng)：在輸入數(shù)據(jù)上添加小幅度的擾動(dòng)，方向?yàn)樘荻确较颍瑪_動(dòng)的大小由一個(gè)超參數(shù)ε控制；

14、生成對(duì)抗樣本：將添加擾動(dòng)后的數(shù)據(jù)作為對(duì)抗樣本；

15、使用fgsm生成對(duì)抗樣本的公式為：

16、

17、x為原始輸入，ε為擾動(dòng)幅度，為損失函數(shù)對(duì)輸入數(shù)據(jù)的梯度，xadv為對(duì)抗樣本，sign()表示返回整型變量的數(shù)學(xué)函數(shù)，用于表示參數(shù)的正負(fù)號(hào)。

18、所述的通過指標(biāo)進(jìn)行評(píng)估和調(diào)整的方法包括人工評(píng)估、自動(dòng)評(píng)估和混合評(píng)估，所采用的指標(biāo)包括準(zhǔn)確性、情感分析、公平性。

19、本申請(qǐng)的第二方面提供了一種基于llm的數(shù)據(jù)集制作模型，包括：

20、數(shù)據(jù)收集模塊，用于進(jìn)行數(shù)據(jù)收集，形成含有多樣性標(biāo)注的數(shù)據(jù)集，確保數(shù)據(jù)集中的數(shù)據(jù)具有多樣化的來源；

21、公平重采樣模塊，用于采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理：首先對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，識(shí)別出存在偏差的數(shù)據(jù)類別或?qū)傩裕蝗缓蟾鶕?jù)這些數(shù)據(jù)類別或?qū)傩缘臄?shù)據(jù)樣本的數(shù)量和重要性，對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行加權(quán)或重采樣，使得數(shù)據(jù)集在整體上更加均衡；

22、對(duì)抗訓(xùn)練模塊，用于采用對(duì)抗訓(xùn)練技術(shù)增強(qiáng)數(shù)據(jù)集的多樣性和公平性；

23、評(píng)估模塊，用于通過指標(biāo)進(jìn)行評(píng)估和調(diào)整。

24、本申請(qǐng)的第三方面提供了一種電子設(shè)備，包括：存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行計(jì)算機(jī)程序時(shí)，實(shí)現(xiàn)如本申請(qǐng)的第一方面所述的基于llm的數(shù)據(jù)集制作方法。

25、本申請(qǐng)的第四方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于LLM的數(shù)據(jù)集制作方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于LLM的數(shù)據(jù)集制作方法，其特征在于：進(jìn)行數(shù)據(jù)收集后，對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理，包括去除重復(fù)數(shù)據(jù)、糾正拼寫錯(cuò)誤、規(guī)范化文本格式和對(duì)數(shù)據(jù)設(shè)置標(biāo)簽和注釋；還包括使用數(shù)據(jù)擴(kuò)充技術(shù)，通過翻譯和反翻譯技術(shù)將文本數(shù)據(jù)轉(zhuǎn)換成多種不同語(yǔ)言，增加語(yǔ)言多樣性；對(duì)形成的含有多樣性標(biāo)注的數(shù)據(jù)集建立反饋機(jī)制，收集用戶和專家對(duì)數(shù)據(jù)集的反饋，識(shí)別和糾正可能存在的偏見和錯(cuò)誤，通過迭代優(yōu)化數(shù)據(jù)集和訓(xùn)練過程，改進(jìn)多樣性和公平性。

3.根據(jù)權(quán)利要求1所述的基于LLM的數(shù)據(jù)集制作方法，其特征在于：所述的采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理，包括：通過多級(jí)分類來細(xì)化數(shù)據(jù)集；定期進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析，識(shí)別出數(shù)據(jù)集中的最新偏差，動(dòng)態(tài)調(diào)整各類別的權(quán)重；綜合使用過采樣和欠采樣技術(shù)，以平衡數(shù)據(jù)集；通過融合多源數(shù)據(jù)構(gòu)建更全面的數(shù)據(jù)集，并對(duì)其進(jìn)行重采樣處理；建立持續(xù)監(jiān)測(cè)和反饋優(yōu)化機(jī)制。

4.根據(jù)權(quán)利要求1所述的基于LLM的數(shù)據(jù)集制作方法，其特征在于：所述的采用對(duì)抗訓(xùn)練技術(shù)增強(qiáng)數(shù)據(jù)集的多樣性和公平性為，通過對(duì)抗訓(xùn)練生成對(duì)

5.根據(jù)權(quán)利要求1所述的基于LLM的數(shù)據(jù)集制作方法，其特征在于：所述的通過指標(biāo)進(jìn)行評(píng)估和調(diào)整的方法包括人工評(píng)估、自動(dòng)評(píng)估和混合評(píng)估，所采用的指標(biāo)包括準(zhǔn)確性、情感分析、公平性。

6.一種基于LLM的數(shù)據(jù)集制作模型，其特征在于，包括：

7.一種電子設(shè)備，其特征在于，包括：存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行計(jì)算機(jī)程序時(shí)，實(shí)現(xiàn)如權(quán)利要求1-5任一項(xiàng)所述的基于LLM的數(shù)據(jù)集制作方法。

8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序使計(jì)算機(jī)執(zhí)行如權(quán)利要求1-5任一項(xiàng)所述的基于LLM的數(shù)據(jù)集制作方法。

...

【技術(shù)特征摘要】

1.一種基于llm的數(shù)據(jù)集制作方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于llm的數(shù)據(jù)集制作方法，其特征在于：進(jìn)行數(shù)據(jù)收集后，對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理，包括去除重復(fù)數(shù)據(jù)、糾正拼寫錯(cuò)誤、規(guī)范化文本格式和對(duì)數(shù)據(jù)設(shè)置標(biāo)簽和注釋；還包括使用數(shù)據(jù)擴(kuò)充技術(shù)，通過翻譯和反翻譯技術(shù)將文本數(shù)據(jù)轉(zhuǎn)換成多種不同語(yǔ)言，增加語(yǔ)言多樣性；對(duì)形成的含有多樣性標(biāo)注的數(shù)據(jù)集建立反饋機(jī)制，收集用戶和專家對(duì)數(shù)據(jù)集的反饋，識(shí)別和糾正可能存在的偏見和錯(cuò)誤，通過迭代優(yōu)化數(shù)據(jù)集和訓(xùn)練過程，改進(jìn)多樣性和公平性。

3.根據(jù)權(quán)利要求1所述的基于llm的數(shù)據(jù)集制作方法，其特征在于：所述的采用公平重采樣算法對(duì)數(shù)據(jù)集進(jìn)行處理，包括：通過多級(jí)分類來細(xì)化數(shù)據(jù)集；定期進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析，識(shí)別出數(shù)據(jù)集中的最新偏差，動(dòng)態(tài)調(diào)整各類別的權(quán)重；綜合使用過采樣和欠采樣技術(shù)，以平衡數(shù)據(jù)集；通過融合多源數(shù)據(jù)構(gòu)建更全面的數(shù)據(jù)集，并對(duì)其進(jìn)行重采樣處理；建立持續(xù)監(jiān)測(cè)和反饋優(yōu)化機(jī)制。

4.根據(jù)權(quán)利要求1所述的基于l...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：張磊，陳相如，陳誠(chéng)，史亞威，劉變紅，李鑫，
申請(qǐng)(專利權(quán))人：中電信數(shù)智科技有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)