一種大模型訓練數據自動篩選方法技術

技術編號：44188720 閱讀：19 留言：0更新日期：2025-02-06 18:29

本申請涉及一種大模型訓練數據自動篩選方法，該方法包括：收集大規模文本數據集，通過訓練好的Transformer模型對大規模文本數據集中的各文本段落進行似然估計，得到各文本段落的生成概率；基于各文本段落的生成概率計算得到文本段落間的語義互信息熵值；以各文本段落作為節點，以文本段落間的語義互信息熵值作為邊的權重，構建互信息熵圖；基于互信息熵圖，采用并查集算法進行節點聚類，得到多個簇；在每個簇內，通過隨機采樣的方式選擇并保留一個節點，刪除剩余節點；整合所有保留的節點對應的文本段落，得到精簡的文本數據集。該方法避免了重復數據對模型訓練的負面影響，實現了全自動、智能的大模型訓練數據自動篩選。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及機器學習，特別是涉及一種大模型訓練數據自動篩選方法。

技術介紹

1、隨著自然語言處理技術的飛速發展，大模型的預訓練逐漸成為推動人工智能進步的重要手段。這些模型依賴于海量的文本數據，隨著數據規模的急劇擴大，模型的訓練效率和質量面臨嚴峻挑戰。為了保證大模型對語言的廣泛理解，預訓練通常使用自監督學習方法，通過預測缺失詞或句子來學習語言結構；然而，龐大的數據量中，包含大量的冗余和低質量數據，如何優化訓練數據的選擇與篩選，成為提升模型性能的關鍵問題。

2、目前，大模型訓練過程中，收集到的文本數據往往存在大量重復、相似或不相關的內容，這些數據冗余和重復現象在大規模文本數據集中尤為嚴重，尤其是在互聯網數據資源中，不同平臺或用戶產生的相似內容頻繁出現，削弱了訓練集的多樣性和信息密度，最終影響模型的整體訓練效果和性能。因此，現有技術中缺乏一種高效的機制來自動篩選和過濾這些冗余數據。

技術實現思路

1、基于此，有必要提供一種大模型訓練數據自動篩選方法，該方法包括：

2、s1：收集大規模文本數據集，通過訓練好的transformer模型對大規模文本數據集中的各文本段落進行似然估計，得到各文本段落的生成概率；基于各文本段落的生成概率計算得到文本段落間的語義互信息熵值；

3、s2：以各文本段落作為節點，以文本段落間的語義互信息熵值作為邊的權重，構建互信息熵圖；基于互信息熵圖，采用并查集算法進行節點聚類，得到多個簇；

4、s3：在每個簇內，通過隨機采樣

5、優選的，收集到所述大規模文本數據集后，通過自動化腳本對所述大規模文本數據集中的文本數據進行初步的數據清洗。

6、優選的，transformer模型的訓練過程包括：

7、獲取預訓練用的單詞序列，將所述單詞序列輸入至transformer模型，輸出單詞序列中每個單詞的概率分布；

8、基于每個單詞的概率分布及其對應的真實標簽，計算交叉熵損失函數；

9、選用設置好的adam優化器，并最小化所述交叉熵損失函數，更新transformer模型的參數。

10、優選的，文本段落的生成概率的似然估計公式為：

11、；

12、；

13、其中，表示第 i個文本段落的生成概率；表示第 i個文本段落； m表示第 i個文本段落中單詞的數量；表示文本段落中的第 t個詞的概率分布；表示文本段落中的第t個詞；表示文本段落中的第1個詞；表示文本段落中的第 t-1個詞；表示softmax激活函數；表示訓練好的transformer模型。

14、優選的，文本段落間的語義互信息熵值的計算公式為：

15、；

16、其中，表示第 i個文本段落和第 j個文本段落之間的語義互信息熵；表示第 i個文本段落；表示第 j個文本段落；表示文本段落和文本段落的聯合概率，通過計算訓練好的transformer模型對文本段落與文本段落串聯后的整體生成概率得到；表示第 i個文本段落的生成概率；表示第 j個文本段落的生成概率。

17、優選的，文本段落間的語義互信息熵值與文本段落間的相關性呈負相關。

18、優選的，聚類過程包括：

19、步驟1：在互信息熵圖中隨機選擇一個節點，查詢與隨機選擇的節點符合聚類目標的節點，并將隨機選擇的節點以及與其符合聚類目標的各節點合并為一個簇；所述聚類目標基于文本段落間的語義互信息熵值構建；

20、步驟2：重復執行步驟1，直至遍歷完所有節點，得到多個簇。

21、優選的，聚類目標表示為：

22、；

23、；

24、其中，表示任意；表示文本段落對應的節點與文本段落對應的節點之間的權重邊； e表示互信息熵圖中權重邊的集合；表示權重邊的權重；表示合并操作；表示第 i個文本段落和第 j個文本段落之間的語義互信息熵；表示第 i個文本段落；表示第 j個文本段落；表示預設閾值。

25、優選的，隨機采樣表示為：

26、；

27、其中，表示第 k個簇中隨機選擇的節點；表示隨機采樣操作；表示第 k個簇。

28、優選的，交叉熵損失函數的表達式為：

29、；

30、；

31、其中，l表示交叉熵損失函數； n表示單詞序列中單詞的數量；表示單詞序列中第 t個單詞的真實標簽；表示單詞序列中第 t個詞的概率分布；表示單詞序列中第 t個詞；表示單詞序列中第1個詞；表示單詞序列中第 t-1個詞；表示softmax激活函數；表示transformer模型。

32、有益效果：該方法利用深度學習技術，通過基于訓練的文本大模型的語義互信息熵計算，并基于互信息熵圖聚類的數據自動篩選，優化了數據多樣性和信息價值，避免了重復數據對模型訓練的負面影響，提升了模型訓練效率和質量，實現了全自動、智能的大模型訓練數據自動篩選。

本文檔來自技高網...

【技術保護點】

1.一種大模型訓練數據自動篩選方法，其特征在于，包括：

2.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，收集到所述大規模文本數據集后，通過自動化腳本對所述大規模文本數據集中的文本數據進行初步的數據清洗。

3.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，Transformer模型的訓練過程包括：

4.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，文本段落的生成概率的似然估計公式為：

5.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，文本段落間的語義互信息熵值的計算公式為：

6.根據權利要求5所述的大模型訓練數據自動篩選方法，其特征在于，文本段落間的語義互信息熵值與文本段落間的相關性呈負相關。

7.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，聚類過程包括：

8.根據權利要求7所述的大模型訓練數據自動篩選方法，其特征在于，聚類目標表示為：

9.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，隨機采樣表示為：

10.根據權利要求3所述的大模型訓練數據自動篩選方法，其特征在于，交叉熵損失函數的表達式為：

...

【技術特征摘要】

1.一種大模型訓練數據自動篩選方法，其特征在于，包括：

3.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，transformer模型的訓練過程包括：

4.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，文本段落的生成概率的似然估計公式為：

5.根據權利要求1所述的大模型訓練數據自動篩選方法，其特征在于，文本段落間...

【專利技術屬性】
技術研發人員：胡為民，袁吉，鄭喜，謝麗慧，
申請(專利權)人：深圳市迪博企業風險管理技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術