System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲成a人在线看天堂无码,日本精品无码一区二区三区久久久,久久无码高潮喷水
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型訓練數據自動篩選方法技術

    技術編號:44188720 閱讀:19 留言:0更新日期:2025-02-06 18:29
    本申請涉及一種大模型訓練數據自動篩選方法,該方法包括:收集大規模文本數據集,通過訓練好的Transformer模型對大規模文本數據集中的各文本段落進行似然估計,得到各文本段落的生成概率;基于各文本段落的生成概率計算得到文本段落間的語義互信息熵值;以各文本段落作為節點,以文本段落間的語義互信息熵值作為邊的權重,構建互信息熵圖;基于互信息熵圖,采用并查集算法進行節點聚類,得到多個簇;在每個簇內,通過隨機采樣的方式選擇并保留一個節點,刪除剩余節點;整合所有保留的節點對應的文本段落,得到精簡的文本數據集。該方法避免了重復數據對模型訓練的負面影響,實現了全自動、智能的大模型訓練數據自動篩選。

    【技術實現步驟摘要】

    本申請涉及機器學習,特別是涉及一種大模型訓練數據自動篩選方法


    技術介紹

    1、隨著自然語言處理技術的飛速發展,大模型的預訓練逐漸成為推動人工智能進步的重要手段。這些模型依賴于海量的文本數據,隨著數據規模的急劇擴大,模型的訓練效率和質量面臨嚴峻挑戰。為了保證大模型對語言的廣泛理解,預訓練通常使用自監督學習方法,通過預測缺失詞或句子來學習語言結構;然而,龐大的數據量中,包含大量的冗余和低質量數據,如何優化訓練數據的選擇與篩選,成為提升模型性能的關鍵問題。

    2、目前,大模型訓練過程中,收集到的文本數據往往存在大量重復、相似或不相關的內容,這些數據冗余和重復現象在大規模文本數據集中尤為嚴重,尤其是在互聯網數據資源中,不同平臺或用戶產生的相似內容頻繁出現,削弱了訓練集的多樣性和信息密度,最終影響模型的整體訓練效果和性能。因此,現有技術中缺乏一種高效的機制來自動篩選和過濾這些冗余數據。


    技術實現思路

    1、基于此,有必要提供一種大模型訓練數據自動篩選方法,該方法包括:

    2、s1:收集大規模文本數據集,通過訓練好的transformer模型對大規模文本數據集中的各文本段落進行似然估計,得到各文本段落的生成概率;基于各文本段落的生成概率計算得到文本段落間的語義互信息熵值;

    3、s2:以各文本段落作為節點,以文本段落間的語義互信息熵值作為邊的權重,構建互信息熵圖;基于互信息熵圖,采用并查集算法進行節點聚類,得到多個簇;

    4、s3:在每個簇內,通過隨機采樣的方式選擇并保留一個節點,刪除剩余節點;整合所有保留的節點對應的文本段落,得到精簡的文本數據集。

    5、優選的,收集到所述大規模文本數據集后,通過自動化腳本對所述大規模文本數據集中的文本數據進行初步的數據清洗。

    6、優選的,transformer模型的訓練過程包括:

    7、獲取預訓練用的單詞序列,將所述單詞序列輸入至transformer模型,輸出單詞序列中每個單詞的概率分布;

    8、基于每個單詞的概率分布及其對應的真實標簽,計算交叉熵損失函數;

    9、選用設置好的adam優化器,并最小化所述交叉熵損失函數,更新transformer模型的參數。

    10、優選的,文本段落的生成概率的似然估計公式為:

    11、;

    12、;

    13、其中,表示第 i個文本段落的生成概率;表示第 i個文本段落; m表示第 i個文本段落中單詞的數量;表示文本段落中的第 t個詞的概率分布;表示文本段落中的第t個詞;表示文本段落中的第1個詞;表示文本段落中的第 t-1個詞;表示softmax激活函數;表示訓練好的transformer模型。

    14、優選的,文本段落間的語義互信息熵值的計算公式為:

    15、;

    16、其中,表示第 i個文本段落和第 j個文本段落之間的語義互信息熵;表示第 i個文本段落;表示第 j個文本段落;表示文本段落和文本段落的聯合概率,通過計算訓練好的transformer模型對文本段落與文本段落串聯后的整體生成概率得到;表示第 i個文本段落的生成概率;表示第 j個文本段落的生成概率。

    17、優選的,文本段落間的語義互信息熵值與文本段落間的相關性呈負相關。

    18、優選的,聚類過程包括:

    19、步驟1:在互信息熵圖中隨機選擇一個節點,查詢與隨機選擇的節點符合聚類目標的節點,并將隨機選擇的節點以及與其符合聚類目標的各節點合并為一個簇;所述聚類目標基于文本段落間的語義互信息熵值構建;

    20、步驟2:重復執行步驟1,直至遍歷完所有節點,得到多個簇。

    21、優選的,聚類目標表示為:

    22、;

    23、;

    24、其中,表示任意;表示文本段落對應的節點與文本段落對應的節點之間的權重邊; e表示互信息熵圖中權重邊的集合;表示權重邊的權重;表示合并操作;表示第 i個文本段落和第 j個文本段落之間的語義互信息熵;表示第 i個文本段落;表示第 j個文本段落;表示預設閾值。

    25、優選的,隨機采樣表示為:

    26、;

    27、其中,表示第 k個簇中隨機選擇的節點;表示隨機采樣操作;表示第 k個簇。

    28、優選的,交叉熵損失函數的表達式為:

    29、;

    30、;

    31、其中,l表示交叉熵損失函數; n表示單詞序列中單詞的數量;表示單詞序列中第 t個單詞的真實標簽;表示單詞序列中第 t個詞的概率分布;表示單詞序列中第 t個詞;表示單詞序列中第1個詞;表示單詞序列中第 t-1個詞;表示softmax激活函數;表示transformer模型。

    32、有益效果:該方法利用深度學習技術,通過基于訓練的文本大模型的語義互信息熵計算,并基于互信息熵圖聚類的數據自動篩選,優化了數據多樣性和信息價值,避免了重復數據對模型訓練的負面影響,提升了模型訓練效率和質量,實現了全自動、智能的大模型訓練數據自動篩選。

    本文檔來自技高網...

    【技術保護點】

    1.一種大模型訓練數據自動篩選方法,其特征在于,包括:

    2.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,收集到所述大規模文本數據集后,通過自動化腳本對所述大規模文本數據集中的文本數據進行初步的數據清洗。

    3.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,Transformer模型的訓練過程包括:

    4.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,文本段落的生成概率的似然估計公式為:

    5.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,文本段落間的語義互信息熵值的計算公式為:

    6.根據權利要求5所述的大模型訓練數據自動篩選方法,其特征在于,文本段落間的語義互信息熵值與文本段落間的相關性呈負相關。

    7.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,聚類過程包括:

    8.根據權利要求7所述的大模型訓練數據自動篩選方法,其特征在于,聚類目標表示為:

    9.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,隨機采樣表示為

    10.根據權利要求3所述的大模型訓練數據自動篩選方法,其特征在于,交叉熵損失函數的表達式為:

    ...

    【技術特征摘要】

    1.一種大模型訓練數據自動篩選方法,其特征在于,包括:

    2.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,收集到所述大規模文本數據集后,通過自動化腳本對所述大規模文本數據集中的文本數據進行初步的數據清洗。

    3.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,transformer模型的訓練過程包括:

    4.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,文本段落的生成概率的似然估計公式為:

    5.根據權利要求1所述的大模型訓練數據自動篩選方法,其特征在于,文本段落間...

    【專利技術屬性】
    技術研發人員:胡為民袁吉鄭喜謝麗慧
    申請(專利權)人:深圳市迪博企業風險管理技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲VA中文字幕不卡无码| 亚洲AV无码一区二区乱孑伦AS| 亚欧免费无码aⅴ在线观看| 亚洲AV无码一区二区三区系列| 制服在线无码专区| 亚洲AⅤ永久无码精品AA| 国产精品无码无卡在线播放| 无码永久免费AV网站| 伊人久久无码中文字幕| 国产精品JIZZ在线观看无码| 无码中文字幕日韩专区视频| 18禁超污无遮挡无码免费网站国产| 亚洲VA中文字幕不卡无码| 熟妇人妻无码中文字幕老熟妇| 亚洲av日韩av高潮潮喷无码| 国产精品va无码二区| 亚洲av纯肉无码精品动漫| 无码人妻精品一区二区三区久久| 无码日韩精品一区二区人妻| 亚洲人av高清无码| 少妇无码AV无码专区在线观看| 中文字幕精品无码亚洲字| 无码少妇一区二区三区芒果| 亚洲成在人线在线播放无码 | 久久久无码精品亚洲日韩蜜臀浪潮| 亚洲AV无码一区二区乱子仑| 欧洲Av无码放荡人妇网站| 亚洲啪啪AV无码片| 中文午夜乱理片无码| 国产亚洲?V无码?V男人的天堂| 人妻在线无码一区二区三区| 18禁无遮拦无码国产在线播放| 色窝窝无码一区二区三区成人网站| 成人无码区免费A∨直播| 国产精品无码国模私拍视频 | 久久精品无码专区免费青青| 国产精品无码专区| 少妇伦子伦精品无码STYLES| 亚洲∧v久久久无码精品| 精品无码无人网站免费视频| 精品无码免费专区毛片|