System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請一般涉及人工智能。更具體地,本申請涉及一種構建數據集的方法、設備和計算機可讀存儲介質。
技術介紹
1、目前監督微調(supervised?fine-tuning,“sft”)主要應用于深度學習模型或者大模型的訓練和優化。與無監督學習不同的是,sft需要標注數據,這意味著數據集通常和最終的任務相關,且包含輸入以及相應的輸出標簽。另外,對于一個好的微調的模型來說,不僅其能在訓練數據上表現良好,其還擁有很好的魯棒性,即在其他相似的任務和數據集上表現良好。
2、然而,如何得到更高質量的標注數據集來進行sft是目前比較棘手的問題。一方面,人工專家標注高質量的數據集需要巨大的時間成本以及資金;另一方面,雖然當前自動生成的sft數據集數量很多,但是其包含太多的無效樣本和負樣本,由此導致訓練效果未能達到預期。
3、有鑒于此,亟需提供一種構建數據集的方法,其能夠降低制作數據集的時間與經濟成本,增強構建數據集的魯棒性,由此提高數據集的質量。
技術實現思路
1、為了至少解決如上所提到的一個或多個技術問題,本申請在如下的多個方面中提出了一種構建數據集的方案。
2、在第一方面中,本申請提供一種構建數據集的方法,其特征在于,包括:獲取原始數據集的推理路徑;提取所述推理路徑中的主路徑和剩余路徑;根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據;以及合并所有增強數據作為新的數據集。
3、在一些實施例中,其中獲取原始數據集的推理路徑包括:對原始數據集進行采樣
4、在另一些實施例中,其中提取推理路徑中的主路徑和剩余路徑包括:提取重復次數最多的推理路徑作為所述主路徑;對除所述主路徑以外的所述推理路徑執行去重操作;以及提取所述去重操作后的推理路徑作為剩余路徑。
5、在又一些實施例中,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據;校驗所述剩余路徑,以生成標準對比答案;將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據;以及篩選所述標準對比答案,以生成所述第三增強數據。
6、在又一些實施例中,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:當擾動未改變主路徑答案時,保留該答案與該路徑作為增強數據;以及當擾動改變答案時,對更改后的內容進行推理,以生成未校驗答案作為該路徑答案。
7、在又一些實施例中,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。
8、在又一些實施例中,其中校驗所述剩余路徑,以生成標準對比答案包括:使用與主路徑相同的擾動方式對剩余路徑進行擾動;對擾動后的路徑進行推理,以保留推理成功的路徑;以及選擇編輯距離最大且答案相同的多條剩余路徑作為標準比對答案。
9、在又一些實施例中,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:將所述未校驗答案與標準比對答案進行比對;以及保留一致性答案與該路徑,以生成增強數據。
10、在又一些實施例中,其中篩選所述標準對比答案,以生成所述第三增強數據包括保留所述校驗過程中得到的正確答案和對應的剩余路徑。
11、在第二方面中,本申請提供一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據第一方面任意一項所述的方法。
12、在第三方面中,本申請提供一種用于構建數據集的設備,包括:處理器;存儲器,其上存儲有用于構建數據集的計算機指令,當所述計算機指令由處理器執行時,使得實現根據第一方面任意一項所述的方法。
13、通過如上多個方面及實施例中所提供的一種構建數據集的方法、設備和計算機可讀存儲介質,本申請的方案通過獲取推理路徑,能夠自動構建數據集。進一步,在一些實施例中,通過對推理路徑進行擾動,可以增強構建數據集的魯棒性。更進一步地,在一些實施例中,通過推理路徑之間的校驗和對比,可以提高數據集的質量。
本文檔來自技高網...【技術保護點】
1.一種構建數據集的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:
3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:
4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:
5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:
6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。
7.根據權利要求4所述的方法,其特征在于,其中校驗所述剩余路徑,以生成標準對比答案包括:
8.根據權利要求5所述的方法,其特征在于,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:
9.根據權利要求7所述的方法,其特征在于,其中篩選所述標準對比答案
10.一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據權利要求1-9中任意一項所述的方法。
11.一種用于構建數據集的設備,包括:
...【技術特征摘要】
1.一種構建數據集的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:
3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:
4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:
5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:
6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并...
【專利技術屬性】
技術研發人員:周熠,陳葉增,陳醉,董翔,
申請(專利權)人:上海處理器技術創新中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。