System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品亚洲аv无码播放,国产精品无码一区二区在线观一 ,最新亚洲春色Av无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種構建數據集的方法、設備和計算機可讀存儲介質技術

    技術編號:44247772 閱讀:10 留言:0更新日期:2025-02-11 13:44
    本申請公開了一種構建數據集的方法、設備和計算機可讀存儲介質,包括:獲取原始數據集的推理路徑;提取所述推理路徑中的主路徑和剩余路徑;根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據;以及合并所有增強數據作為新的數據集。通過本申請的方案,可以自動構建數據集,增強構建數據集的魯棒性,提高數據集的質量。

    【技術實現步驟摘要】

    本申請一般涉及人工智能。更具體地,本申請涉及一種構建數據集的方法、設備和計算機可讀存儲介質


    技術介紹

    1、目前監督微調(supervised?fine-tuning,“sft”)主要應用于深度學習模型或者大模型的訓練和優化。與無監督學習不同的是,sft需要標注數據,這意味著數據集通常和最終的任務相關,且包含輸入以及相應的輸出標簽。另外,對于一個好的微調的模型來說,不僅其能在訓練數據上表現良好,其還擁有很好的魯棒性,即在其他相似的任務和數據集上表現良好。

    2、然而,如何得到更高質量的標注數據集來進行sft是目前比較棘手的問題。一方面,人工專家標注高質量的數據集需要巨大的時間成本以及資金;另一方面,雖然當前自動生成的sft數據集數量很多,但是其包含太多的無效樣本和負樣本,由此導致訓練效果未能達到預期。

    3、有鑒于此,亟需提供一種構建數據集的方法,其能夠降低制作數據集的時間與經濟成本,增強構建數據集的魯棒性,由此提高數據集的質量。


    技術實現思路

    1、為了至少解決如上所提到的一個或多個技術問題,本申請在如下的多個方面中提出了一種構建數據集的方案。

    2、在第一方面中,本申請提供一種構建數據集的方法,其特征在于,包括:獲取原始數據集的推理路徑;提取所述推理路徑中的主路徑和剩余路徑;根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據;以及合并所有增強數據作為新的數據集。

    3、在一些實施例中,其中獲取原始數據集的推理路徑包括:對原始數據集進行采樣,獲取原始推理路徑;以及從原始推理路徑中提取正確的路徑,以生成推理路徑。

    4、在另一些實施例中,其中提取推理路徑中的主路徑和剩余路徑包括:提取重復次數最多的推理路徑作為所述主路徑;對除所述主路徑以外的所述推理路徑執行去重操作;以及提取所述去重操作后的推理路徑作為剩余路徑。

    5、在又一些實施例中,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據;校驗所述剩余路徑,以生成標準對比答案;將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據;以及篩選所述標準對比答案,以生成所述第三增強數據。

    6、在又一些實施例中,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:當擾動未改變主路徑答案時,保留該答案與該路徑作為增強數據;以及當擾動改變答案時,對更改后的內容進行推理,以生成未校驗答案作為該路徑答案。

    7、在又一些實施例中,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。

    8、在又一些實施例中,其中校驗所述剩余路徑,以生成標準對比答案包括:使用與主路徑相同的擾動方式對剩余路徑進行擾動;對擾動后的路徑進行推理,以保留推理成功的路徑;以及選擇編輯距離最大且答案相同的多條剩余路徑作為標準比對答案。

    9、在又一些實施例中,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:將所述未校驗答案與標準比對答案進行比對;以及保留一致性答案與該路徑,以生成增強數據。

    10、在又一些實施例中,其中篩選所述標準對比答案,以生成所述第三增強數據包括保留所述校驗過程中得到的正確答案和對應的剩余路徑。

    11、在第二方面中,本申請提供一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據第一方面任意一項所述的方法。

    12、在第三方面中,本申請提供一種用于構建數據集的設備,包括:處理器;存儲器,其上存儲有用于構建數據集的計算機指令,當所述計算機指令由處理器執行時,使得實現根據第一方面任意一項所述的方法。

    13、通過如上多個方面及實施例中所提供的一種構建數據集的方法、設備和計算機可讀存儲介質,本申請的方案通過獲取推理路徑,能夠自動構建數據集。進一步,在一些實施例中,通過對推理路徑進行擾動,可以增強構建數據集的魯棒性。更進一步地,在一些實施例中,通過推理路徑之間的校驗和對比,可以提高數據集的質量。

    本文檔來自技高網...

    【技術保護點】

    1.一種構建數據集的方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:

    3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:

    4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:

    5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:

    6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并重新推理,直至生成未校驗答案。

    7.根據權利要求4所述的方法,其特征在于,其中校驗所述剩余路徑,以生成標準對比答案包括:

    8.根據權利要求5所述的方法,其特征在于,其中將所述主路徑答案與所述標準對比答案進行對比,以生成所述第二增強數據包括:

    9.根據權利要求7所述的方法,其特征在于,其中篩選所述標準對比答案,以生成所述第三增強數據包括保留所述校驗過程中得到的正確答案和對應的剩余路徑。

    10.一種計算機可讀存儲介質,其上存儲有用于構建數據集的計算機程序指令,該計算機程序指令被一個或多個處理器執行時,使得實現根據權利要求1-9中任意一項所述的方法。

    11.一種用于構建數據集的設備,包括:

    ...

    【技術特征摘要】

    1.一種構建數據集的方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,其中獲取原始數據集的推理路徑包括:

    3.根據權利要求1所述的方法,其特征在于,其中提取所述推理路徑中的主路徑和剩余路徑包括:

    4.根據權利要求1所述的方法,其特征在于,其中所述增強數據包括第一增強數據、第二增強數據和第三增強數據,其中根據所述主路徑和剩余路徑進行數據生成,以獲取增強數據包括:

    5.根據權利要求4所述的方法,其特征在于,其中對主路徑進行數據擾動,以生成主路徑答案和所述第一增強數據包括:

    6.根據權利要求5所述的方法,其特征在于,其中當對更改后的內容進行推理失敗后,更換數據擾動方式,并...

    【專利技術屬性】
    技術研發人員:周熠陳葉增陳醉董翔
    申請(專利權)人:上海處理器技術創新中心
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产麻豆天美果冻无码视频| 中文字幕人妻无码一夲道| 日韩A无码AV一区二区三区| 精品人妻系列无码人妻漫画| 精品无码综合一区| 无码人妻精品一区二区三区66| 精品人妻无码一区二区三区蜜桃一 | 狠狠躁天天躁无码中文字幕| 亚洲精品久久无码| 无码A级毛片免费视频内谢| 午夜无码人妻av大片色欲| 中文字幕av无码无卡免费| 十八禁无码免费网站| 国产无码网页在线观看| 99久久无码一区人妻a黑| 亚洲精品无码久久久久去q | 无码人妻丝袜在线视频| 国产在线无码一区二区三区视频| 加勒比无码一区二区三区| 亚洲综合无码一区二区| 亚洲国产综合无码一区| yy111111电影院少妇影院无码| 亚洲a∨无码精品色午夜| 色综合无码AV网站| 久久亚洲AV成人无码国产| 免费A级毛片无码A∨免费 | 久久久久久久久免费看无码| 无码中文人妻视频2019| 亚洲中文字幕久久精品无码2021 | 18精品久久久无码午夜福利| 亚洲av无码一区二区三区乱子伦 | 无码八A片人妻少妇久久| 日韩精品人妻系列无码专区免费| 中文午夜乱理片无码| 曰韩精品无码一区二区三区 | 亚洲AV无码乱码国产麻豆穿越| 国产色综合久久无码有码| 中文字幕无码日韩专区| 国产午夜片无码区在线播放| 国产成A人亚洲精V品无码| 无码人妻少妇久久中文字幕蜜桃 |