System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本申請屬于大模型,特別涉及一種基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備。
技術介紹
1、在大規(guī)模語言模型(large?language?model,llm)的研發(fā)與應用中,預訓練數(shù)據(jù)的規(guī)模與質(zhì)量是決定模型性能的關鍵因素。然而,當前的預訓練數(shù)據(jù)的獲取與篩選方式在面對超大規(guī)模、多領域、多格式的數(shù)據(jù)集時存在如下諸多問題:1)效率低下:傳統(tǒng)基于人工標注或規(guī)則的篩選方式,無法應對大規(guī)模數(shù)據(jù)的處理需求;2)選擇不精確:缺乏針對目標任務的精細化分析,無法識別對目標任務有顯著貢獻的數(shù)據(jù);3)缺乏動態(tài)適應能力:現(xiàn)有方法無法根據(jù)任務需求的變化,自適應調(diào)整篩選策略。
2、針對上述問題,提出本申請的基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備。
技術實現(xiàn)思路
1、為了解決所述現(xiàn)有技術的不足,本申請?zhí)峁┝艘环N基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備,該方法能夠解決現(xiàn)有技術中的獲取和篩選預訓練數(shù)據(jù)時遇到的效率低下、選擇不精確以及缺乏動態(tài)適應能力等問題。
2、本申請所要達到的技術效果通過以下方案實現(xiàn):
3、第一方面,本申請?zhí)峁┮环N基于分布的預訓練數(shù)據(jù)自動篩選方法,包括:
4、利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,其中,所述原始數(shù)據(jù)集中的數(shù)據(jù)有多種格式;
5、利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布;其中,所述第一算法包括哈希算法和n-gram算法;
6、獲取目標任務對應的參考數(shù)據(jù)集,構(gòu)建與所述參考數(shù)據(jù)集對應的目標任務分布;
...【技術保護點】
1.一種基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述方法還包括:
3.如權(quán)利要求1或2所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,包括:
4.如權(quán)利要求3所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述原始數(shù)據(jù)集包括:
5.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布之后,包括:
6.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,按照如下公式,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度:
7.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述基于所述余弦相似度確定目標數(shù)據(jù)集,包括:
8.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述多種格式包括JSON、CSV和/或純文本。
9.一種電子設備,所述電子設備包括:存儲器、處
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1至8任意一項所述的基于分布的預訓練數(shù)據(jù)自動篩選方法。
...【技術特征摘要】
1.一種基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述方法還包括:
3.如權(quán)利要求1或2所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,包括:
4.如權(quán)利要求3所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述原始數(shù)據(jù)集包括:
5.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布之后,包括:
6.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,按照如下公式,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度:
...
【專利技術屬性】
技術研發(fā)人員:張博文,
申請(專利權(quán))人:北京智源人工智能研究院,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。