System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻少妇伦在线电影,亚洲AV蜜桃永久无码精品,人妻丰满?V无码久久不卡
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備技術

    技術編號:44454566 閱讀:3 留言:0更新日期:2025-02-28 19:00
    本申請公開了基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備,屬于大模型技術領域;該方法包括:利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,其中,所述原始數(shù)據(jù)集中的數(shù)據(jù)有多種格式;利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布;其中,所述第一算法包括哈希算法和n?gram算法;獲取目標任務對應的參考數(shù)據(jù)集,構(gòu)建與所述參考數(shù)據(jù)集對應的目標任務分布;基于所述目標任務分布和所述原始特征分布,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度;基于所述余弦相似度確定目標數(shù)據(jù)集。本申請能自動完成原始數(shù)據(jù)集的篩選,降低了成本,實現(xiàn)了高效準確篩選數(shù)據(jù)且適應能力強的技術效果。

    【技術實現(xiàn)步驟摘要】

    本申請屬于大模型,特別涉及一種基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備


    技術介紹

    1、在大規(guī)模語言模型(large?language?model,llm)的研發(fā)與應用中,預訓練數(shù)據(jù)的規(guī)模與質(zhì)量是決定模型性能的關鍵因素。然而,當前的預訓練數(shù)據(jù)的獲取與篩選方式在面對超大規(guī)模、多領域、多格式的數(shù)據(jù)集時存在如下諸多問題:1)效率低下:傳統(tǒng)基于人工標注或規(guī)則的篩選方式,無法應對大規(guī)模數(shù)據(jù)的處理需求;2)選擇不精確:缺乏針對目標任務的精細化分析,無法識別對目標任務有顯著貢獻的數(shù)據(jù);3)缺乏動態(tài)適應能力:現(xiàn)有方法無法根據(jù)任務需求的變化,自適應調(diào)整篩選策略。

    2、針對上述問題,提出本申請的基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備。


    技術實現(xiàn)思路

    1、為了解決所述現(xiàn)有技術的不足,本申請?zhí)峁┝艘环N基于分布的預訓練數(shù)據(jù)自動篩選方法及電子設備,該方法能夠解決現(xiàn)有技術中的獲取和篩選預訓練數(shù)據(jù)時遇到的效率低下、選擇不精確以及缺乏動態(tài)適應能力等問題。

    2、本申請所要達到的技術效果通過以下方案實現(xiàn):

    3、第一方面,本申請?zhí)峁┮环N基于分布的預訓練數(shù)據(jù)自動篩選方法,包括:

    4、利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,其中,所述原始數(shù)據(jù)集中的數(shù)據(jù)有多種格式;

    5、利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布;其中,所述第一算法包括哈希算法和n-gram算法;

    6、獲取目標任務對應的參考數(shù)據(jù)集,構(gòu)建與所述參考數(shù)據(jù)集對應的目標任務分布;

    7、基于所述目標任務分布和所述原始特征分布,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度;

    8、基于所述余弦相似度確定目標數(shù)據(jù)集。

    9、在一些實施例中,所述方法還包括:

    10、根據(jù)所述目標數(shù)據(jù)集在模型訓練中的訓練結(jié)果,調(diào)整基于所述余弦相似度確定目標數(shù)據(jù)集過程中使用的閾值參數(shù)。

    11、在一些實施例中,其特征在于,所述利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,包括:

    12、利用數(shù)據(jù)輸入模塊,通過文件流處理方式加載原始數(shù)據(jù)集;

    13、采用分批導入策略實現(xiàn)網(wǎng)絡實時抓取的動態(tài)數(shù)據(jù)流的輸入。

    14、在一些實施例中,所述原始數(shù)據(jù)集包括:

    15、通用數(shù)據(jù)集;

    16、領域數(shù)據(jù)集;以及

    17、用戶自定義數(shù)據(jù)集。

    18、在一些實施例中,所述利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布之后,包括:

    19、通過哈希函數(shù)將所述原始特征分布映射到固定長度的向量空間。

    20、在一些實施例中,按照如下公式,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度:

    21、余弦相似度=;

    22、其中,x表示所述原始特征分布中每條數(shù)據(jù)中的任意詞x,p(x)表示任意詞x在所述原始特征分布中的概率,q(x)表示任意詞x在所述目標任務分布中的概率。

    23、在一些實施例中,所述基于所述余弦相似度確定目標數(shù)據(jù)集,包括:

    24、確定設定閾值;

    25、刪除所述余弦相似度小于所述設定閾值的數(shù)據(jù),保留所述余弦相似度大于或者等于所述設定閾值的數(shù)據(jù),形成目標數(shù)據(jù)集。

    26、在一些實施例中,所述多種格式包括json、csv和/或純文本。

    27、第二方面,本申請?zhí)峁┮环N電子設備,所述電子設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)前述任一方法。

    28、第三方面,本申請?zhí)峁┮环N計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)前述任一方法。

    29、通過本申請實施例的基于分布的數(shù)據(jù)自動篩選方法及電子設備,該方法通過對原始數(shù)據(jù)集與目標任務對應的參考數(shù)據(jù)集進行特征提取,并計算對應的特征分布的余弦相似度,進而基于余弦相似度來對原始數(shù)據(jù)集進行篩選,獲得目標數(shù)據(jù)集,可以自動完成原始數(shù)據(jù)集的篩選,降低了成本,實現(xiàn)了高效準確篩選數(shù)據(jù)且適應能力強的技術效果。

    本文檔來自技高網(wǎng)
    ...

    【技術保護點】

    1.一種基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,包括:

    2.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述方法還包括:

    3.如權(quán)利要求1或2所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,包括:

    4.如權(quán)利要求3所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述原始數(shù)據(jù)集包括:

    5.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布之后,包括:

    6.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,按照如下公式,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度:

    7.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述基于所述余弦相似度確定目標數(shù)據(jù)集,包括:

    8.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述多種格式包括JSON、CSV和/或純文本。

    9.一種電子設備,所述電子設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至8中任意一項所述的基于分布的預訓練數(shù)據(jù)自動篩選方法。

    10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)如權(quán)利要求1至8任意一項所述的基于分布的預訓練數(shù)據(jù)自動篩選方法。

    ...

    【技術特征摘要】

    1.一種基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,包括:

    2.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述方法還包括:

    3.如權(quán)利要求1或2所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用數(shù)據(jù)輸入模塊接收原始數(shù)據(jù)集,包括:

    4.如權(quán)利要求3所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述原始數(shù)據(jù)集包括:

    5.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,所述利用第一算法將所述原始數(shù)據(jù)集中的數(shù)據(jù)轉(zhuǎn)化為原始特征分布之后,包括:

    6.如權(quán)利要求1所述的基于分布的預訓練數(shù)據(jù)自動篩選方法,其特征在于,按照如下公式,計算所述原始特征分布中每條數(shù)據(jù)的余弦相似度:

    ...

    【專利技術屬性】
    技術研發(fā)人員:張博文
    申請(專利權(quán))人:北京智源人工智能研究院
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻一区二区三区在线视频| 国内精品无码一区二区三区 | 无码日韩精品一区二区三区免费 | 人妻丰满熟妞av无码区 | 日韩夜夜高潮夜夜爽无码| 日韩人妻无码精品系列| 精品久久亚洲中文无码| 中文无码喷潮在线播放| 激情无码亚洲一区二区三区| 日韩精品人妻系列无码专区免费| 精品无码专区亚洲| 中文字幕日产无码| 国产爆乳无码视频在线观看| 用舌头去添高潮无码视频| 亚洲无码一区二区三区| 久久午夜夜伦鲁鲁片无码免费| 日韩人妻无码一区二区三区久久99| 最新亚洲人成无码网站| 国产精品无码无卡在线观看久| 亚洲日韩精品无码专区加勒比☆| 久久久久亚洲AV无码专区首| 亚洲啪啪AV无码片| 国内精品无码一区二区三区 | 青青爽无码视频在线观看| 91久久九九无码成人网站| 无码丰满少妇2在线观看| 无码专区天天躁天天躁在线| 无码精品黑人一区二区三区| 西西午夜无码大胆啪啪国模| 亚洲大尺度无码无码专区| 亚洲av无码一区二区三区不卡| 无码性午夜视频在线观看| 无码人妻久久久一区二区三区| 久久无码无码久久综合综合| 无码国产精品一区二区免费模式| 无套中出丰满人妻无码| 中文无码热在线视频| 九九无码人妻一区二区三区| 亚洲av无码乱码在线观看野外| 亚洲国产成人精品无码久久久久久综合| 天堂无码在线观看|