• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據集處理方法、裝置、設備、介質及模型訓練系統制造方法及圖紙

    技術編號:37716347 閱讀:29 留言:0更新日期:2023-06-02 00:12
    本發明專利技術涉及存儲技術領域,具體公開了一種數據集處理方法、裝置、設備、介質及模型訓練系統,通過將小文件數據集以聚合文件數據集的形式寫入存儲系統,減少了將小文件數據寫入存儲系統的寫次數;通過在模型訓練中根據聚合文件數據集的元數據生成的迭代數據集信息列表自存儲系統獲取所需小文件時,對計算節點本地不具有所需小文件數據才在存儲系統中獲取該小文件數據所在的聚合文件到計算節點本地,減少了在模型訓練過程中從存儲系統讀取小文件數據集的讀次數,通過減少存儲系統在模型訓練過程中的小文件交互,提高了小文件處理效率以在提高存儲性能的同時提高人工智能項目落地效率。率。率。

    【技術實現步驟摘要】
    一種數據集處理方法、裝置、設備、介質及模型訓練系統


    [0001]本專利技術涉及存儲
    ,特別是涉及一種數據集處理方法、裝置、設備、介質及模型訓練系統。

    技術介紹

    [0002]人工智能(Artificial Intelligence,AI)技術涉及機器人、語言識別、圖像識別、自然語言處理和專家系統等領域的研究。基于深度學習(Deep Learning,DL)的人工智能方案能夠通過學習樣本數據來獲得對文字、圖像和聲音等數據的解釋,從而使機器能夠獲得分析學習能力,能夠識別文字、圖像和聲音等數據,在搜索技術、數據挖掘、機器學習、機器翻譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了很多成果。人工智能發展的初始階段,是將數據集本地化后再進行訓練,這不僅需要本地有足夠的磁盤空間,還需要花費大量時間等待數據集本地化完成。隨著大數據和人工智能技術的發展,復雜場景的人工智能模型訓練以及需要海量數據的人工智能模型訓練開始出現,受限于本地存儲空間大小,將海量數據集存儲在本地的方案不再可行。
    [0003]為解決海量數據集的存儲問題,相關領域開發出許多數據集的存儲方法,通過分布式存儲,聚合存儲資源,來實現海量數據集的存儲。然而,這種將數據集的存儲與訓練分離的場景,帶來了數據訪問延遲和遠程獲取數據集帶寬開銷大等問題。
    [0004]而相關技術提出的數據集處理框架,為了兼顧不同存儲、不同數據類型文件、不同應用場景的需求,更側重于通用性的研究,而導致出現千萬級別規模的海量小文件數據集。同時,由于大規模計算集群并發執行訓練任務時,每個訓練任務使用的數據集可能不同,計算集群向底層存儲系統發出大量的小文件讀取請求,這種訪問方式在給存儲系統帶來極大的工作壓力的同時,也影響了訓練任務的效率,進而導致人工智能項目落地效率低。
    [0005]如何提高小文件數據集處理效率,以在提高存儲性能的同時提高人工智能項目落地效率,是本領域技術人員需要解決的技術問題。

    技術實現思路

    [0006]本專利技術的目的是提供一種數據集處理方法、裝置、設備、介質及模型訓練系統,用于提高提高小文件數據集處理效率,以在提高存儲性能的同時提高人工智能項目落地效率。
    [0007]為解決上述技術問題,本專利技術提供一種數據集處理方法,包括:將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統;在接收到模型訓練任務時,根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表;根據所述迭代數據集信息列表自所述存儲系統獲取小文件數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算
    節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲。
    [0008]在一些實施例中,所述將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統,具體包括:將所述小文件數據集聚合為代碼塊,并生成各所述代碼塊的元數據;將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統。
    [0009]在一些實施例中,所述將所述小文件數據集聚合為代碼塊,具體為:將所述小文件數據集聚合為無損壓縮的所述代碼塊。
    [0010]在一些實施例中,所述將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統,具體為:將各所述代碼塊的元數據寫入所述存儲系統后,分批次將所述代碼塊寫入所述存儲系統。
    [0011]在一些實施例中,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊放入代碼塊寫隊列,每累積預設大小的一批所述代碼塊,執行一次將所述代碼塊寫入所述存儲系統的操作。
    [0012]在一些實施例中,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊分為多個批次后,并行執行將各批次所述代碼塊寫入所述存儲系統的操作。
    [0013]在一些實施例中,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據之后的小文件數據。
    [0014]在一些實施例中,所述根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表,具體包括:根據所述聚合文件數據集的元數據生成所述聚合文件數據集的數據集信息列表;對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表。
    [0015]在一些實施例中,所述對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表,具體包括:對所述數據集信息列表中的各聚合文件進行亂序處理,生成聚合文件亂序列表;對所述聚合文件亂序列表中的聚合文件進行分組,并以組為單位對組內的小文件數據進行亂序處理后,得到所述迭代數據集信息列表。
    [0016]在一些實施例中,所述若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體為:若所述計算節點的本地存儲不具有所需小文件數據,則自所述存儲系統讀取所需小文件數據所在的聚合文件所在的組到所述計算節點的本地存儲。
    [0017]在一些實施例中,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據所在組的下一組小文件數據。
    [0018]在一些實施例中,所述根據所述迭代數據集信息列表自所述存儲系統獲取小文件
    數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體包括:在每次迭代訓練前,重新執行亂序處理以生成當前迭代次數的所述迭代數據集信息列表;根據當前迭代次數的所述迭代數據集信息列表依次獲取小文件數據進行批量訓練,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,直至完成當前迭代次數的所述迭代數據集信息列表中所有小文件數據的訓練;當滿足迭代結束條件后,完成迭代訓練。
    [0019]在一些實施例中,還包括:根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理。
    [0020]在一些實施例中,所述根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理,具體包括:以在下一次迭代訓練的所述迭代數據集信息列表中索引位置靠后為高優先級,生成聚合文件的驅逐優先級隊列;以當前迭代次數的所述迭代數據集信息列表中對應的小文件數據均已完成訓練為高優先級,調整所述驅逐優先級隊列;根據所述驅逐優先級隊列,對所述計算節點的本地存儲中的本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種數據集處理方法,其特征在于,包括:將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統;在接收到模型訓練任務時,根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表;根據所述迭代數據集信息列表自所述存儲系統獲取小文件數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲。2.根據權利要求1所述的數據集處理方法,其特征在于,所述將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統,具體包括:將所述小文件數據集聚合為代碼塊,并生成各所述代碼塊的元數據;將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統。3.根據權利要求2所述的數據集處理方法,其特征在于,所述將所述小文件數據集聚合為代碼塊,具體為:將所述小文件數據集聚合為無損壓縮的所述代碼塊。4.根據權利要求2所述的數據集處理方法,其特征在于,所述將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統,具體為:將各所述代碼塊的元數據寫入所述存儲系統后,分批次將所述代碼塊寫入所述存儲系統。5.根據權利要求4所述的數據集處理方法,其特征在于,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊放入代碼塊寫隊列,每累積預設大小的一批所述代碼塊,執行一次將所述代碼塊寫入所述存儲系統的操作。6.根據權利要求4所述的數據集處理方法,其特征在于,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊分為多個批次后,并行執行將各批次所述代碼塊寫入所述存儲系統的操作。7.根據權利要求1所述的數據集處理方法,其特征在于,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據之后的小文件數據。8.根據權利要求1所述的數據集處理方法,其特征在于,所述根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表,具體包括:根據所述聚合文件數據集的元數據生成所述聚合文件數據集的數據集信息列表;對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表。9.根據權利要求8所述的數據集處理方法,其特征在于,所述對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表,具體包括:對所述數據集信息列表中的各聚合文件進行亂序處理,生成聚合文件亂序列表;
    對所述聚合文件亂序列表中的聚合文件進行分組,并以組為單位對組內的小文件數據進行亂序處理后,得到所述迭代數據集信息列表。10.根據權利要求9所述的數據集處理方法,其特征在于,所述若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體為:若所述計算節點的本地存儲不具有所需小文件數據,則自所述存儲系統讀取所需小文件數據所在的聚合文件所在的組到所述計算節點的本地存儲。11.根據權利要求9所述的數據集處理方法,其特征在于,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據所在組的下一組小文件數據。12.根據權利要求8所述的數據集處理方法,其特征在于,所述根據所述迭代數據集信息列表自所述存儲系統獲取小文件數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體包括:在每次迭代訓練前,重新執行亂序處理以生成當前迭代次數的所述迭代數據集信息列表;根據當前迭代次數的所述迭代數據集信息列表依次獲取小文件數據進行批量訓練,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,直至完成當前迭代次數的所述迭代數據集信息列表中所有小文件數據的訓練;當滿足迭代結束條件后,完成迭代訓練。13.根據權利要求12所述的數據集處理方法,其特征在于,還包括:根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理。14.根據權利要求13所述的數據集處理方法,其特征在于,所述根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理,具體包括:以在下一次迭代訓練的所述迭代數據集信息列表中索引位置靠后為高優先級,生成聚合文件的驅逐優先級隊列;以當前迭代次數的所述迭代...

    【專利技術屬性】
    技術研發人員:王繼玉鄭玉會趙瀟瑤
    申請(專利權)人:山東英信計算機技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲爆乳大丰满无码专区| 久久午夜无码鲁丝片秋霞| 无码任你躁久久久久久老妇| 在线观看无码的免费网站| 国产精品成人99一区无码| 亚洲中文字幕无码永久在线 | 国产成人AV无码精品| 无码一区二区三区老色鬼| 亚洲av无码专区亚洲av不卡| 亚洲大尺度无码专区尤物| 无码人妻精品一区二区三区久久久| 中文字幕无码一区二区免费| 亚洲AV无码AV男人的天堂不卡| 国产精品无码日韩欧| V一区无码内射国产| 亚洲av永久无码| 精品欧洲AV无码一区二区男男 | 国产精品无码av天天爽 | 熟妇人妻中文字幕无码老熟妇| 67194成是人免费无码| 久久久久av无码免费网| 无码精品一区二区三区免费视频| 少妇中文无码高清| 精品无码国产污污污免费| 啊灬啊别停灬用力啊无码视频| 亚洲AV无码一区二区乱孑伦AS| 精品久久久久久无码人妻蜜桃 | 久久久久亚洲AV无码永不| 亚洲中文久久精品无码ww16| 成人无码视频97免费| 国产成人无码一二三区视频| 粉嫩高中生无码视频在线观看| 久久久人妻精品无码一区| 久久99久久无码毛片一区二区| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲AV无码专区在线厂| 无码国产成人午夜电影在线观看| 亚洲色偷拍区另类无码专区| 国产成人无码免费网站| 国产精品无码AV一区二区三区| 国产激情无码一区二区|