【技術實現步驟摘要】
一種數據集處理方法、裝置、設備、介質及模型訓練系統
[0001]本專利技術涉及存儲
,特別是涉及一種數據集處理方法、裝置、設備、介質及模型訓練系統。
技術介紹
[0002]人工智能(Artificial Intelligence,AI)技術涉及機器人、語言識別、圖像識別、自然語言處理和專家系統等領域的研究。基于深度學習(Deep Learning,DL)的人工智能方案能夠通過學習樣本數據來獲得對文字、圖像和聲音等數據的解釋,從而使機器能夠獲得分析學習能力,能夠識別文字、圖像和聲音等數據,在搜索技術、數據挖掘、機器學習、機器翻譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了很多成果。人工智能發展的初始階段,是將數據集本地化后再進行訓練,這不僅需要本地有足夠的磁盤空間,還需要花費大量時間等待數據集本地化完成。隨著大數據和人工智能技術的發展,復雜場景的人工智能模型訓練以及需要海量數據的人工智能模型訓練開始出現,受限于本地存儲空間大小,將海量數據集存儲在本地的方案不再可行。
[0003]為解決海量數據集的存儲問題,相關領域開發出許多數據集的存儲方法,通過分布式存儲,聚合存儲資源,來實現海量數據集的存儲。然而,這種將數據集的存儲與訓練分離的場景,帶來了數據訪問延遲和遠程獲取數據集帶寬開銷大等問題。
[0004]而相關技術提出的數據集處理框架,為了兼顧不同存儲、不同數據類型文件、不同應用場景的需求,更側重于通用性的研究,而導致出現千萬級別規模的海量小文件數據集。同時,由于大規模 ...
【技術保護點】
【技術特征摘要】
1.一種數據集處理方法,其特征在于,包括:將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統;在接收到模型訓練任務時,根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表;根據所述迭代數據集信息列表自所述存儲系統獲取小文件數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲。2.根據權利要求1所述的數據集處理方法,其特征在于,所述將接收到的小文件數據集聚合得到的聚合文件數據集以及所述聚合文件數據集的元數據寫入存儲系統,具體包括:將所述小文件數據集聚合為代碼塊,并生成各所述代碼塊的元數據;將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統。3.根據權利要求2所述的數據集處理方法,其特征在于,所述將所述小文件數據集聚合為代碼塊,具體為:將所述小文件數據集聚合為無損壓縮的所述代碼塊。4.根據權利要求2所述的數據集處理方法,其特征在于,所述將各所述代碼塊和各所述代碼塊的元數據寫入所述存儲系統,具體為:將各所述代碼塊的元數據寫入所述存儲系統后,分批次將所述代碼塊寫入所述存儲系統。5.根據權利要求4所述的數據集處理方法,其特征在于,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊放入代碼塊寫隊列,每累積預設大小的一批所述代碼塊,執行一次將所述代碼塊寫入所述存儲系統的操作。6.根據權利要求4所述的數據集處理方法,其特征在于,所述分批次將所述代碼塊寫入所述存儲系統,具體為:將所述代碼塊分為多個批次后,并行執行將各批次所述代碼塊寫入所述存儲系統的操作。7.根據權利要求1所述的數據集處理方法,其特征在于,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據之后的小文件數據。8.根據權利要求1所述的數據集處理方法,其特征在于,所述根據所述聚合文件數據集的元數據生成迭代訓練的迭代數據集信息列表,具體包括:根據所述聚合文件數據集的元數據生成所述聚合文件數據集的數據集信息列表;對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表。9.根據權利要求8所述的數據集處理方法,其特征在于,所述對所述數據集信息列表進行亂序處理,得到所述迭代數據集信息列表,具體包括:對所述數據集信息列表中的各聚合文件進行亂序處理,生成聚合文件亂序列表;
對所述聚合文件亂序列表中的聚合文件進行分組,并以組為單位對組內的小文件數據進行亂序處理后,得到所述迭代數據集信息列表。10.根據權利要求9所述的數據集處理方法,其特征在于,所述若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體為:若所述計算節點的本地存儲不具有所需小文件數據,則自所述存儲系統讀取所需小文件數據所在的聚合文件所在的組到所述計算節點的本地存儲。11.根據權利要求9所述的數據集處理方法,其特征在于,還包括:在每次迭代訓練中,根據所述迭代數據集信息列表加載當前所需小文件數據所在組的下一組小文件數據。12.根據權利要求8所述的數據集處理方法,其特征在于,所述根據所述迭代數據集信息列表自所述存儲系統獲取小文件數據存入計算節點,以使所述計算節點根據所述小文件數據集進行迭代訓練,并在每次迭代訓練中,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,具體包括:在每次迭代訓練前,重新執行亂序處理以生成當前迭代次數的所述迭代數據集信息列表;根據當前迭代次數的所述迭代數據集信息列表依次獲取小文件數據進行批量訓練,若所述計算節點的本地存儲具有所需小文件數據則自本地獲取所需小文件數據,若所述計算節點的本地存儲不具有所需小文件數據則自所述存儲系統讀取所需小文件數據所在的聚合文件到所述計算節點的本地存儲,直至完成當前迭代次數的所述迭代數據集信息列表中所有小文件數據的訓練;當滿足迭代結束條件后,完成迭代訓練。13.根據權利要求12所述的數據集處理方法,其特征在于,還包括:根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理。14.根據權利要求13所述的數據集處理方法,其特征在于,所述根據下一次迭代訓練的所述迭代數據集信息列表和當前迭代次數的所述迭代數據集信息列表,對所述計算節點的本地存儲中的小文件數據進行驅逐處理,具體包括:以在下一次迭代訓練的所述迭代數據集信息列表中索引位置靠后為高優先級,生成聚合文件的驅逐優先級隊列;以當前迭代次數的所述迭代...
【專利技術屬性】
技術研發人員:王繼玉,鄭玉會,趙瀟瑤,
申請(專利權)人:山東英信計算機技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。