System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術公開一種訓練數據集版本管理方法及系統,涉及數據管理。
技術介紹
1、隨著人工智能技術的飛速發展和大數據時代的到來,訓練數據集作為機器學習模型的基石,其規模日益龐大,復雜度也顯著提升。然而目前存在訓練數據集版本控制不嚴格、版本信息缺失、更新效率低下、回溯困難等問題。這些問題不僅增加了數據管理的復雜度,還可能導致數據一致性問題頻發,進而影響模型訓練的結果和可靠性。同時,由于缺乏有效的版本控制機制,不同版本之間的數據差異難以準確追蹤,歷史版本數據也往往難以恢復。更為嚴重的是,在數據傳輸、存儲和處理過程中,數據的完整性可能會受到破壞,如數據被篡改、丟失或損壞等,這也直接影響模型訓練的結果和可靠性。
技術實現思路
1、本專利技術針對現有技術的問題,提供一種訓練數據集版本管理方法及系統,顯著降低數據管理的復雜度,提升版本管理的效率和準確性,從而保障模型訓練的質量和可靠性。
2、本專利技術提出的具體方案是:
3、本專利技術提供一種訓練數據集版本管理方法,包括:
4、步驟1:建立用于模型訓練的數據集,為數據集生成唯一標識,唯一標識采用通用唯一識別碼uuid,
5、步驟2:管理數據集版本:
6、步驟21:建立數據集版本,
7、步驟22:利用公式v?=?d?+?t?+?s,生成數據集版本標識,v為數據集版本標識,d為數據集唯一標識,t為時間戳,s為順序編號,用于區分統一時間戳下多個數據集版本;
8、步驟23:
9、步驟24:根據靜態快照,檢查數據集中將發生內容變動的文件對象是否包含在靜態快照中,是則在內容變動前將文件對象的當前版本拷貝到靜態快照的對應存儲中,并更新靜態快照的元數據的對象索引,再進行數據集的變動操作,
10、步驟25:校驗數據集完整性:根據數據集版本,明確數據集的邊界,確定哪些文件對象被包含在當前的數據集版本之中,采用哈希算法對數據集中每個文件對象進行哈希值計算并記錄哈希值,當數據集被調度用于執行訓練任務前,遍歷數據集中所有文件對象,使用相同的哈希算法重新計算每個文件對象的哈希值,并將新計算的哈希值與記錄哈希值進行比對,若所有哈希值都匹配,則校驗通過,否則觸發警報。
11、進一步,所述的一種訓練數據集版本管理方法的步驟1中還對數據集中文件對象進行分類管理,包括:根據當前數據集所包含文件的擴展名類型識別文件對象類型,文件對象類型包括圖片、視頻、音頻和文本,并將文件對象類型與數據集中文件對象的保存路徑作為元數據保存于數據庫中。
12、進一步,所述的一種訓練數據集版本管理方法的步驟21中建立數據集版本包括兩種方式,一種方式為基于數據集中原始文件對象內容捕捉數據的靜態快照,建立數據集版本并發布;另一種方式為基于已發布的數據集版本,在已有的數據集版本的文件對象內容基礎上變更文件對象內容,生成新的數據集版本并發布。
13、進一步,所述的一種訓練數據集版本管理方法的步驟25中校驗數據集完整性,包括:
14、引入數據簽名機制,利用哈希值記錄文件記錄每個文件對象的哈希值,使用私鑰對哈希值記錄文件加密,生成數字簽名,
15、當數據集被調度用于執行訓練任務前,使用對應的公鑰對數字簽名進行解密,獲得原始的哈希值記錄文件,并遍歷數據集中所有文件對象,使用相同的哈希算法重新計算每個文件對象的哈希值,并將新計算的哈希值與哈希值記錄文件中記錄的哈希值進行比對,若所有哈希值都匹配,則校驗通過,否則觸發警報。
16、本專利技術還提供一種訓練數據集版本管理系統,包括數據集管理模塊、版本管理模塊和完整性校驗模塊,
17、數據集管理模塊建立用于模型訓練的數據集,為數據集生成唯一標識,唯一標識采用通用唯一識別碼uuid,
18、版本管理模塊管理數據集版本:
19、建立數據集版本,
20、利用公式v?=?d?+?t?+?s,生成數據集版本標識,v為數據集版本標識,d為數據集唯一標識,t為時間戳,s為順序編號,用于區分統一時間戳下多個數據集版本;
21、根據數據集版本,創建所選數據集的靜態快照,靜態快照保存的元數據包括數據集版本標識v,創建時間、數據集包含的文件對象列表、對象索引以及每個文件對象的版本標識;
22、根據靜態快照,檢查數據集中將發生內容變動的文件對象是否包含在靜態快照中,是則在內容變動前將文件對象的當前版本拷貝到靜態快照的對應存儲中,并更新靜態快照的元數據的對象索引,再進行數據集的變動操作;
23、完整性校驗模塊校驗數據集完整性:根據數據集版本,明確數據集的邊界,確定哪些文件對象被包含在當前的數據集版本之中,采用哈希算法對數據集中每個文件對象進行哈希值計算并記錄哈希值,當數據集被調度用于執行訓練任務前,遍歷數據集中所有文件對象,使用相同的哈希算法重新計算每個文件對象的哈希值,并將新計算的哈希值與記錄哈希值進行比對,若所有哈希值都匹配,則校驗通過,否則觸發警報。
24、進一步,所述的一種訓練數據集版本管理系統的數據集管理模塊還對數據集中文件對象進行分類管理,包括:根據當前數據集所包含文件的擴展名類型識別文件對象類型,文件對象類型包括圖片、視頻、音頻和文本,并將文件對象類型與數據集中文件對象的保存路徑作為元數據保存于數據庫中。
25、進一步,所述的一種訓練數據集版本管理系統的版本管理模塊建立數據集版本包括兩種方式,一種方式為基于數據集中原始文件對象內容捕捉數據的靜態快照,建立數據集版本并發布;另一種方式為基于已發布的數據集版本,在已有的數據集版本的文件對象內容基礎上變更文件對象內容,生成新的數據集版本并發布。
26、進一步,所述的一種訓練數據集版本管理系統的完整性校驗模塊校驗數據集完整性,包括:
27、引入數據簽名機制,利用哈希值記錄文件記錄每個文件對象的哈希值,使用私鑰對哈希值記錄文件加密,生成數字簽名,
28、當數據集被調度用于執行訓練任務前,使用對應的公鑰對數字簽名進行解密,獲得原始的哈希值記錄文件,并遍歷數據集中所有文件對象,使用相同的哈希算法重新計算每個文件對象的哈希值,并將新計算的哈希值與哈希值記錄文件中記錄的哈希值進行比對,若所有哈希值都匹配,則校驗通過,否則觸發警報。
29、本專利技術方法的有益之處是:
30、通過版本控制和智能化的數據處理機制,實現了對訓練數據集版本的高效追蹤與管理。不僅解決了數據集管理上面臨的諸多問題,如版本混亂、數據丟失、篡改風險等問題,還為機器學習模型的訓練與迭代提供了強有力的支持。
31、采用多層次版本控制策略和精細化管理,能夠精確捕捉數據集的每一個變化,并生成唯一的版本標識,確保了數據集的版本清晰可追溯,同時減少了人本文檔來自技高網...
【技術保護點】
1.一種訓練數據集版本管理方法,其特征是包括:
2.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟1中還對數據集中文件對象進行分類管理,包括:根據當前數據集所包含文件的擴展名類型識別文件對象類型,文件對象類型包括圖片、視頻、音頻和文本,并將文件對象類型與數據集中文件對象的保存路徑作為元數據保存于數據庫中。
3.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟21中建立數據集版本包括兩種方式,一種方式為基于數據集中原始文件對象內容捕捉數據的靜態快照,建立數據集版本并發布;另一種方式為基于已發布的數據集版本,在已有的數據集版本的文件對象內容基礎上變更文件對象內容,生成新的數據集版本并發布。
4.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟25中校驗數據集完整性,包括:
5.一種訓練數據集版本管理系統,其特征是包括數據集管理模塊、版本管理模塊和完整性校驗模塊,
6.根據權利要求5所述的一種訓練數據集版本管理系統,其特征是數據集管理模塊還對數據集中文件對象進行分類管理,包括:根據當前數據
7.根據權利要求5所述的一種訓練數據集版本管理系統,其特征是版本管理模塊建立數據集版本包括兩種方式,一種方式為基于數據集中原始文件對象內容捕捉數據的靜態快照,建立數據集版本并發布;另一種方式為基于已發布的數據集版本,在已有的數據集版本的文件對象內容基礎上變更文件對象內容,生成新的數據集版本并發布。
8.根據權利要求5所述的一種訓練數據集版本管理系統,其特征是完整性校驗模塊校驗數據集完整性,包括:
...【技術特征摘要】
1.一種訓練數據集版本管理方法,其特征是包括:
2.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟1中還對數據集中文件對象進行分類管理,包括:根據當前數據集所包含文件的擴展名類型識別文件對象類型,文件對象類型包括圖片、視頻、音頻和文本,并將文件對象類型與數據集中文件對象的保存路徑作為元數據保存于數據庫中。
3.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟21中建立數據集版本包括兩種方式,一種方式為基于數據集中原始文件對象內容捕捉數據的靜態快照,建立數據集版本并發布;另一種方式為基于已發布的數據集版本,在已有的數據集版本的文件對象內容基礎上變更文件對象內容,生成新的數據集版本并發布。
4.根據權利要求1所述的一種訓練數據集版本管理方法,其特征是步驟25中校驗數據集完整性,包括:
5.一種訓練數據集版本...
【專利技術屬性】
技術研發人員:宋喆,肖雪,玄德,張建偉,高傳集,
申請(專利權)人:浪潮云信息技術股份公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。