System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本申請涉及人工智能,特別是涉及一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品。
技術介紹
1、隨著人工智能技術的發(fā)展,大規(guī)模機器學習模型因其強大的語言理解能力和廣泛的知識儲備,在多種領域中得到了廣泛引用。
2、相關技術,在大規(guī)模機器學習模型的訓練過程中,例如,進行多語種數(shù)據(jù)的混合訓練,通常是對多語種數(shù)據(jù)在單個節(jié)點或小范圍內的數(shù)據(jù)進行打亂處理,并基于打亂后的多語種數(shù)據(jù)對進行模型訓練。
3、然而,相關技術中對訓練數(shù)據(jù)打亂的方式,無法實現(xiàn)全局數(shù)據(jù)的均勻分布,導致訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,影響模型的性能。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,能夠實現(xiàn)全局數(shù)據(jù)的均勻分布,降低訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,提高模型的性能。
2、第一方面,本申請實施例提供了一種數(shù)據(jù)處理方法,該方法包括:
3、根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;
4、對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;
5、根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。
6、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一
7、對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)依次進行掃描,按照掃描順序對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)進行排序,得到每個訓練數(shù)據(jù)的排序編號;
8、將各訓練數(shù)據(jù)的排序編號作為對應訓練數(shù)據(jù)的唯一索引。
9、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:
10、獲取各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)的數(shù)據(jù)特征信息;數(shù)據(jù)特征信息為用于描述和區(qū)分不同訓練數(shù)據(jù)的數(shù)據(jù)屬性;
11、根據(jù)各訓練數(shù)據(jù)的數(shù)據(jù)特征信息,生成每個訓練數(shù)據(jù)的唯一索引。
12、在其中一個實施例中,對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:
13、獲取全局索引表對應的隨機參數(shù);隨機參數(shù)用于指定隨機數(shù)生成的范圍和條件;
14、根據(jù)隨機參數(shù),對全局索引表中的索引進行隨機打亂處理,得到多個隨機數(shù);
15、根據(jù)多個隨機數(shù),構建全局隨機索引表。
16、在其中一個實施例中,根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:
17、根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表;
18、根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集。
19、在其中一個實施例中,根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表,包括:
20、獲取各輪訓練的所需訓練數(shù)據(jù)量;
21、按照全局隨機索引表中各索引的順序,依次從全局隨機索引表中提取與各所需訓練數(shù)據(jù)量匹配的索引;
22、根據(jù)與各所需訓練數(shù)據(jù)量匹配的索引,生成各輪訓練的數(shù)據(jù)索引列表。
23、在其中一個實施例中,根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集,包括:
24、對于任意一輪訓練,獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件;
25、根據(jù)各所屬訓練數(shù)據(jù)文件,將屬于同一訓練數(shù)據(jù)文件的索引歸并,得到多個索引子列表;
26、根據(jù)各索引子列表,確定當前訓練輪次的訓練數(shù)據(jù)索引集。
27、在其中一個實施例中,全局索引表中包括各訓練數(shù)據(jù)的唯一索引與各訓練數(shù)據(jù)所在的訓練數(shù)據(jù)文件之間的映射關系;獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件,包括:
28、對于訓練數(shù)據(jù)索引集中的任意一個索引,將映射關系中與索引相對應的訓練數(shù)據(jù)文件,確定為索引的所屬訓練數(shù)據(jù)文件。
29、在其中一個實施例中,該方法還包括:
30、對于各輪訓練中的當前訓練輪次,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,指示各訓練節(jié)點根據(jù)訓練數(shù)據(jù)索引集從訓練數(shù)據(jù)文件中讀取對應的訓練數(shù)據(jù)進行模型訓練。
31、在其中一個實施例中,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,包括:
32、獲取訓練數(shù)據(jù)索引集中索引子列表的列表數(shù)量;
33、若各訓練節(jié)點的數(shù)量與列表數(shù)量相同,則向各訓練節(jié)點分別分配一個索引子列表;
34、若各訓練節(jié)點的數(shù)量與列表數(shù)量不同,則根據(jù)預設的分配策略,向各訓練節(jié)點分配索引子列表。
35、第二方面,本申請實施例還提供了一種數(shù)據(jù)處理裝置,該裝置包括:
36、索引生成模塊,用于根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;
37、索引打亂模塊,用于對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;
38、訓練集確定模塊,用于根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。
39、第三方面,本申請實施例還提供了一種計算機設備。計算機設備包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述第一方面中任一實施例中的步驟。
40、第四方面,本申請實施例還提供了一種計算機可讀存儲介質。計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。
41、第五方面,本申請實施例還提供了一種計算機程序產(chǎn)品。計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。
42、本申請實施例提供的數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表,然后對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,之后根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,其中,各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練,各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。該方法中,對每個訓練數(shù)據(jù)生成唯一索引,該唯一索引可以使得每個訓練數(shù)據(jù)都能夠被唯一標識,便于對各訓練數(shù)據(jù)進行全局數(shù)據(jù)的統(tǒng)一管理。再根據(jù)各訓練數(shù)據(jù)的唯一索引生成全局索引表,在全局索引表中對各索引進行隨機打亂,由于隨機打亂的對象是數(shù)據(jù)索引,所以即使全局索引表中包括了全部訓練數(shù)據(jù)的索引,也使得數(shù)據(jù)體量大大減本文檔來自技高網(wǎng)...
【技術保護點】
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:
4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:
5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:
7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:
8.根據(jù)權利要求7所述的方法,其特征在于,所述全局索引表中包括各所述訓練
9.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述方法還包括:
10.根據(jù)權利要求9所述的方法,其特征在于,所述將當前訓練輪次的訓練數(shù)據(jù)索引集分配至所述待訓練模型對應的至少一個訓練節(jié)點,包括:
11.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:
12.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。
13.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。
14.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:
4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:
5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:
6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:
7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:
8.根據(jù)權利要求7...
【專利技術屬性】
技術研發(fā)人員:請求不公布姓名,
申請(專利權)人:摩爾線程智能科技成都有限責任公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。