System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲午夜无码AV毛片久久,无码粉嫩小泬无套在线观看,久久久g0g0午夜无码精品
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品制造方法及圖紙

    技術編號:44496416 閱讀:4 留言:0更新日期:2025-03-04 18:03
    本申請涉及一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品。該方法包括:根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。采用本方法能夠實現(xiàn)全局數(shù)據(jù)的均勻分布,降低訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,提高模型的性能。

    【技術實現(xiàn)步驟摘要】

    本申請涉及人工智能,特別是涉及一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品


    技術介紹

    1、隨著人工智能技術的發(fā)展,大規(guī)模機器學習模型因其強大的語言理解能力和廣泛的知識儲備,在多種領域中得到了廣泛引用。

    2、相關技術,在大規(guī)模機器學習模型的訓練過程中,例如,進行多語種數(shù)據(jù)的混合訓練,通常是對多語種數(shù)據(jù)在單個節(jié)點或小范圍內的數(shù)據(jù)進行打亂處理,并基于打亂后的多語種數(shù)據(jù)對進行模型訓練。

    3、然而,相關技術中對訓練數(shù)據(jù)打亂的方式,無法實現(xiàn)全局數(shù)據(jù)的均勻分布,導致訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,影響模型的性能。


    技術實現(xiàn)思路

    1、基于此,有必要針對上述技術問題,提供一種數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,能夠實現(xiàn)全局數(shù)據(jù)的均勻分布,降低訓練數(shù)據(jù)在訓練過程中出現(xiàn)數(shù)據(jù)偏差,提高模型的性能。

    2、第一方面,本申請實施例提供了一種數(shù)據(jù)處理方法,該方法包括:

    3、根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;

    4、對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;

    5、根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。

    6、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    7、對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)依次進行掃描,按照掃描順序對各訓練數(shù)據(jù)文件中的訓練數(shù)據(jù)進行排序,得到每個訓練數(shù)據(jù)的排序編號;

    8、將各訓練數(shù)據(jù)的排序編號作為對應訓練數(shù)據(jù)的唯一索引。

    9、在其中一個實施例中,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    10、獲取各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)的數(shù)據(jù)特征信息;數(shù)據(jù)特征信息為用于描述和區(qū)分不同訓練數(shù)據(jù)的數(shù)據(jù)屬性;

    11、根據(jù)各訓練數(shù)據(jù)的數(shù)據(jù)特征信息,生成每個訓練數(shù)據(jù)的唯一索引。

    12、在其中一個實施例中,對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    13、獲取全局索引表對應的隨機參數(shù);隨機參數(shù)用于指定隨機數(shù)生成的范圍和條件;

    14、根據(jù)隨機參數(shù),對全局索引表中的索引進行隨機打亂處理,得到多個隨機數(shù);

    15、根據(jù)多個隨機數(shù),構建全局隨機索引表。

    16、在其中一個實施例中,根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    17、根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表;

    18、根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集。

    19、在其中一個實施例中,根據(jù)全局隨機索引表,生成各輪訓練的數(shù)據(jù)索引列表,包括:

    20、獲取各輪訓練的所需訓練數(shù)據(jù)量;

    21、按照全局隨機索引表中各索引的順序,依次從全局隨機索引表中提取與各所需訓練數(shù)據(jù)量匹配的索引;

    22、根據(jù)與各所需訓練數(shù)據(jù)量匹配的索引,生成各輪訓練的數(shù)據(jù)索引列表。

    23、在其中一個實施例中,根據(jù)各訓練數(shù)據(jù)文件,對各數(shù)據(jù)索引列表進行歸并處理,得到各輪訓練的訓練數(shù)據(jù)索引集,包括:

    24、對于任意一輪訓練,獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件;

    25、根據(jù)各所屬訓練數(shù)據(jù)文件,將屬于同一訓練數(shù)據(jù)文件的索引歸并,得到多個索引子列表;

    26、根據(jù)各索引子列表,確定當前訓練輪次的訓練數(shù)據(jù)索引集。

    27、在其中一個實施例中,全局索引表中包括各訓練數(shù)據(jù)的唯一索引與各訓練數(shù)據(jù)所在的訓練數(shù)據(jù)文件之間的映射關系;獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件,包括:

    28、對于訓練數(shù)據(jù)索引集中的任意一個索引,將映射關系中與索引相對應的訓練數(shù)據(jù)文件,確定為索引的所屬訓練數(shù)據(jù)文件。

    29、在其中一個實施例中,該方法還包括:

    30、對于各輪訓練中的當前訓練輪次,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,指示各訓練節(jié)點根據(jù)訓練數(shù)據(jù)索引集從訓練數(shù)據(jù)文件中讀取對應的訓練數(shù)據(jù)進行模型訓練。

    31、在其中一個實施例中,將當前訓練輪次的訓練數(shù)據(jù)索引集分配至待訓練模型對應的至少一個訓練節(jié)點,包括:

    32、獲取訓練數(shù)據(jù)索引集中索引子列表的列表數(shù)量;

    33、若各訓練節(jié)點的數(shù)量與列表數(shù)量相同,則向各訓練節(jié)點分別分配一個索引子列表;

    34、若各訓練節(jié)點的數(shù)量與列表數(shù)量不同,則根據(jù)預設的分配策略,向各訓練節(jié)點分配索引子列表。

    35、第二方面,本申請實施例還提供了一種數(shù)據(jù)處理裝置,該裝置包括:

    36、索引生成模塊,用于根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表;

    37、索引打亂模塊,用于對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表;

    38、訓練集確定模塊,用于根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集;各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練;各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。

    39、第三方面,本申請實施例還提供了一種計算機設備。計算機設備包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)上述第一方面中任一實施例中的步驟。

    40、第四方面,本申請實施例還提供了一種計算機可讀存儲介質。計算機可讀存儲介質,其上存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。

    41、第五方面,本申請實施例還提供了一種計算機程序產(chǎn)品。計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)上述第一方面中任一實施例中的步驟。

    42、本申請實施例提供的數(shù)據(jù)處理方法、裝置、設備、存儲介質和程序產(chǎn)品,根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,得到全局索引表,然后對全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,之后根據(jù)全局隨機索引表,確定待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,其中,各訓練數(shù)據(jù)索引集用于對待訓練模型進行模型訓練,各訓練數(shù)據(jù)在模型訓練中均勻分布,且每個訓練數(shù)據(jù)在各輪訓練中被選中的概率均相同。該方法中,對每個訓練數(shù)據(jù)生成唯一索引,該唯一索引可以使得每個訓練數(shù)據(jù)都能夠被唯一標識,便于對各訓練數(shù)據(jù)進行全局數(shù)據(jù)的統(tǒng)一管理。再根據(jù)各訓練數(shù)據(jù)的唯一索引生成全局索引表,在全局索引表中對各索引進行隨機打亂,由于隨機打亂的對象是數(shù)據(jù)索引,所以即使全局索引表中包括了全部訓練數(shù)據(jù)的索引,也使得數(shù)據(jù)體量大大減本文檔來自技高網(wǎng)...

    【技術保護點】

    1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:

    7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:

    8.根據(jù)權利要求7所述的方法,其特征在于,所述全局索引表中包括各所述訓練數(shù)據(jù)的唯一索引與各所述訓練數(shù)據(jù)所在的訓練數(shù)據(jù)文件之間的映射關系;所述獲取當前訓練輪次的訓練數(shù)據(jù)索引集中各索引的所屬訓練數(shù)據(jù)文件,包括:

    9.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述方法還包括:

    10.根據(jù)權利要求9所述的方法,其特征在于,所述將當前訓練輪次的訓練數(shù)據(jù)索引集分配至所述待訓練模型對應的至少一個訓練節(jié)點,包括:

    11.一種數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:

    12.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    13.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    14.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至10中任一項所述的方法的步驟。

    ...

    【技術特征摘要】

    1.一種數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)待訓練模型的多個訓練數(shù)據(jù)文件,對各所述訓練數(shù)據(jù)文件中每個訓練數(shù)據(jù)生成唯一索引,包括:

    4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述對所述全局索引表中的索引進行隨機打亂處理,得到全局隨機索引表,包括:

    5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,確定所述待訓練模型的各輪訓練的訓練數(shù)據(jù)索引集,包括:

    6.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)所述全局隨機索引表,生成所述各輪訓練的數(shù)據(jù)索引列表,包括:

    7.根據(jù)權利要求5所述的方法,其特征在于,所述根據(jù)各所述訓練數(shù)據(jù)文件,對各所述數(shù)據(jù)索引列表進行歸并處理,得到所述各輪訓練的訓練數(shù)據(jù)索引集,包括:

    8.根據(jù)權利要求7...

    【專利技術屬性】
    技術研發(fā)人員:請求不公布姓名
    申請(專利權)人:摩爾線程智能科技成都有限責任公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码乱码在线观看富二代| 久久午夜夜伦鲁鲁片免费无码| 亚洲熟妇无码av另类vr影视| 国产精品无码av天天爽| 八戒理论片午影院无码爱恋| 伊人久久一区二区三区无码| 自拍偷在线精品自拍偷无码专区| 亚洲av无码兔费综合| 国99精品无码一区二区三区| 免费A级毛片无码A∨男男| 亚洲精品无码久久久久YW| 无码精品久久久天天影视| 人妻系列AV无码专区| 精品久久久久久无码人妻| 一区二区三区无码被窝影院| 久久久久亚洲av无码专区| 亚洲国产精品无码AAA片| 国产网红主播无码精品| 免费无码又爽又刺激高潮| 亚洲AV成人无码网天堂| 久久亚洲精品无码VA大香大香| 亚洲中文久久精品无码| 国产AV无码专区亚洲AV手机麻豆| 无码乱码观看精品久久| 日韩电影无码A不卡| 成人无码Av片在线观看| 无码少妇丰满熟妇一区二区| 午夜福利无码一区二区| 无码av专区丝袜专区| 国产爆乳无码视频在线观看3| 无码午夜人妻一区二区不卡视频| 亚洲国产成人无码av在线播放 | 中文字幕无码不卡免费视频| 亚洲AV无码国产精品麻豆天美| 一本色道无码不卡在线观看| 亚洲AV综合色区无码一区| 亚洲AV无码乱码在线观看富二代| 久久久久亚洲精品无码系列| 无码视频一区二区三区在线观看| 亚洲av无码不卡| 亚洲最大天堂无码精品区|