System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码精品视频一区二区三区,国产AV无码专区亚洲AV琪琪,成在线人免费无码高潮喷水
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品制造方法及圖紙

    技術編號:44197903 閱讀:13 留言:0更新日期:2025-02-06 18:34
    本發明專利技術實施方式公開了交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品,屬于人工智能技術領域。方法包括:基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數,其中每個分塊包含的層數是可配置的;基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括下列中的一個:基于計算單元數、分塊數和總層數,以氣泡時間為指標而確定每個分塊包含的層數;基于計算單元數、分塊數和總層數,以顯存消耗為指標而確定每個分塊包含的層數;基于計算單元數、分塊數和總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數;基于每個分塊包含的層數,對大模型執行交錯式流水線并行訓練。可以提高訓練效率。

    【技術實現步驟摘要】

    本專利技術涉及人工智能(artificial?intelligence,ai),更具體的說,涉及交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品


    技術介紹

    1、?在深度學習領域,通常采用計算單元(比如,gpu或gpgpu)執行模型訓練。計算單元的顯存容量一般有限。對于大模型的訓練場景,大模型的參數規模通常龐大(比如,參數量在十億到萬億之間)。流水線并行(pipeline?parallelism,pp),指的是將模型按照層數進行切分,將模型的不同層部署到不同的計算單元上進行流水線式的調度,每個計算單元被稱為不同的pp?階段(stage)。

    2、流水線并行訓練通常包括非交錯式和交錯式。目前,只有當計算單元的層數可以被分塊(chunk)數整除時,才可以執行交錯式流水線并行訓練,不利于訓練效率的提升。


    技術實現思路

    1、本專利技術提出交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品,有助于提升訓練效率。

    2、本專利技術實施方式的技術方案如下:

    3、一種交錯式流水線并行訓練方法,包括:

    4、基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數,其中每個分塊包含的層數是可配置的;所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括下列中的一個:基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數;基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數;基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數;

    5、基于所述每個分塊包含的層數,對所述大模型執行交錯式流水線并行訓練。

    6、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    7、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    8、確定每個候選方案的氣泡時間;

    9、從所述多個候選方案中選擇氣泡時間最少的候選方案;

    10、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。

    11、在一個實施方式中,所述確定每個候選方案的氣泡時間包括:

    12、確定每個候選方案的每個分塊對單位微批次執行前向計算的前向時間;

    13、從每個候選方案的多個分塊的多個前向時間中,確定出最大前向時間;

    14、確定每個候選方案的每個分塊對單位微批次執行反向計算的反向時間;

    15、從每個候選方案的多個分塊的多個反向時間中,確定出最大反向時間;

    16、基于所述最大前向時間、所述最大反向時間和所述計算單元數,確定每個候選方案的氣泡時間。

    17、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    18、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    19、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    20、從所述多個候選方案中選擇所述顯存消耗最小的候選方案;

    21、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。

    22、在一個實施方式中,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    23、確定每個候選方案中的、首先執行計算的計算單元的全部分塊對單位微批次執行計算的第一激活值;

    24、確定每個候選方案中的、首先執行計算的計算單元的首先執行計算的第一分塊對單位微批次執行計算的第二激活值;

    25、基于所述第一激活值、所述第二激活值和計算單元數,確定每個候選方案中的、首先執行計算的計算單元的顯存消耗。

    26、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    27、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    28、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    29、從所述多個候選方案中選擇所述顯存消耗低于第一預定閾值的至少一個候選方案;

    30、確定所述至少一個候選方案的氣泡時間;

    31、從所述至少一個候選方案中選擇氣泡時間最少的候選方案;

    32、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。

    33、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    34、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    35、確定每個候選方案的氣泡時間;

    36、從所述多個候選方案中選擇氣泡時間低于第二預定閾值的至少一個候選方案;

    37、確定所述至少一個候選方案中的、首先執行計算的計算單元的顯存消耗;

    38、從所述至少一個候選方案中選擇顯存消耗最小的候選方案;

    39、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。

    40、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    41、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    42、確定每個候選方案的氣泡時間及每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    43、從所述多個候選方案中選擇顯存消耗低于第一預定閾值且氣泡時間低于第二預定閾值的至少一個候選方案;

    44、從所述至少一個候選方案中選擇顯存消耗最小的候選方案或氣泡時間最少的候選方案;

    45、基于所述選擇的候選方案,確定每個分塊包含的層數。

    46、在一個實施方式中,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:

    47、基于所述總層數與所述計算單元數,確定每個計算單元的層數;

    48、所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括:

    49、當所述每個計算單元的層數不被所述分塊數整除時,至少兩個分塊包含的層數不相同;

    50、當所述每個計算單元的層數被所述分塊數整除時,各個分塊包含的層數相同。

    51、一種交錯式流水線并行訓練裝置,應用于如上任一所述交錯式流水線并行訓練方法,本文檔來自技高網...

    【技術保護點】

    1.一種交錯式流水線并行訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:

    4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    9.根據權利要求1-8中任一項所述的方法,其特征在于,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:

    10.一種交錯式流水線并行訓練裝置,應用于權利要求1-9?任一項所述交錯式流水線并行訓練方法,其特征在于,包括:

    11.根據權利要求10所述的裝置,其特征在于,

    12.根據權利要求10所述的裝置,其特征在于,

    13.根據權利要求10所述的裝置,其特征在于,

    14.一種電子設備,其特征在于,包括:

    15.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令在被處理器執行時,使所述處理器執行如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。

    16.一種程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。

    ...

    【技術特征摘要】

    1.一種交錯式流水線并行訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:

    4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單...

    【專利技術屬性】
    技術研發人員:請求不公布姓名請求不公布姓名請求不公布姓名
    申請(專利權)人:上海壁仞科技股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本大道久久东京热无码AV | 无码国产伦一区二区三区视频| 潮喷失禁大喷水aⅴ无码| 夜夜添无码一区二区三区| 无码一区二区三区在线| 亚洲美免无码中文字幕在线| 亚洲中文字幕无码日韩| 亚洲成A∨人片天堂网无码| 午夜人性色福利无码视频在线观看| 日韩精品无码永久免费网站| 中文无码热在线视频| 久久亚洲精品无码VA大香大香| 日韩加勒比一本无码精品| 日韩激情无码免费毛片| 亚洲的天堂av无码| 亚洲av中文无码乱人伦在线咪咕| 国产热の有码热の无码视频| 国产精品午夜无码AV天美传媒| 久久久久亚洲AV无码专区首| 午夜成人无码福利免费视频| 亚洲熟妇无码av另类vr影视| av色欲无码人妻中文字幕| 日韩乱码人妻无码系列中文字幕| 宅男在线国产精品无码| 亚洲无码高清在线观看| 无码不卡中文字幕av| 亚洲av永久中文无码精品综合 | 中文无码字慕在线观看| 亚洲成AV人片天堂网无码| 精品无人区无码乱码毛片国产| 国产av无码专区亚洲av果冻传媒 | 免费无码国产V片在线观看| 精品无码免费专区毛片| 亚洲毛片无码专区亚洲乱| 国产成人无码18禁午夜福利p| 久久99久久无码毛片一区二区| 精品久久久无码中文字幕天天| 国产V片在线播放免费无码| 中文字幕在线无码一区二区三区| julia无码人妻中文字幕在线| 亚洲AV无码成H人在线观看|