System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码精品视频一区二区三区,国产AV无码专区亚洲AV琪琪,成在线人免费无码高潮喷水
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品制造方法及圖紙

    技術編號:44197903 閱讀:13 留言:0更新日期:2025-02-06 18:34
    本發明專利技術實施方式公開了交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品,屬于人工智能技術領域。方法包括:基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數,其中每個分塊包含的層數是可配置的;基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括下列中的一個:基于計算單元數、分塊數和總層數,以氣泡時間為指標而確定每個分塊包含的層數;基于計算單元數、分塊數和總層數,以顯存消耗為指標而確定每個分塊包含的層數;基于計算單元數、分塊數和總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數;基于每個分塊包含的層數,對大模型執行交錯式流水線并行訓練。可以提高訓練效率。

    【技術實現步驟摘要】

    本專利技術涉及人工智能(artificial?intelligence,ai),更具體的說,涉及交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品


    技術介紹

    1、?在深度學習領域,通常采用計算單元(比如,gpu或gpgpu)執行模型訓練。計算單元的顯存容量一般有限。對于大模型的訓練場景,大模型的參數規模通常龐大(比如,參數量在十億到萬億之間)。流水線并行(pipeline?parallelism,pp),指的是將模型按照層數進行切分,將模型的不同層部署到不同的計算單元上進行流水線式的調度,每個計算單元被稱為不同的pp?階段(stage)。

    2、流水線并行訓練通常包括非交錯式和交錯式。目前,只有當計算單元的層數可以被分塊(chunk)數整除時,才可以執行交錯式流水線并行訓練,不利于訓練效率的提升。


    技術實現思路

    1、本專利技術提出交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品,有助于提升訓練效率。

    2、本專利技術實施方式的技術方案如下:

    3、一種交錯式流水線并行訓練方法,包括:

    4、基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數,其中每個分塊包含的層數是可配置的;所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括下列中的一個:基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數;基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數;基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數;

    5、基于所述每個分塊包含的層數,對所述大模型執行交錯式流水線并行訓練。

    6、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    7、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    8、確定每個候選方案的氣泡時間;

    9、從所述多個候選方案中選擇氣泡時間最少的候選方案;

    10、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。

    11、在一個實施方式中,所述確定每個候選方案的氣泡時間包括:

    12、確定每個候選方案的每個分塊對單位微批次執行前向計算的前向時間;

    13、從每個候選方案的多個分塊的多個前向時間中,確定出最大前向時間;

    14、確定每個候選方案的每個分塊對單位微批次執行反向計算的反向時間;

    15、從每個候選方案的多個分塊的多個反向時間中,確定出最大反向時間;

    16、基于所述最大前向時間、所述最大反向時間和所述計算單元數,確定每個候選方案的氣泡時間。

    17、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    18、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    19、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    20、從所述多個候選方案中選擇所述顯存消耗最小的候選方案;

    21、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。

    22、在一個實施方式中,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    23、確定每個候選方案中的、首先執行計算的計算單元的全部分塊對單位微批次執行計算的第一激活值;

    24、確定每個候選方案中的、首先執行計算的計算單元的首先執行計算的第一分塊對單位微批次執行計算的第二激活值;

    25、基于所述第一激活值、所述第二激活值和計算單元數,確定每個候選方案中的、首先執行計算的計算單元的顯存消耗。

    26、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    27、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    28、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    29、從所述多個候選方案中選擇所述顯存消耗低于第一預定閾值的至少一個候選方案;

    30、確定所述至少一個候選方案的氣泡時間;

    31、從所述至少一個候選方案中選擇氣泡時間最少的候選方案;

    32、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。

    33、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    34、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    35、確定每個候選方案的氣泡時間;

    36、從所述多個候選方案中選擇氣泡時間低于第二預定閾值的至少一個候選方案;

    37、確定所述至少一個候選方案中的、首先執行計算的計算單元的顯存消耗;

    38、從所述至少一個候選方案中選擇顯存消耗最小的候選方案;

    39、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。

    40、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    41、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;

    42、確定每個候選方案的氣泡時間及每個候選方案中的、首先執行計算的計算單元的顯存消耗;

    43、從所述多個候選方案中選擇顯存消耗低于第一預定閾值且氣泡時間低于第二預定閾值的至少一個候選方案;

    44、從所述至少一個候選方案中選擇顯存消耗最小的候選方案或氣泡時間最少的候選方案;

    45、基于所述選擇的候選方案,確定每個分塊包含的層數。

    46、在一個實施方式中,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:

    47、基于所述總層數與所述計算單元數,確定每個計算單元的層數;

    48、所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括:

    49、當所述每個計算單元的層數不被所述分塊數整除時,至少兩個分塊包含的層數不相同;

    50、當所述每個計算單元的層數被所述分塊數整除時,各個分塊包含的層數相同。

    51、一種交錯式流水線并行訓練裝置,應用于如上任一所述交錯式流水線并行訓練方法,本文檔來自技高網...

    【技術保護點】

    1.一種交錯式流水線并行訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:

    4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    9.根據權利要求1-8中任一項所述的方法,其特征在于,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:

    10.一種交錯式流水線并行訓練裝置,應用于權利要求1-9?任一項所述交錯式流水線并行訓練方法,其特征在于,包括:

    11.根據權利要求10所述的裝置,其特征在于,

    12.根據權利要求10所述的裝置,其特征在于,

    13.根據權利要求10所述的裝置,其特征在于,

    14.一種電子設備,其特征在于,包括:

    15.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令在被處理器執行時,使所述處理器執行如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。

    16.一種程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。

    ...

    【技術特征摘要】

    1.一種交錯式流水線并行訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:

    4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:

    5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:

    6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:

    8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單...

    【專利技術屬性】
    技術研發人員:請求不公布姓名請求不公布姓名請求不公布姓名
    申請(專利權)人:上海壁仞科技股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产AV无码专区亚洲AV麻豆丫| 免费一区二区无码东京热| 亚洲av无码国产精品色在线看不卡| 亚洲成av人无码亚洲成av人| 中文字幕av无码专区第一页| 免费无码又爽又刺激高潮的视频| 亚洲精品无码久久久影院相关影片| 99热门精品一区二区三区无码| 无码专区天天躁天天躁在线| HEYZO无码综合国产精品| 亚洲人AV在线无码影院观看| 久久久久久国产精品无码超碰| 亚洲国产综合无码一区 | 男男AV纯肉无码免费播放无码| 日韩精品久久无码中文字幕| 精品人妻中文无码AV在线| 韩国无码AV片在线观看网站| 久久青青草原亚洲av无码app | 精品人妻系列无码天堂| 无码内射中文字幕岛国片| 久久久久亚洲AV成人无码| 一本大道无码人妻精品专区| 日韩免费a级毛片无码a∨| AV大片在线无码永久免费| 日日摸日日踫夜夜爽无码| 国产爆乳无码一区二区麻豆 | 国模GOGO无码人体啪啪| 亚洲男人在线无码视频| 一本大道无码日韩精品影视_| 国产精品无码无卡在线观看久| 亚洲午夜无码久久久久软件| 久久亚洲精品成人无码网站| 久久久久久无码Av成人影院| 少妇人妻偷人精品无码视频新浪| 亚洲av无码国产精品色午夜字幕 | 东京热人妻无码一区二区av | 无码精品前田一区二区| 日日摸日日碰人妻无码| 日本无码小泬粉嫩精品图| yy111111少妇影院里无码| 国产成人无码区免费网站|