System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能(artificial?intelligence,ai),更具體的說,涉及交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品。
技術介紹
1、?在深度學習領域,通常采用計算單元(比如,gpu或gpgpu)執行模型訓練。計算單元的顯存容量一般有限。對于大模型的訓練場景,大模型的參數規模通常龐大(比如,參數量在十億到萬億之間)。流水線并行(pipeline?parallelism,pp),指的是將模型按照層數進行切分,將模型的不同層部署到不同的計算單元上進行流水線式的調度,每個計算單元被稱為不同的pp?階段(stage)。
2、流水線并行訓練通常包括非交錯式和交錯式。目前,只有當計算單元的層數可以被分塊(chunk)數整除時,才可以執行交錯式流水線并行訓練,不利于訓練效率的提升。
技術實現思路
1、本專利技術提出交錯式流水線并行訓練方法、裝置、設備、存儲介質和程序產品,有助于提升訓練效率。
2、本專利技術實施方式的技術方案如下:
3、一種交錯式流水線并行訓練方法,包括:
4、基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數,其中每個分塊包含的層數是可配置的;所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括下列中的一個:基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數;基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊
5、基于所述每個分塊包含的層數,對所述大模型執行交錯式流水線并行訓練。
6、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:
7、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;
8、確定每個候選方案的氣泡時間;
9、從所述多個候選方案中選擇氣泡時間最少的候選方案;
10、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。
11、在一個實施方式中,所述確定每個候選方案的氣泡時間包括:
12、確定每個候選方案的每個分塊對單位微批次執行前向計算的前向時間;
13、從每個候選方案的多個分塊的多個前向時間中,確定出最大前向時間;
14、確定每個候選方案的每個分塊對單位微批次執行反向計算的反向時間;
15、從每個候選方案的多個分塊的多個反向時間中,確定出最大反向時間;
16、基于所述最大前向時間、所述最大反向時間和所述計算單元數,確定每個候選方案的氣泡時間。
17、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:
18、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;
19、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;
20、從所述多個候選方案中選擇所述顯存消耗最小的候選方案;
21、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。
22、在一個實施方式中,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:
23、確定每個候選方案中的、首先執行計算的計算單元的全部分塊對單位微批次執行計算的第一激活值;
24、確定每個候選方案中的、首先執行計算的計算單元的首先執行計算的第一分塊對單位微批次執行計算的第二激活值;
25、基于所述第一激活值、所述第二激活值和計算單元數,確定每個候選方案中的、首先執行計算的計算單元的顯存消耗。
26、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
27、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;
28、確定每個候選方案中的、首先執行計算的計算單元的顯存消耗;
29、從所述多個候選方案中選擇所述顯存消耗低于第一預定閾值的至少一個候選方案;
30、確定所述至少一個候選方案的氣泡時間;
31、從所述至少一個候選方案中選擇氣泡時間最少的候選方案;
32、基于所述氣泡時間最少的候選方案,確定每個分塊包含的層數。
33、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
34、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;
35、確定每個候選方案的氣泡時間;
36、從所述多個候選方案中選擇氣泡時間低于第二預定閾值的至少一個候選方案;
37、確定所述至少一個候選方案中的、首先執行計算的計算單元的顯存消耗;
38、從所述至少一個候選方案中選擇顯存消耗最小的候選方案;
39、基于所述顯存消耗最小的候選方案,確定每個分塊包含的層數。
40、在一個實施方式中,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
41、基于所述計算單元數和所述分塊數,確定將所述總層數分配到各個分塊的多個候選方案,每個候選方案包含各個分塊包含的各自層數;
42、確定每個候選方案的氣泡時間及每個候選方案中的、首先執行計算的計算單元的顯存消耗;
43、從所述多個候選方案中選擇顯存消耗低于第一預定閾值且氣泡時間低于第二預定閾值的至少一個候選方案;
44、從所述至少一個候選方案中選擇顯存消耗最小的候選方案或氣泡時間最少的候選方案;
45、基于所述選擇的候選方案,確定每個分塊包含的層數。
46、在一個實施方式中,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:
47、基于所述總層數與所述計算單元數,確定每個計算單元的層數;
48、所述基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數包括:
49、當所述每個計算單元的層數不被所述分塊數整除時,至少兩個分塊包含的層數不相同;
50、當所述每個計算單元的層數被所述分塊數整除時,各個分塊包含的層數相同。
51、一種交錯式流水線并行訓練裝置,應用于如上任一所述交錯式流水線并行訓練方法,本文檔來自技高網...
【技術保護點】
1.一種交錯式流水線并行訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:
3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:
5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:
6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡
9.根據權利要求1-8中任一項所述的方法,其特征在于,在基于計算單元數、分塊數和大模型的總層數,確定每個分塊包含的層數之前,所述方法還包括:
10.一種交錯式流水線并行訓練裝置,應用于權利要求1-9?任一項所述交錯式流水線并行訓練方法,其特征在于,包括:
11.根據權利要求10所述的裝置,其特征在于,
12.根據權利要求10所述的裝置,其特征在于,
13.根據權利要求10所述的裝置,其特征在于,
14.一種電子設備,其特征在于,包括:
15.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令在被處理器執行時,使所述處理器執行如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。
16.一種程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-9中任一項所述的交錯式流水線并行訓練方法。
...【技術特征摘要】
1.一種交錯式流水線并行訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間為指標而確定每個分塊包含的層數包括:
3.根據權利要求2所述的方法,其特征在于,所述確定每個候選方案的氣泡時間包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以顯存消耗為指標而確定每個分塊包含的層數包括:
5.根據權利要求4所述的方法,其特征在于,所述確定每個候選方案中的、首先執行計算的計算單元的顯存消耗包括:
6.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
7.根據權利要求1所述的方法,其特征在于,所述基于所述計算單元數、所述分塊數和所述總層數,以氣泡時間和顯存消耗為指標而確定每個分塊包含的層數包括:
8.根據權利要求1所述的方法,其特征在于,所述基于所述計算單...
【專利技術屬性】
技術研發人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,
申請(專利權)人:上海壁仞科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。