異構系統的模型并行訓練方法、裝置和計算機設備制造方法及圖紙

技術編號：44466375 閱讀：3 留言：0更新日期：2025-03-04 17:38

本申請涉及一種異構系統的模型并行訓練方法、裝置和計算機設備，其中，該方法包括：在每個預設條件下，構建待訓練模型與各計算設備之間的多種映射關系，并生成策略集合；預設條件包括訓練數據的批次大小、待訓練模型對應的流水線并行粒度和每個計算設備的預設顯存預算；遍歷各預設條件，通過動態規劃算法對不同的映射關系和策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下異構系統的執行成本；基于最小執行成本對應的模型并行訓練策略，通過各計算設備執行模型訓練。通過本申請，解決了采用固定處理器進行訓練，無法利用異構系統中多個計算設備實現高效的并行訓練的問題，實現高效的模型并行訓練，提升計算設備的資源利用率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能，特別是涉及異構系統的模型并行訓練方法、裝置和計算機設備。

技術介紹

1、人工智能模型廣泛應用于計算機視覺、自然語言處理等領域，但模型訓練過程需要處理大量的模型參數和相關數據，但在現有的模型訓練方法中，通常采用固定處理器進行訓練，無法利用異構系統中多個計算設備實現高效的并行訓練。

2、針對相關技術中存在采用固定處理器進行訓練，無法利用異構系統中多個計算設備實現高效的并行訓練的問題，目前還沒有提出有效的解決方案。

技術實現思路

1、在本實施例中提供了一種異構系統的模型并行訓練方法、裝置和計算機設備，以解決相關技術中采用固定處理器進行訓練，無法利用異構系統中多個計算設備實現高效的并行訓練的問題。

2、第一個方面，在本實施例中提供了一種異構系統的模型并行訓練方法，所述異構系統包括多個節點，每個所述節點分布有多個計算設備；所述方法包括：

3、在每個預設條件下，構建待訓練模型與各所述計算設備之間的多種映射關系，并生成所述預設條件對應的策略集合；所述預設條件包括訓練數據的批次大小、所述待訓練模型對應的流水線并行粒度和每個所述計算設備的預設顯存預算；

4、遍歷各所述預設條件，基于所述預設條件，通過動態規劃算法對不同的所述映射關系和所述策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下所述異構系統的執行成本；

5、確定各所述執行成本中的最小執行成本，輸出與所述最小執行成本對應的模型并行訓練策略；

>6、基于所述最小執行成本對應的模型并行訓練策略，通過各所述計算設備執行模型訓練。

7、在其中的一些實施例中，所述在每個預設條件下，構建待訓練模型與各所述計算設備之間的多種映射關系，包括：

8、在每個所述預設條件下，基于每個所述節點的計算設備數量、所述待訓練模型對應的流水線并行粒度和每個所述計算設備的預設顯存預算，對所述待訓練模型進行模型切分，得到多個模型階段；

9、對各所述模型階段與各所述計算設備進行映射處理，得到所述待訓練模型與各所述計算設備之間的多種所述映射關系。

10、在其中的一些實施例中，在每個預設條件下，生成所述預設條件對應的策略集合，包括：

11、在每個所述預設條件下，基于每個所述節點的計算設備數量和所述待訓練模型對應的流水線并行粒度，對多個預設并行策略進行組合枚舉，得到多個所述候選策略；

12、基于各所述候選策略，生成對應的所述策略集合。

13、在其中的一些實施例中，所述在每個所述預設條件下，通過動態規劃算法對不同的所述映射關系和所述策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下所述異構系統的執行成本，包括：

14、在每個所述預設條件下，通過所述動態規劃算法對不同的所述映射關系和所述策略集合中的各候選策略進行處理，得到當前最優的所述模型并行訓練策略；

15、在當前最優的所述模型并行訓練策略下，確定所述異構系統執行所述待訓練模型中每個模型階段的第一執行成本；

16、基于所述待訓練模型中每個所述模型階段的第一執行成本，確定當前最優的所述模型并行訓練策略下所述異構系統的所述執行成本。

17、在其中的一些實施例中，所述確定所述異構系統執行所述待訓練模型中每個模型階段的第一執行成本，包括：

18、確定所述待訓練模型中每個所述模型階段包含的多層網絡；

19、基于所述異構系統執行所述模型階段中每層網絡的層執行成本、每層網絡的內存消耗成本和不同層之間的轉換成本，確定所述異構系統執行所述模型階段的所述第一執行成本。

20、在其中的一些實施例中，所述層執行成本包括所述待訓練模型的前向傳播成本和反向傳播成本；其中，確定所述待訓練模型的反向傳播成本，包括：

21、在所述待訓練模型反向傳播時，確定所述異構系統執行所述待訓練模型當前層的計算時間和通信時間；

22、根據預設的重疊系數，對所述計算時間和所述通信時間進行運算，得到所述待訓練模型的反向傳播成本；所述重疊系數用于指示計算操作與通信操作之間的重疊情況對所述計算時間和所述通信時間的影響程度。

23、在其中的一些實施例中，所述基于所述最小執行成本對應的模型并行訓練策略，通過各所述計算設備執行模型訓練，包括：

24、將所述異構系統中的各所述計算設備分配至服務器端和客戶端；

25、基于所述最小執行成本對應的模型并行訓練策略，通過所述服務器端和所述客戶端執行所述待訓練模型的訓練過程；

26、其中，所述服務器端與所述客戶端之間的數據傳輸采用加密傳輸或混淆傳輸。

27、第二個方面，在本實施例中提供了一種異構系統的模型并行訓練裝置，所述異構系統包括多個節點，每個所述節點分布有多個計算設備；所述裝置包括：生成模塊、規劃模塊、輸出模塊和訓練模塊；

28、所述生成模塊，用于在不同的預設條件下，構建待訓練模型與各所述計算設備之間的多種映射關系，并生成所述預設條件對應的策略集合；所述預設條件包括訓練數據的批次大小、所述待訓練模型對應的流水線并行粒度和每個所述計算設備的預設顯存預算；

29、所述規劃模塊，用于遍歷各所述預設條件，在每個所述預設條件下，通過動態規劃算法對不同的所述映射關系和所述策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下所述異構系統的執行成本；

30、所述輸出模塊，用于確定各所述執行成本中的最小執行成本，輸出與所述最小執行成本對應的模型并行訓練策略；

31、所述訓練模塊，用于基于所述最小執行成本對應的模型并行訓練策略，通過各所述計算設備執行模型訓練。

32、第三個方面，在本實施例中提供了一種計算機設備，包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現上述第一個方面所述的異構系統的模型并行訓練方法。

33、第四個方面，在本實施例中提供了一種存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現上述第一個方面所述的異構系統的模型并行訓練方法。

34、與相關技術相比，在本實施例中提供的異構系統的模型并行訓練方法、裝置和計算機設備，通過在每個預設條件下，構建待訓練模型與各計算設備之間的多種映射關系，并生成預設條件對應的策略集合；預設條件包括訓練數據的批次大小、待訓練模型對應的流水線并行粒度和每個計算設備的預設顯存預算；遍歷各預設條件，基于預設條件，通過動態規劃算法對不同的映射關系和策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下異構系統的執行成本；進一步地，確定各執行成本中的最小執行成本，輸出與最小執行成本對應的模型并行訓練策略，基于最小執行成本對應的模型并行訓練策略，通過各計算設備執行模型訓練，解決了采用固定處理器進行訓練，無法利用異構系統中多個計算設備實現高效的本文檔來自技高網...

【技術保護點】

1.一種異構系統的模型并行訓練方法，其特征在于，所述異構系統包括多個節點，每個所述節點分布有多個計算設備；所述方法包括：

2.根據權利要求1所述的異構系統的模型并行訓練方法，其特征在于，所述在每個預設條件下，構建待訓練模型與各所述計算設備之間的多種映射關系，包括：

3.根據權利要求1所述的異構系統的模型并行訓練方法，其特征在于，在每個預設條件下，生成所述預設條件對應的策略集合，包括：

4.根據權利要求1所述的異構系統的模型并行訓練方法，其特征在于，所述在每個所述預設條件下，通過動態規劃算法對不同的所述映射關系和所述策略集合中的各候選策略進行處理，得到當前最優的模型并行訓練策略下所述異構系統的執行成本，包括：

5.根據權利要求4所述的異構系統的模型并行訓練方法，其特征在于，所述確定所述異構系統執行所述待訓練模型中每個模型階段的第一執行成本，包括：

6.根據權利要求4所述的異構系統的模型并行訓練方法，其特征在于，所述層執行成本包括所述待訓練模型的前向傳播成本和反向傳播成本；其中，確定所述待訓練模型的反向傳播成本，包括：>

7.根據權利要求1所述的異構系統的模型并行訓練方法，其特征在于，所述基于所述最小執行成本對應的模型并行訓練策略，通過各所述計算設備執行模型訓練，包括：

8.一種異構系統的模型并行訓練裝置，其特征在于，所述異構系統包括多個節點，每個所述節點分布有多個計算設備；所述裝置包括：生成模塊、規劃模塊、輸出模塊和訓練模塊；

9.一種計算機設備，包括存儲器和處理器，其特征在于，所述存儲器中存儲有計算機程序，所述處理器被設置為運行所述計算機程序以執行權利要求1至7中任一項所述的異構系統的模型并行訓練方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的異構系統的模型并行訓練方法的步驟。

...

【技術特征摘要】

1.一種異構系統的模型并行訓練方法，其特征在于，所述異構系統包括多個節點，每個所述節點分布有多個計算設備；所述方法包括：

3.根據權利要求1所述的異構系統的模型并行訓練方法，其特征在于，在每個預設條件下，生成所述預設條件對應的策略集合，包括：

6.根據權利要求4所述的異構系統的...

【專利技術屬性】
技術研發人員：吳元戎，唐秀，伍賽，汪睿，楊智慧，袁鞏生，姚暢，
申請(專利權)人：杭州高新區濱江區塊鏈與數據安全研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術