System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本公開的實施例涉及一種分布式仿真系統(tǒng)、仿真方法、電子設(shè)備和計算機可讀存儲介質(zhì)。
技術(shù)介紹
1、隨著人工智能技術(shù)的快速發(fā)展,人工智能技術(shù)被越來越多的應(yīng)用于解決實際問題,但是傳統(tǒng)單機環(huán)境大規(guī)模訓(xùn)練所面臨的問題也日益突出,尤其在復(fù)雜任務(wù)中,需要花費大量的時間才能完成模型的訓(xùn)練。為了解決這一問題,可以利用分布式系統(tǒng)來實現(xiàn)大規(guī)模訓(xùn)練,并且針對性地優(yōu)化算法性能,提升模型訓(xùn)練效率。
技術(shù)實現(xiàn)思路
1、本公開至少一個實施例提供一種分布式仿真系統(tǒng),包括:數(shù)據(jù)庫和多個仿真節(jié)點,數(shù)據(jù)庫配置為存儲在真實分布式系統(tǒng)中運行多種任務(wù)時的性能數(shù)據(jù);每個仿真節(jié)點包括調(diào)度器、分配器和任務(wù)仿真器,調(diào)度器配置為獲得至少一個仿真任務(wù);分配器配置為為每個仿真任務(wù)分配虛擬計算資源;任務(wù)仿真器配置為基于為每個仿真任務(wù)分配的虛擬計算資源和從數(shù)據(jù)庫獲取的每個仿真任務(wù)對應(yīng)的性能數(shù)據(jù),按照預(yù)定分布式策略運行至少一個仿真任務(wù),得到運行結(jié)果。
2、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,所述真實分布式系統(tǒng)包括多個計算節(jié)點;所述多種任務(wù)包括多種通信任務(wù)和多種計算任務(wù),所述多種通信任務(wù)包括在所述計算節(jié)點內(nèi)部分別傳輸多種不同數(shù)據(jù)量的任務(wù)和在不同計算節(jié)點之間分別傳輸多種不同數(shù)據(jù)量的任務(wù),所述多種計算任務(wù)包括分別與多種算子對應(yīng)的計算任務(wù);每個所述通信任務(wù)對應(yīng)的性能數(shù)據(jù)包括運行所述通信任務(wù)時的通信帶寬和通信所需的時間,每個所述計算任務(wù)對應(yīng)的性能數(shù)據(jù)包括所述計算任務(wù)消耗的顯存和執(zhí)行所需的時間。
3、例如,在本
4、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,所述任務(wù)仿真器包括計算任務(wù)隊列和通信任務(wù)隊列;所述任務(wù)仿真器配置為按照預(yù)定順序?qū)⑺鲋辽僖粋€仿真任務(wù)放入所述計算任務(wù)隊列和所述通信任務(wù)隊列中的一種,并按順序執(zhí)行所述計算任務(wù)隊列和所述通信任務(wù)隊列中的任務(wù)。
5、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,所述計算任務(wù)隊列中包括第一計算任務(wù),所述通信任務(wù)隊列包括第一通信任務(wù)和第二通信任務(wù);所述第一計算任務(wù)與所述第一通信任務(wù)之間不存在依賴關(guān)系,所述第一計算任務(wù)與所述第一通信任務(wù)并行執(zhí)行;所述第二通信任務(wù)依賴于所述第一計算任務(wù),所述第二通信任務(wù)等待所述第一計算任務(wù)執(zhí)行完之后再開始執(zhí)行。
6、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,所述預(yù)定順序基于所述分布式策略確定,所述分布式策略包括數(shù)據(jù)并行、流水線并行和張量并行中的一種。
7、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,還包括:結(jié)果收集器,配置為收集所述多個仿真節(jié)點中每個所述仿真任務(wù)的運行結(jié)果,并對收集的運行結(jié)果進行整合得到仿真結(jié)果,其中,所述仿真結(jié)果包括總運行時間、運行過程中的顯存變化數(shù)據(jù)。
8、例如,在本公開上述實施例的至少一個示例提供的分布式仿真系統(tǒng)中,分配器包括張量分配器和顯存仿真器,張量分配器配置為分配或者釋放張量;顯存仿真器配置為分配或者釋放顯存。
9、本公開至少一個實施例提供一種仿真方法,用于分布式仿真系統(tǒng),所述分布式仿真系統(tǒng)包括多個仿真節(jié)點,所述方法包括:每個所述仿真節(jié)點獲得至少一個仿真任務(wù),并為每個所述仿真任務(wù)分配計算資源;每個所述仿真節(jié)點從數(shù)據(jù)庫獲取各自的仿真任務(wù)對應(yīng)的性能數(shù)據(jù),并基于為每個所述仿真任務(wù)分配的計算資源和每個所述仿真任務(wù)對應(yīng)的性能數(shù)據(jù),按照預(yù)定分布式策略運行所述至少一個仿真任務(wù),得到運行結(jié)果,其中,所述數(shù)據(jù)庫存儲有在真實分布式系統(tǒng)中運行多種任務(wù)時的性能數(shù)據(jù)。
10、本公開至少一個實施例提供一種電子設(shè)備,包括處理器;存儲器,存儲有一個或多個計算機程序模塊;其中,所述一個或多個計算機程序模塊被配置為由所述處理器執(zhí)行,用于實現(xiàn)本公開任一實施例提供的仿真方法。
11、本公開至少一個實施例提供一種計算機可讀存儲介質(zhì),存儲有非暫時性計算機可讀指令,當(dāng)所述非暫時性計算機可讀指令由計算機執(zhí)行時可以實現(xiàn)本公開任一實施例提供的仿真方法。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種分布式仿真系統(tǒng),包括:
2.根據(jù)權(quán)利要求1所述的分布式仿真系統(tǒng),其中,
3.根據(jù)權(quán)利要求2所述的分布式仿真系統(tǒng),其中,
4.根據(jù)權(quán)利要求1-3任一項所述的分布式仿真系統(tǒng),其中,
5.根據(jù)權(quán)利要求4所述的分布式仿真系統(tǒng),其中,所述計算任務(wù)隊列中包括第一計算任務(wù),所述通信任務(wù)隊列包括第一通信任務(wù)和第二通信任務(wù);
6.根據(jù)權(quán)利要求4所述的分布式仿真系統(tǒng),其中,所述預(yù)定順序基于所述分布式策略確定,所述分布式策略包括數(shù)據(jù)并行、流水線并行和張量并行中的一種。
7.根據(jù)權(quán)利要求1-3任一項所述的分布式仿真系統(tǒng),還包括:
8.根據(jù)權(quán)利要求1-3任一項所述的分布式仿真系統(tǒng),其中,分配器包括:
9.一種仿真方法,用于分布式仿真系統(tǒng),所述分布式仿真系統(tǒng)包括多個仿真節(jié)點,所述方法包括:
10.一種電子設(shè)備,包括:
11.一種計算機可讀存儲介質(zhì),存儲有非暫時性計算機可讀指令,當(dāng)所述非暫時性計算機可讀指令由計算機執(zhí)行時可以實現(xiàn)權(quán)利要求9所述的仿真方法。
【技術(shù)特征摘要】
1.一種分布式仿真系統(tǒng),包括:
2.根據(jù)權(quán)利要求1所述的分布式仿真系統(tǒng),其中,
3.根據(jù)權(quán)利要求2所述的分布式仿真系統(tǒng),其中,
4.根據(jù)權(quán)利要求1-3任一項所述的分布式仿真系統(tǒng),其中,
5.根據(jù)權(quán)利要求4所述的分布式仿真系統(tǒng),其中,所述計算任務(wù)隊列中包括第一計算任務(wù),所述通信任務(wù)隊列包括第一通信任務(wù)和第二通信任務(wù);
6.根據(jù)權(quán)利要求4所述的分布式仿真系統(tǒng),其中,所述預(yù)定順序基于所述分布式策略確定,所述分布式策略包括數(shù)據(jù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,
申請(專利權(quán))人:珠海壁仞集成電路有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。