System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及高性能計算、計算化學、任務調度領域,具體涉及一種面向密度泛函計算的超算集群的任務調度方法與裝置。
技術介紹
1、第一性原理是一種理論框架,基于量子力學的基本原理來預測物質的性質,而無需依賴經驗參數。密度泛函理論(dft)是實現第一性原理計算的主要方法之一,它通過使用電子密度而非波函數來描述多電子系統的行為,從而簡化計算。dft在研究分子和固體的結構、能量和反應性方面廣泛應用,因其在準確性和計算效率之間的良好平衡而受到青睞。
2、類似第一性原理這樣計算量大的科學計算應用通常使用超級計算機集群求解。超級計算機是具備極高計算能力的計算機系統,通常用于處理復雜的科學計算、數據分析和模擬任務。現今的超級計算機具備數百到數萬個節點,每個節點通常配備有數十個核心的cpu和數個計算加速卡(gpu等),并結合先進的并行計算技術,能實現每秒百億億次(eflops)運算,滿足日益增長的計算需求。
3、使用密度泛函直接研究大量分子或基于分解-拼接方法研究大型分子時,會產生大量獨立的計算任務,需要在計算分區上完整地調度和執行。這種批量任務具有如下特點:1.任務間無依賴關系,具有較為靈活的調度空間;2.任務間的計算量差異最高有數百倍,具有較大的負載均衡挑戰;3.部分小型任務計算時間較短,可能導致進程等待,降低并行效率;4.部分任務存在計算錯誤的可能,可能導致節點進程錯誤或批量計算無法正常繼續;5.超算集群的節點數量龐大,任務調度系統需要能在數個進程到數十萬個進程自由擴展,并保持較高效率。
4、現有的調度程序
技術實現思路
1、針對上述問題,本專利技術提出一種面向密度泛函計算的集群任務調度方法,包括:獲取密度泛函計算的每個集群任務的預估執行時間,基于該執預估行時間將該集群任務劃分為大型任務和小型任務;將任務特征允許分解的大型任務分解為多個小型任務;任務運行時,將所有該小型任務打包為多個任務包,并先對未分解的大型任務進行分配及運行,后對該任務包以由大到小的順序進行分配及運行;其中,該任務包滿足所有執行節點的任務進程的總執行時間都處于一個時間范圍。
2、進一步的,還包括:基于超算集群的處理節點構建多層的樹形控制網絡,該樹形控制網絡包括最上層的主控制節點、中間層的中間控制節點和最下層的執行節點;將所有未分解的大型任務和該任務包存入該主控制節點所持有的任務池中;任務運行時,由該主控制節點將該任務池中的任務,分配給該中間控制節點,形成該中間控制節點的任務隊列;由該中間控制節點將該任務隊列中的任務,分配給該中間控制節點所控制的執行節點。
3、優選的,采用異步派發方式進行任務分配操作,每次任務分配操作向一個處理節點分配一個任務包。
4、進一步的,還包括:在所有任務分配并運行完畢后,收集執行失敗的任務,選取一部分該執行節點進行任務重分配及重運行。
5、本專利技術還提出一種面向密度泛函計算的集群任務調度裝置,包括:任務分解模塊,用于獲取密度泛函計算的每個集群任務的預估執行時間,基于該預估執行時間將該集群任務劃分為大型任務和小型任務;將任務特征允許分解的大型任務分解為多個小型任務;分配運行模塊,用于任務運行時,將所有該小型任務打包為多個任務包,并先對未分解的大型任務進行分配及運行,后對該任務包以由大到小的順序進行分配及運行;其中,該任務包滿足所有執行節點的任務進程的總執行時間都處于一個時間范圍。
6、進一步的,該分配運行模塊包括:調度網絡構建模塊,用于基于超算集群的處理節點構建多層的樹形控制網絡,該樹形控制網絡包括最上層的主控制節點、中間層的中間控制節點和最下層的執行節點;將所有未分解的大型任務和該任務包存入該主控制節點所持有的任務池中;任務運行時,該分配運行模塊通過該主控制節點將該任務池中的任務,分配給該中間控制節點,形成該中間控制節點的任務隊列;并通過該中間控制節點將該任務隊列中的任務,分配給該中間控制節點所控制的執行節點。
7、優選的,該分配運行模塊采用異步派發方式進行任務分配操作,每次任務分配操作向一個處理節點分配一個任務包。
8、進一步的,還包括:重運行模塊,用于在所有任務分配并運行完畢后,收集執行失敗的任務,選取一部分該執行節點進行任務重分配及重運行。
9、本專利技術還提出一種電子設備,包括如前所述的面向密度泛函計算的集群任務調度裝置。
10、本專利技術還提出一種計算機可讀存儲介質,存儲有計算機可執行指令,其特征在于,當該計算機可執行指令被執行時,實現如前所述的面向密度泛函計算的集群任務調度方法。
11、本專利技術的任務調度方法可以良好地應對
技術介紹
所述的批量任務特點,具有基于任務負載評估、分解和重排序的負載均衡調度、變長任務組打包、錯誤容忍機制、分層擴展的大規模可擴展性和較高的并行效率。同時該任務調度方法具有一定的靈活性,適用于其他領域相似特點的批量任務調度。
【技術保護點】
1.一種面向密度泛函計算的集群任務調度方法,其特征在于,包括:
2.如權利要求1所述的集群任務調度方法,其特征在于,還包括:
3.如權利要求2所述的集群任務調度方法,其特征在于,采用異步派發方式進行任務分配操作,每次任務分配操作向一個處理節點分配一個任務包。
4.如權利要求1所述的集群任務調度方法,其特征在于,還包括:
5.一種面向密度泛函計算的集群任務調度裝置,其特征在于,包括:
6.如權利要求5所述的集群任務調度裝置,其特征在于,該分配運行模塊包括:
7.如權利要求6所述的集群任務調度裝置,其特征在于,該分配運行模塊采用異步派發方式進行任務分配操作,每次任務分配操作向一個處理節點分配一個任務包。
8.如權利要求5所述的集群任務調度裝置,其特征在于,還包括:
9.一種電子設備,包括如權利要求5~8任一項所述的面向密度泛函計算的集群任務調度裝置。
10.一種計算機可讀存儲介質,存儲有計算機可執行指令,其特征在于,當該計算機可執行指令被執行時,實現如權利要求1~4任一項所述的
...【技術特征摘要】
1.一種面向密度泛函計算的集群任務調度方法,其特征在于,包括:
2.如權利要求1所述的集群任務調度方法,其特征在于,還包括:
3.如權利要求2所述的集群任務調度方法,其特征在于,采用異步派發方式進行任務分配操作,每次任務分配操作向一個處理節點分配一個任務包。
4.如權利要求1所述的集群任務調度方法,其特征在于,還包括:
5.一種面向密度泛函計算的集群任務調度裝置,其特征在于,包括:
6.如權利要求5所述的集群任務調度裝置,其特征在于,該分配運行模塊包括...
【專利技術屬性】
技術研發人員:吳智琨,劉穎,陳振川,單嘉豪,崔慧敏,馮曉兵,
申請(專利權)人:中國科學院計算技術研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。