System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及pcie?switch,具體涉及基于pcie?switch的異構計算系統設備共享裝置及方法。
技術介紹
1、到目前為止,經歷了多年來的更新迭代,芯片的性能不斷提高,但受到生產制造等約束,芯片性能的提升已經達到瓶頸,短時間內很難有較大的突破。并且隨著互聯網爆炸式的發展,以及近年來人工智能的崛起,傳統的cpu處理器很難滿足日益增長的算力需求,出現了諸如帶寬不夠、延時高、開銷大等問題。因此搭載gpu/npu/fpga/dpu等加速芯片,構建cpu+xpu的異構算力網絡逐漸脫穎而出。相比于單一的計算架構,異構計算通過多節點互聯通信技術來實現不同節點間的計算、網絡、存儲三大維度的橫向協同,從而提高算力性能,降低功耗成本。
2、異構計算系統中各節點的設備資源池化共享成為首要問題。各節點之間資源共享、按需使用,可以極大地降低算力成本,這要求每個節點的中央處理器不僅具備控制自身節點設備的能力,同時還具有控制遠端主機節點設備的能力。例如,當一臺機器需要更多的設備資源時,可以從其他有多余設備的機器上動態借用額外的設備。這種方法使得設備資源可以在多臺計算機之間共享,增加了系統的靈活性和資源利用率。這意味著我們可以使用性價比更高的硬件設備,而不是盲目使用性能更強大且更昂貴的設備,從而極大地降低算力成本。
3、申請號為202410031395的專利技術專利公開了基于pcie的車輛資源共享方法、裝置、設備、介質及車輛,車輛中的第一控制器中創建初始pcie設備,第一控制器通過ntb獲取第二控制器中被共享pcie設備的配置
4、(1)缺乏設備資源動態靈活調整能力:在該系統中,第一控制器和第二控制器通過ntb共享設備,但沒有提到設備的回收以及再分配。在實際使用場景中,互聯系統可能非常龐大,設備需要在所有節點之間共享,這需要設備能夠在需要時被正確回收,并根據當前算力需求再分配。
5、(2)缺乏主機節點動態加入和退出能力:在該系統中,第一控制器和第二控制器通過ntb共享設備,但其中一個控制器若發生故障死機,那么整個系統會發生癱瘓,這在車載系統中后果是致命的。因此在互聯系統中的設備借用方案需要支持主機節點動態退出,并保證系統的其他節點正常運行。另外當有其他節點加入系統時,該節點的設備資源也應該能夠靈活地加入資源池。
6、(3)使用場景單一:系統應用于車輛領域,使用場景相對單一。
技術實現思路
1、本專利技術人在進行基于pcie?switch的異構計算系統資源池化和設備借用方法研究時,發現該現有技術并不成熟,缺乏設備資源動態靈活調整能力,沒有考慮設備資源在各個節點之間的動態借用。本申請專利技術人在進行異構計算系統的設備借用方案調研時,發現異構計算互聯系統是非常復雜的,算力的分配可能實時變化,例如某個節點在某些時刻需要大量的存儲資源,那么該節點需要借用系統資源池中的存儲設備,但是一段時間后該節點空閑,這時原先被占用的存儲設備資源需要被返回到資源池以供其他節點使用。另外本專利技術人在進行調研時還發現,復雜的互聯系統必須具備動態加入和退出能力。在單個節點發生故障時,故障不應該影響系統中的其他節點的正常運行。同時故障節點占用的設備資源應該被正確回收,以供系統其他計算節點使用。當有新的計算節點加入時,該節點的設備資源也能夠靈活地被添加到設備資源池。
2、本專利技術的目的在于提供一種基于pcie?switch的異構計算系統資源池化和設備借用方法,用以解決上述技術中的以下問題:(1)缺乏設備資源動態靈活調整能力;(2)缺乏節點動態加入和退出能力;(3)使用場景單一問題。
3、根據本專利技術提出的基于pcie?switch的異構計算系統設備共享裝置,用于對互聯系統內的pcie設備在所有節點內共享,所述節點按照借用關系分為借用方和借出方,其特征在于,所述節點具有借用模塊、借出模塊和節點事件動態監測模塊;
4、所述借用模塊用于管理借出方所屬的pcie設備,包括獲取借出方所屬的pcie設備狀態,在借出方所屬的pcie設備可借用時,獲取借出方所屬的pcie設備配置信息,基于獲取的配置信息創建虛擬pcie設備,通過所述虛擬pcie設備訪問借出方所屬的pcie設備,并在退出訪問后歸還釋放借出方所屬的pcie設備資源;
5、所述借出模塊用于管理本地的pcie設備,包括通知借用方本地的pcie設備狀態,并在借用方退出訪問pcie設備后回收所出借的pcie設備資源;
6、所述節點事件動態監測模塊用于監測互聯系統內的節點狀態,對新加入的節點與之建立握手連接,對退出的節點判斷與之是否存在連接關系,并根據判斷結果進行包括退出連接或回收所出借的pcie設備資源的處理。
7、更進一步的改進,在發生節點加入的事件中,本地節點通過底層反饋的新加入的節點id,向新加入的節點發送握手消息,新加入的節點收到握手消息后,在消息回調函數中返回回復消息,以形成新加入的節點與本地節點的握手連接。
8、更進一步的改進,在發生節點退出的事件中,本地節點首先遍歷所有的instance實例,根據instance?id判斷該節點是否與故障節點有連接關系,如果沒有對應的instanceid,代表連接已經不存在,這時直接退出即可,當有連接關系時,則進行資源回收處理。
9、本專利技術還提出了一種基于pcie?switch的異構計算系統設備共享方法,包括以下步驟:
10、借出方與借用方互發消息,建立握手連接,并創建對端的instance實例;
11、借出方將可共享的pcie設備添加到設備池,并設置可共享的pcie?設備的狀態為可使用狀態;
12、借出方主動連接借用方,創建共享內存區,以便雙方交互pcie?設備狀態;
13、借出方廣播pcie?設備狀態,通知借用方;
14、借用方發起對某個pcie?設備的借用請求,借出方返回該pcie?設備的配置信息;
15、借用方基于借出方返回的配置信息創建虛擬pcie設備,借用方對虛擬pcie設備的訪問被透明地轉發到借出方的pcie設備中;
16、借用方取得借出方所屬的pcie設備的控制權后,借出方將該pcie設備的狀態標記為正在使用,并阻止互聯系統中的其他節點對該pcie設備的訪問;
17、借用方退出對借出方所屬的pcie設備的訪問后,借出方將該pcie設備的狀態標記為可使本文檔來自技高網...
【技術保護點】
1.基于PCIe?Switch的異構計算系統設備共享裝置,用于對互聯系統內的PCIe設備在所有節點內共享,所述節點按照借用關系分為借用方和借出方,其特征在于,所述節點具有借用模塊、借出模塊和節點事件動態監測模塊;
2.根據權利要求1所述的基于PCIe?Switch的異構計算系統設備共享裝置,其特征在于,
3.根據權利要求1所述的基于PCIe?Switch的異構計算系統設備共享裝置,其特征在于,
4.基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,該方法由如權利要求1-3中任意一項所述的基于PCIe?Switch的異構計算系統設備共享裝置執行實施,包括以下步驟:
5.根據權利要求4所述的基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,
6.根據權利要求4所述的基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,
7.根據權利要求4所述的基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,
8.根據權利要求4所述的基于PCIe?Switc
9.根據權利要求4所述的基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,被共享的PCIe設備的配置讀請求攔截流程包括以下步驟:
10.根據權利要求4所述的基于PCIe?Switch的異構計算系統設備共享方法,其特征在于,被共享的PCIe設備的配置寫請求攔截流程包括以下步驟:
...【技術特征摘要】
1.基于pcie?switch的異構計算系統設備共享裝置,用于對互聯系統內的pcie設備在所有節點內共享,所述節點按照借用關系分為借用方和借出方,其特征在于,所述節點具有借用模塊、借出模塊和節點事件動態監測模塊;
2.根據權利要求1所述的基于pcie?switch的異構計算系統設備共享裝置,其特征在于,
3.根據權利要求1所述的基于pcie?switch的異構計算系統設備共享裝置,其特征在于,
4.基于pcie?switch的異構計算系統設備共享方法,其特征在于,該方法由如權利要求1-3中任意一項所述的基于pcie?switch的異構計算系統設備共享裝置執行實施,包括以下步驟:
5.根據權利要求4所述的基于pcie?swi...
【專利技術屬性】
技術研發人員:師雯,徐木水,汪木金,閆莉莉,李楠,
申請(專利權)人:北京數渡信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。