System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理。尤其是涉及一種dma器件、數據處理系統及dma器件執行狀態檢測方法。
技術介紹
1、隨著人工智能大模型的規模不斷擴大,對計算資源的需求量也急劇增長。單個圖形處理單元(gpu)已無法滿足大型訓練模型的訓練需求,多卡互聯技術應運而生,并逐漸成為主流。然而,隨著多卡互聯帶寬的不斷提高,傳統芯片內單個直接存儲器訪問(directmemory?access,dma)器件的能力逐漸成為瓶頸,一些芯片廠商開始集成多個dma器件(業內一般直接稱為dma),以提高數據傳輸效率。由于芯片受大壓力環境和長時間使用等因素的影響,dma器件可能出現老化或其他故障。
2、在一些相關技術中,是通過處理器在啟動dma器件執行數據搬運時,進行dma器件故障的檢測。然而,當dma器件個數較多時,dma器件執行任務量大時,由于處理器需要為每個任務創建一個檢測線程,會消耗處理器較多的資源。
技術實現思路
1、有鑒于此,本申請實施例提供一種dma器件、數據處理系統及dma器件執行狀態檢測方法,便于節省處理器的資源開銷。
2、為達到上述申請目的,采用如下技術方案:
3、本申請實施例提供一種dma器件,包括:字節計數器,配置為跟蹤控制數據搬運傳輸期間的數據傳輸長度;
4、故障檢測模塊,與所述字節計數器連接,至少配置為根據所述數據傳輸長度檢測數據搬運傳輸任務的執行狀態是否正常。
5、根據本申請實施例的一種具體實現方式,所述故障檢測模塊,包括:計數檢測
6、根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述數據搬運傳輸任務的執行狀態是否正常。
7、根據本申請實施例的一種具體實現方式,所述故障檢測模塊,包括:計數檢測模塊,與所述字節計數器相連,配置為周期性地從所述字節計數器中讀取所述數據傳輸長度;
8、根據相鄰兩個周期的所述數據傳輸長度進行一致性比對;
9、若一致,則判斷所述數據搬運傳輸任務的執行狀態異常,暫停檢測;
10、若不一致,則判斷所述數據搬運傳輸任務的執行狀態正常,繼續檢測。
11、根據本申請實施例的一種具體實現方式,所述計數檢測模塊,還配置為在暫停檢測同時或之后,生成第一故障中斷信號并上報;所述第一故障中斷信號用于通知處理器dma器件發生執行狀態異常。
12、根據本申請實施例的一種具體實現方式,所述計數檢測模塊,還配置為在生成第一故障中斷信號并上報之后,恢復檢測當前數據搬運傳輸任務的執行狀態;
13、若檢測到當前數據搬運傳輸任務的執行狀態再次出現異常,生成第二故障中斷信號并上報。
14、根據本申請實施例的一種具體實現方式,所述dma器件還包括:狀態寄存器,配置為記錄數據搬運傳輸期間的執行狀態;
15、所述狀態寄存器與所述故障檢測模塊相連,所述故障檢測模塊,還配置為從所述狀態寄存器中讀取所述數據搬運傳輸期間的執行狀態,并判斷所述執行狀態是否正常。
16、第二方面,本申請還實施例提供一種數據處理系統,包括:dma器件,所述dma器件包括:故障檢測模塊,與所述處理器連接,至少配置為根據數據傳輸長度檢測數據搬運傳輸任務的執行狀態是否正常,并在檢測到所述執行狀態異常時,發送故障中斷信號至處理器;
17、所述處理器,至少配置為根據所述故障中斷信號判斷所述dma器件是否發生故障。
18、根據本申請實施例的一種具體實現方式,所述dma器件包括多個,所述故障中斷信號包括:第一故障中斷信號,所述處理器,還配置為根據所述第一故障中斷信號,保留當前dma器件執行的數據搬運任務,卸載其余dma器件執行的數據搬運任務。
19、根據本申請實施例的一種具體實現方式,所述處理器,還配置為在接收第一故障中斷信號之后,發送恢復故障檢測控制信號至當前dma器件,以使所述dma器件根據所述恢復故障檢測控制信號,恢復檢測當前數據搬運傳輸任務的執行狀態;若再次收到故障檢測模塊上報的第二故障中斷信號,則確定所述dma器件發生故障。
20、根據本申請實施例的一種具體實現方式,所述處理器,還配置為在確定所述dma器件發生故障之后,將發生故障的dma器件執行的數據搬運任務遷移至其余dma器件中的至少一個上進行處理,并將所述發生故障的dma器件記錄到非易失性存儲器中。
21、第三方面,本申請還實施例提供一種dma器件執行狀態檢測方法,包括:
22、周期性地讀取dma器件數據搬運傳輸期間的數據傳輸長度;
23、根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述dma器件數據搬運傳輸任務的執行狀態是否正常。
24、根據本申請實施例的一種具體實現方式,所述根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述dma器件數據搬運傳輸任務的執行狀態是否正常,包括:根據相鄰兩個周期的所述數據傳輸長度進行一致性比對;若一致,則判斷所述dma器件數據搬運傳輸任務的執行狀態異常;
25、若不一致,則判斷所述dma器件數據搬運傳輸任務的執行狀態正常。
26、根據本申請實施例的一種具體實現方式,在判斷所述dma器件數據搬運傳輸任務的執行狀態是否正常之后,所述方法還包括:若判斷所述dma器件數據搬運傳輸任務的執行狀態異常,則暫停檢測,生成第一故障中斷信號并上報;所述第一故障中斷信號用于指示dma器件執行狀態異常;
27、若判斷所述dma器件數據搬運傳輸任務的執行狀態正常,則繼續檢測。
28、根據本申請實施例的一種具體實現方式,在生成第一故障中斷信號并上報之后,所述方法還包括:恢復檢測當前數據搬運傳輸任務的執行狀態;
29、若檢測到當前數據搬運傳輸任務的執行狀態再次出現異常,生成第二故障中斷信號。
30、根據本申請實施例的一種具體實現方式,在恢復檢測當前數據搬運傳輸任務的執行狀態之前,所述方法還包括:?根據所述第一故障中斷信號,保留當前dma器件執行的數據搬運任務,卸載其余dma器件執行的數據搬運任務。
31、根據本申請實施例的一種具體實現方式,在生成第二故障中斷信號之后,所述方法還包括:根據所述第二故障中斷信號確定所述dma器件發生故障,將發生故障的dma器件執行的數據搬運任務遷移至其余dma器件中的至少一個上進行處理,并將所述發生故障的dma器件記錄到非易失性存儲器中。
本文檔來自技高網...【技術保護點】
1.一種DMA器件,其特征在于,包括:字節計數器,配置為跟蹤控制數據搬運傳輸期間的數據傳輸長度;
2.如權利要求1所述的DMA器件,其特征在于,所述故障檢測模塊,包括:計數檢測模塊,與所述字節計數器相連,配置為周期性地從所述字節計數器中讀取所述數據傳輸長度;根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述數據搬運傳輸任務的執行狀態是否正常。
3.如權利要求1所述的DMA器件,其特征在于,所述故障檢測模塊,包括:計數檢測模塊,與所述字節計數器相連,配置為周期性地從所述字節計數器中讀取所述數據傳輸長度;根據相鄰兩個周期的所述數據傳輸長度進行一致性比對;若一致,則判斷所述數據搬運傳輸任務的執行狀態異常,暫停檢測;若不一致,則判斷所述數據搬運傳輸任務的執行狀態正常,繼續檢測。
4.如權利要求3所述的DMA器件,其特征在于,所述計數檢測模塊,還配置為在暫停檢測同時或之后,生成第一故障中斷信號并上報;所述第一故障中斷信號用于通知處理器DMA器件發生執行狀態異常。
5.如權利要求4所述的DMA器件,其特征在于,所述計數檢測模塊,還配置
6.如權利要求1所述的DMA器件,其特征在于,所述DMA器件還包括:狀態寄存器,配置為記錄數據搬運傳輸期間的執行狀態;
7.一種數據處理系統,其特征在于,包括:DMA器件和處理器;
8.如權利要求7所述的數據處理系統,其特征在于,所述DMA器件包括多個;
9.如權利要求8所述的數據處理系統,其特征在于,所述處理器,還配置為在接收第一故障中斷信號之后,發送恢復故障檢測控制信號至當前DMA器件,以使所述DMA器件根據所述恢復故障檢測控制信號,恢復檢測當前數據搬運傳輸任務的執行狀態;若再次收到所述故障檢測模塊上報的第二故障中斷信號,則確定所述DMA器件發生故障。
10.如權利要求9所述的數據處理系統,其特征在于,所述處理器,還配置為在確定所述DMA器件發生故障之后,將發生故障的DMA器件執行的數據搬運任務遷移至其余DMA器件中的至少一個上進行處理,并將所述發生故障的DMA器件記錄到非易失性存儲器中。
11.一種DMA器件執行狀態檢測方法,其特征在于,包括:
12.?如權利要求11所述的DMA器件執行狀態檢測方法,其特征在于?,所述根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述DMA器件數據搬運傳輸任務的執行狀態是否正常,包括:根據相鄰兩個周期的所述數據傳輸長度進行一致性比對;若一致,則判斷所述DMA器件數據搬運傳輸任務的執行狀態異常;
13.如權利要求11所述的DMA執行狀態檢測方法,其特征在于,在判斷所述DMA器件數據搬運傳輸任務的執行狀態是否正常之后,所述方法還包括:若判斷所述DMA器件數據搬運傳輸任務的執行狀態異常,則暫停檢測,生成第一故障中斷信號并上報;所述第一故障中斷信號用于指示DMA器件執行狀態異常;
14.如權利要求13所述的DMA執行狀態檢測方法,其特征在于,在生成第一故障中斷信號并上報之后,所述方法還包括:恢復檢測當前數據搬運傳輸任務的執行狀態;
15.?如權利要求14所述的DMA執行狀態檢測方法,其特征在于,在恢復檢測當前數據搬運傳輸任務的執行狀態之前,所述方法還包括:?根據所述第一故障中斷信號,保留當前DMA器件執行的數據搬運任務,卸載其余DMA器件執行的數據搬運任務。
16.?如權利要求15所述的DMA執行狀態檢測方法,其特征在于?,在生成第二故障中斷信號之后,所述方法還包括:根據所述第二故障中斷信號確定所述DMA器件發生故障,將發生故障的DMA器件執行的數據搬運任務遷移至其余DMA器件中的至少一個上進行處理,并將所述發生故障的DMA器件記錄到非易失性存儲器中。
...【技術特征摘要】
1.一種dma器件,其特征在于,包括:字節計數器,配置為跟蹤控制數據搬運傳輸期間的數據傳輸長度;
2.如權利要求1所述的dma器件,其特征在于,所述故障檢測模塊,包括:計數檢測模塊,與所述字節計數器相連,配置為周期性地從所述字節計數器中讀取所述數據傳輸長度;根據相鄰兩個周期的所述數據傳輸長度的一致性比對結果,判斷所述數據搬運傳輸任務的執行狀態是否正常。
3.如權利要求1所述的dma器件,其特征在于,所述故障檢測模塊,包括:計數檢測模塊,與所述字節計數器相連,配置為周期性地從所述字節計數器中讀取所述數據傳輸長度;根據相鄰兩個周期的所述數據傳輸長度進行一致性比對;若一致,則判斷所述數據搬運傳輸任務的執行狀態異常,暫停檢測;若不一致,則判斷所述數據搬運傳輸任務的執行狀態正常,繼續檢測。
4.如權利要求3所述的dma器件,其特征在于,所述計數檢測模塊,還配置為在暫停檢測同時或之后,生成第一故障中斷信號并上報;所述第一故障中斷信號用于通知處理器dma器件發生執行狀態異常。
5.如權利要求4所述的dma器件,其特征在于,所述計數檢測模塊,還配置為在生成第一故障中斷信號并上報之后,恢復檢測當前數據搬運傳輸任務的執行狀態;
6.如權利要求1所述的dma器件,其特征在于,所述dma器件還包括:狀態寄存器,配置為記錄數據搬運傳輸期間的執行狀態;
7.一種數據處理系統,其特征在于,包括:dma器件和處理器;
8.如權利要求7所述的數據處理系統,其特征在于,所述dma器件包括多個;
9.如權利要求8所述的數據處理系統,其特征在于,所述處理器,還配置為在接收第一故障中斷信號之后,發送恢復故障檢測控制信號至當前dma器件,以使所述dma器件根據所述恢復故障檢測控制信號,恢復檢測當前數據搬運傳輸任務的執行狀態;若再次收到所述故障檢測模塊上報的第二故障中斷信號,則確定所述dma...
【專利技術屬性】
技術研發人員:王彥,喻安雄,
申請(專利權)人:成都海光集成電路設計有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。