【技術實現步驟摘要】
推理系統、推理方法、電子設備及計算機存儲介質
本專利技術實施例涉及計算機
,尤其涉及一種推理系統、推理方法、電子設備及計算機存儲介質。
技術介紹
深度學習一般分為訓練和推理(Inference)兩個部分,其中,通過訓練部分搜索和求解模型的最優參數,而通過推理部分則可以將訓練完成的模型部署在在線環境中,以進行實際使用。以人工智能領域為例,推理在部署后,可通過神經網絡推導計算將輸入轉化為特定目標輸出。例如,對圖片進行物體檢測、對文字內容進行分類等,在視覺、語音、推薦等場景被廣泛應用。目前,大部分的推理依賴于具有推理加速卡如GPU(GraphicsProcessingUnit,圖形處理器)的硬件計算資源。例如,在人工智能推理中,一種方式是GPU通過PCIE(PeripheralComponentInterconnectExpress,高速串行計算機擴展總線標準)插槽與計算機主機連接。其中,推理涉及的前后處理和其他業務邏輯通過CPU計算,而推理的處理則通過PCIE插槽發送到GPU進行計算,形成典型的異構計算場景。例如,在圖1所示的電子設備100中,同時設置有CPU102和GPU104,GPU104可以通過PCIE插槽106設置于電子設備主板108上,并通過主板108上的主板線路與CPU102交互。在一個推理過程中,CPU102首先對相關數據或信息進行處理,進而將處理后的數據或信息通過PCIE插槽106發送到GPU104,GPU104根據接收的數據或信息,使用GPU104中的計算模型進行推理處理,之后,再將推理處 ...
【技術保護點】
1.一種推理系統,其特征在于,包括相互連接的第一計算設備和第二計算設備,其中,所述第一計算設備中設置有推理客戶端,所述第二計算設備中設置有推理加速資源以及推理服務端;/n其中:/n所述推理客戶端用于獲取進行推理的計算模型的模型信息和待推理數據,并分別將所述模型信息和所述待推理數據發送至所述第二計算設備中的推理服務端;/n所述推理服務端用于通過推理加速資源載入并調用所述模型信息指示的計算模型,通過所述計算模型對所述待推理數據進行推理處理并向所述推理客戶端反饋所述推理處理的結果。/n
【技術特征摘要】
1.一種推理系統,其特征在于,包括相互連接的第一計算設備和第二計算設備,其中,所述第一計算設備中設置有推理客戶端,所述第二計算設備中設置有推理加速資源以及推理服務端;
其中:
所述推理客戶端用于獲取進行推理的計算模型的模型信息和待推理數據,并分別將所述模型信息和所述待推理數據發送至所述第二計算設備中的推理服務端;
所述推理服務端用于通過推理加速資源載入并調用所述模型信息指示的計算模型,通過所述計算模型對所述待推理數據進行推理處理并向所述推理客戶端反饋所述推理處理的結果。
2.根據權利要求1所述的推理系統,其特征在于,所述推理客戶端還用于在確定所述第二計算設備中不存在所述計算模型時,將所述計算模型發送至所述推理服務端。
3.根據權利要求2所述的推理系統,其特征在于,所述計算模型的模型信息為所述計算模型的標識信息或校驗信息;
所述推理服務端還用于通過所述標識信息或所述校驗信息,確定所述第二計算設備中是否存在所述計算模型,并將確定結果返回給所述推理客戶端。
4.根據權利要求1所述的推理系統,其特征在于,
所述推理客戶端還用于獲取請求所述計算模型對所述待推理數據進行推理處理的推理請求,并對所述推理請求進行語義分析,根據語義分析結果確定待調用的所述計算模型中的處理函數,將所述處理函數的信息發送給所述推理服務端;
所述推理服務端在所述通過所述計算模型對所述待推理數據進行推理處理時,通過調用載入的所述計算模型中所述處理函數的信息指示的處理函數,對所述待推理數據進行推理處理。
5.根據權利要求4所述的推理系統,其特征在于,所述處理函數的信息為所述處理函數的API接口信息。
6.根據權利要求1所述的推理系統,其特征在于,所述第二計算設備中設置有一種或多種類型的推理加速資源;
當所述推理加速資源包括多種類型時,不同類型的推理加速資源具有不同的使用優先級;
所述推理服務端根據預設的負載均衡規則和多種類型的所述推理加速資源的優先級,使用推理加速資源。
7.根據權利要求1-6任一項所述的推理系統,其特征在于,所述第一計算設備和所述第二計算設備通過彈性網絡相互連接。
8.根據權利要求1-6任一項所述的推理系統,其特征在于,所述推理客戶端為嵌入所述第一計算設備中的深度學習框架內部的組件,或者,所述推理客戶端為可被所述深度學習框架調用的可調用文件。
9.一種推理方法,其特征在于,所述方法包括:
獲取進行推理的計算模型的模型信息,并將所述模型信息發送至目標計算設備,以指示所述目標計算設備使用所述目標計算設備中設置的推理加速資源載入所述模型信息指示的計算模型;
獲取待推理數據,并將所述待推理數據發送至所述目標計算設備,以指示所述目標計算設備使用推理加速資源調用載入的所述計算模型,通過所述計算模型對所述待推理數據進行推理處理;
接收所述目標計算設備反饋的所述推理處理的結果。
10.根據權利要求9所述的方法,其特征在于,所述方法還包括:
若確定所述目標計算設備中不存在所述計算模型時,則將所述計算模型發送至所述目標計算設備。
11.根據權利要求10所述的方法,其特征在于,所述計算模型的模型信息為所述計算模型的標識信息或校驗信息;
在所述若確定所述目標計...
【專利技術屬性】
技術研發人員:林立翔,李鵬,游亮,龍欣,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:開曼群島;KY
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。