System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請實施例涉及通信,具體而言,涉及一種推理服務的確定方法、裝置存儲介質及電子設備。
技術介紹
1、目前相關技術中,在同一平臺中同時存在著多種類型的gpu,不同的gpu和不同的大模型組合可以得到多種不同的推理服務。然而在接收到推理請求時,平臺往往無法確定合適的推理服務來執行推理請求。
2、針對相關技術中,在接收到推理請求時無法確定合適的推理服務的問題,尚未提出有效的解決方案。
技術實現思路
1、本申請實施例提供了一種推理服務的確定方法、系統、存儲介質及電子設備,以至少解決相關技術中在接收到推理請求時無法確定合適的推理服務的問題。
2、根據本申請的一個實施例,提供了一種推理服務的確定方法,包括:接收請求發送方發送的推理請求,其中,所述推理請求用于請求所述推理服務執行所述推理請求的請求內容;響應于所述推理請求,獲取多個所述推理服務中每個推理服務的推理速度;根據多個所述推理速度確定用于響應所述推理請求的目標推理服務。
3、在一個示例性實施例中,獲取多個所述推理服務中每個推理服務的推理速度的過程中:對于所述每個推理服務,獲取所述每個推理服務在歷史階段執行的n個推理請求的請求內容,其中,n為正整數;獲取所述n個請求內容的輸入內容長度和輸出內容長度,并獲取所述每個推理服務執行所述n個推理請求所需要的執行時間;根據所述輸入內容長度、所述輸出內容長度和所述執行時間確定所述每個推理服務的推理速度。
4、在一個示例性實施例中,根據所述輸入內容長度、所述輸
5、在一個示例性實施例中,獲取多個所述推理服務中每個推理服務的推理速度之前,所述方法還包括:獲取所述多個推理服務周期性反饋的心跳時間;在當前時間與第一推理服務的心跳時間的差值小于等于預設值的情況下,確定所述第一推理服務的狀態為在線狀態;獲取所述第一推理服務的推理速度。
6、在一個示例性實施例中,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務,包括:從所述多個推理速度中獲取第二推理服務對應的第一推理速度,其中,所述第二推理服務是與所述推理請求具有相同模型名稱的推理服務;將多個所述第一推理速度中速度最快的推理速度確定為目標推理速度;將所述目標推理速度對應的推理服務確定為用于響應所述推理請求的目標推理服務。
7、在一個示例性實施例中,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務,包括:從所述多個推理速度中確定第二推理服務對應的第一推理速度,以及確定所述第二推理服務對應的第一推理請求的數量,其中,所述第二推理服務的模型名稱和所述推理請求的模型名稱一致,所述第一推理請求為所述第二推理服務對應的等待執行和正在執行的推理請求;根據所述第一推理速度和所述第一推理請求的數量確定第一等待時間;從所述第一等待時間中確定最小等待時間;將所述最小等待時間對應的推理服務確定為用于響應所述推理請求的目標推理服務。
8、在一個示例性實施例中,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務之后,所述方法還包括:獲取接收到的所述請求發送方發送的待處理的推理請求的請求數量;在所述推理請求的請求數量少于預設值的情況下,獲取在線狀態的推理服務在歷史階段響應所有所述推理請求的響應速度,得到每一個在線狀態的推理服務所分別對應的多個響應速度;根據所述每一個在線狀態的推理服務所分別對應的多個響應速度確定所述每一個在線狀態的推理服務在所述歷史階段響應所述所有推理請求的平均響應速度;將所述平均響應速度按照速度大小排序,確定所述平均響應速度中最慢的p個平均響應速度對應的p個推理服務,關閉所述p個平均響應速度對應的推理服務,并在預設時間段后,獲取所述p個推理服務的平均響應速度是否是平均響應速度最慢的p個平均響應,如果是,則繼續關閉所述p個平均響應速度對應的推理服務,如果否,則開啟所述p個平均響應速度對應的推理服務;其中,p為正整數,且p為所述請求數量的預設值和所述請求數量的差值;在所述推理請求的請求數量多于預設值的情況下,確定在線狀態的推理服務中沒有正在執行或待執行的推理請求的第三推理服務,啟動所述在線狀態的推理服務中k個沒有正在執行或待執行的推理請求的所述第三推理服務,其中,k為所述請求數量的預設值和所述請求數量的差值,且k為正整數。
9、根據本申請的另一個實施例,還提供了一種推理服務的確定裝置,包括:接收模塊,用于接收請求發送方發送的推理請求,其中,所述推理請求用于請求所述推理服務執行所述推理請求的請求內容;獲取模塊,用于響應于所述推理請求,獲取多個所述推理服務中每個推理服務的推理速度;確定模塊,用于根據多個所述推理速度確定用于響應所述推理請求的目標推理服務。
10、根據本申請的又一個實施例,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行上述任一項方法實施例中的步驟。
11、根據本申請的又一個實施例,還提供了一種電子設備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行上述任一項方法實施例中的步驟。
12、根據本申請的又一個實施例,還提供了一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現上述方法實施例中的步驟。
13、通過本申請,接收請求發送方發送的推理請求,其中,所述推理請求用于請求所述推理服務執行所述推理請求的請求內容;獲取多個所述推理服務中每個推理服務的推理速度;根據多個所述推理速度確定用于響應所述推理請求的目標推理服務。因此,可以解決相關技術中,在接收到推理請求時無法確定合適的推理服務的問題。
本文檔來自技高網...【技術保護點】
1.一種推理服務的確定方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取多個所述推理服務中每個推理服務的推理速度的過程中:
3.根據權利要求2所述的方法,其特征在于,根據所述輸入內容長度、所述輸出內容長度和所述執行時間確定所述每個推理服務的推理速度,包括:
4.根據權利要求1所述的方法,其特征在于,獲取多個所述推理服務中每個推理服務的推理速度之前,所述方法還包括:
5.根據權利要求1所述的方法,其特征在于,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務,包括:
6.根據權利要求1所述的方法,其特征在于,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務,包括:
7.根據權利要求1所述的方法,其特征在于,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務之后,所述方法還包括:
8.一種推理服務的確定裝置,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,其中,所述計算機程序被處理器執行時
10.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現所述權利要求1至7任一項中所述的方法的步驟。
...【技術特征摘要】
1.一種推理服務的確定方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取多個所述推理服務中每個推理服務的推理速度的過程中:
3.根據權利要求2所述的方法,其特征在于,根據所述輸入內容長度、所述輸出內容長度和所述執行時間確定所述每個推理服務的推理速度,包括:
4.根據權利要求1所述的方法,其特征在于,獲取多個所述推理服務中每個推理服務的推理速度之前,所述方法還包括:
5.根據權利要求1所述的方法,其特征在于,根據多個所述推理速度確定用于響應所述推理請求的目標推理服務,包括:
6.根據權利要求1所述的方法,其特征在于,根據多個所述推理速度...
【專利技術屬性】
技術研發人員:張連法,張東,亓開元,徐冠群,逄立業,
申請(專利權)人:濟南浪潮數據技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。