System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機,尤其涉及一種服務資源管理方法、裝置、電子設備、介質及產品。
技術介紹
1、當前kubernetes已成為云計算領域的核心編排平臺,而大語言模型作為新興技術,其服務的部署、管理與維護大部分都基于kubernetes編排平臺進行。其中,kubernetes是一個開源的容器編排平臺,用于自動化部署、擴展和管理容器化應用。
2、彈性伸縮是kubernete編排平臺的核心能力,針對大語言模型的服務業務通常是使用圖形處理單元(graphics?processing?unit,gpu)相關的性能指標或者服務的每秒查詢數(queries?per?second,qps)數據進行服務擴縮容,但在大語言模型場景下,gpu相關性能指標數據不能用于衡量業務的并發能力,服務qps數據在大語言模型長鏈接場景存在較大的失真。因此以gpu性能數據以及qps數據作為彈性伸縮衡量依據,存在業務關聯性低、彈性伸縮時機不準確且容易帶來gpu資源浪費的問題。
技術實現思路
1、本申請提供一種服務資源管理方法、裝置、電子設備、介質及產品,用以解決目前以gpu性能數據以及qps數據作為彈性伸縮衡量依據,存在業務關聯性低、彈性伸縮時機不準確性且容易帶來gpu資源浪費的問題,實現提高業務關聯性低、提高彈性伸縮時機的準確性且減少gpu資源浪費。
2、本申請提供一種服務資源管理方法,所述方法包括:確定大語言模型服務的負載數據與當前時刻所述大語言模型服務的副本數返回值;根據所述負載數據與所述副本數
3、根據本申請提供的一種服務資源管理方法,所述負載數據包括實時鏈接數與首字節響應延時;所述根據所述負載數據與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:基于所述負載數據中的實時鏈接數,結合期望鏈接數與當前副本數,確定第一期望副本數;基于所述負載數據中的首字節響應延時,結合期望響應時延與當前副本數,確定第二期望副本數;基于所述第一期望副本數、所述第二期望副本數與所述副本數返回值,確定所述大語言模型服務的目標副本數。
4、根據本申請提供的一種服務資源管理方法,所述基于所述負載數據中的實時鏈接數,結合期望鏈接數與當前副本數,確定第一期望副本數,包括:將所述負載數據中的實時鏈接數與期望鏈接數進行比值運算,得到第一結果;將所述第一結果與當前副本數相乘,得到第二結果;對所述第二結果進行向上取整,得到第一期望副本數。
5、根據本申請提供的一種服務資源管理方法,所述基于所述第一期望副本數、所述第二期望副本數與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:將所述第一期望副本數、所述第二期望副本數與所述副本數返回值中的最大值、最小值或平均值,確定為所述大語言模型服務的目標副本數。
6、根據本申請提供的一種服務資源管理方法,所述根據所述目標副本數對所述大語言模型服務進行服務資源的伸縮管理,包括:確定所述目標副本數與當前副本數的副本數差值;將所述副本數差值與預設數值區間進行比對,得到比對結果;根據所述比對結果對所述大語言模型服務進行服務資源的伸縮管理。
7、根據本申請提供的一種服務資源管理方法,所述當前時刻所述大語言模型服務的副本數返回值在當前時刻未達到預設觸發條件時為當前副本數,在當前時刻達到預設觸發條件時為第三期望副本數。
8、本申請還提供一種服務資源管理裝置,包括負載均衡器、監控組件、監控適配器組件、彈性伸縮控制器組件及存儲在所述彈性伸縮控制器組件上的計算機程序,該計算機程序被處理器執行時實現如上述任一種所述服務資源管理方法。
9、本申請還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述服務資源管理方法。
10、本申請還提供一種介質,所述介質為非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述服務資源管理方法。
11、本申請還提供一種產品,所述產品為計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述服務資源管理方法。
12、本申請提供的服務資源管理方法、裝置、電子設備、介質及產品,通過確定大語言模型服務的負載數據與當前時刻大語言模型服務的副本數返回值;使得可以根據負載數據與副本數返回值,及時且準確地確定出大語言模型服務的目標副本數;進而可以根據目標副本數對大語言模型服務進行服務資源的伸縮管理。由于采用了業務關聯性強的負載數據作為彈性伸縮衡量指標,能準確衡量業務并發能力,并且結合基于時間的副本數返回值進行目標副本數的確定,有效提升彈性伸縮時機的準確性,由此可以及時、準確地根據目標副本數對大語言模型服務進行服務資源的伸縮管理,減少gpu資源浪費。
本文檔來自技高網...【技術保護點】
1.一種服務資源管理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的服務資源管理方法,其特征在于,所述負載數據包括實時鏈接數與首字節響應延時;所述根據所述負載數據與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:
3.根據權利要求2所述的服務資源管理方法,其特征在于,所述基于所述負載數據中的實時鏈接數,結合期望鏈接數與當前副本數,確定第一期望副本數,包括:
4.根據權利要求2所述的服務資源管理方法,其特征在于,所述基于所述第一期望副本數、所述第二期望副本數與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:
5.根據權利要求1所述的服務資源管理方法,其特征在于,所述根據所述目標副本數對所述大語言模型服務進行服務資源的伸縮管理,包括:
6.根據權利要求1所述的服務資源管理方法,其特征在于,所述當前時刻所述大語言模型服務的副本數返回值在當前時刻未達到預設觸發條件時為當前副本數,在當前時刻達到預設觸發條件時為第三期望副本數。
7.一種服務資源管理裝置,其特征在于,包括負載均衡器、監控
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述服務資源管理方法。
9.一種介質,所述介質為非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述服務資源管理方法。
10.一種產品,所述產品為計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述服務資源管理方法。
...【技術特征摘要】
1.一種服務資源管理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的服務資源管理方法,其特征在于,所述負載數據包括實時鏈接數與首字節響應延時;所述根據所述負載數據與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:
3.根據權利要求2所述的服務資源管理方法,其特征在于,所述基于所述負載數據中的實時鏈接數,結合期望鏈接數與當前副本數,確定第一期望副本數,包括:
4.根據權利要求2所述的服務資源管理方法,其特征在于,所述基于所述第一期望副本數、所述第二期望副本數與所述副本數返回值,確定所述大語言模型服務的目標副本數,包括:
5.根據權利要求1所述的服務資源管理方法,其特征在于,所述根據所述目標副本數對所述大語言模型服務進行服務資源的伸縮管理,包括:
6.根據權利要求1所述的服務資源管理方法,其特征在于,所述當前時刻所述大語言模型服務的副本數返回值在當前時刻未達到預設觸發...
【專利技術屬性】
技術研發人員:鄒金柱,樊宇,劉志磊,周洋,郭創舉,易志亞,李云帆,趙澤源,董小帥,韓洛晨,
申請(專利權)人:中移在線服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。