System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機,尤其涉及一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng)。
技術(shù)介紹
1、在大模型推理服務(wù)領(lǐng)域,隨著技術(shù)的進步和市場需求的增長,用戶對于大模型推理服務(wù)的使用日益頻繁,對于企業(yè)的推理集群的負載壓力越來越高。同時,由于使用大模型推理服務(wù)的用戶的身份并不相同,并且發(fā)起大模型推理請求的任務(wù)也多種多樣,這就導(dǎo)致不同的大模型推理請求受到服務(wù)的優(yōu)先級和緊急程度并不相同,在硬件資源受限時,高優(yōu)先級、高緊急性的請求應(yīng)當(dāng)優(yōu)先于低優(yōu)先級的請求得到服務(wù)。
2、為了滿足多樣化的用戶需求,推理服務(wù)框架不僅需要高效處理大規(guī)模數(shù)據(jù),還需能夠在多用戶環(huán)境中合理分配資源。然而目前主流的大模型推理框架雖然在處理大規(guī)模數(shù)據(jù)與復(fù)雜計算任務(wù)方面有著卓越的表現(xiàn),但在用戶優(yōu)先級區(qū)分與資源調(diào)度方面存在諸多不足。在云計算領(lǐng)域,可以通過劃分請求資源池的方法來區(qū)分分配給高優(yōu)先級請求和低優(yōu)先級請求的資源配額,分別為高優(yōu)先級請求和低優(yōu)先級請求指定資源量不同的資源池,從而實現(xiàn)對不同優(yōu)先級和緊急程度的請求提供差異化服務(wù)。
3、但是,通過劃分資源池來滿足不同優(yōu)先級和緊急程度的請求的服務(wù)要求在請求處理上較為僵硬,當(dāng)一個請求被路由到對應(yīng)的資源池中時,該請求將只能得到該資源池中的服務(wù)實例的服務(wù),當(dāng)另外的資源池時出現(xiàn)空余時,該請求也無法被重新分配到出現(xiàn)空余的資源池,即便可以重新調(diào)度請求,也需要對請求prompt的kvcache進行重新計算,從而造成算力的浪費。因此基于資源池的方法來對不同優(yōu)先級的請求提供服務(wù)的方法會不可避免地造成算力浪費,這一現(xiàn)象在整體硬件
技術(shù)實現(xiàn)思路
1、本專利技術(shù)提供了一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng),以解決模型推理過程中請求調(diào)度不合理的問題。
2、根據(jù)本專利技術(shù)的一方面,提供了一種模型推理的請求管理方法,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:
3、獲取所述模型推理服務(wù)的觀測指標;
4、根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;
5、根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;
6、在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。
7、根據(jù)本專利技術(shù)的另一方面,提供了一種模型推理的請求管理裝置,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述裝置包括:
8、觀測模塊,用于獲取所述模型推理服務(wù)的觀測指標;
9、狀態(tài)預(yù)測模塊,用于根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;
10、請求調(diào)度器,用于根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;
11、側(cè)載調(diào)度模塊,用于在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。
12、根據(jù)本專利技術(shù)的另一方面,提供了一種請求管理系統(tǒng),包括:請求處理引擎和模型推理服務(wù);
13、所述請求處理引擎,用于:獲取所述模型推理服務(wù)的觀測指標;根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。
14、根據(jù)本專利技術(shù)的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
15、至少一個處理器,以及與所述至少一個處理器通信連接的存儲器;
16、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機程序,所述計算機程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本專利技術(shù)任一實施例所述的模型推理的請求管理方法。
17、根據(jù)本專利技術(shù)的另一方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)本專利技術(shù)任一實施例所述的模型推理的請求管理方法。
18、根據(jù)本專利技術(shù)的另一方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)本專利技術(shù)任一實施例所述的模型推理的請求管理方法。
19、本專利技術(shù)實施例的技術(shù)方案,通過獲取所述模型推理服務(wù)的觀測指標;根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理,解決了模型推理過程中請求調(diào)度不合理的問題,通過模型推理服務(wù)的觀測指標進行預(yù)測,得到預(yù)測指標,預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率,本申請實施例中預(yù)測指標可以用于表示模型推理服務(wù)在接下來的時間的不同指標,即預(yù)測模型推理服務(wù)在后續(xù)時間的指標;通過預(yù)測指標確定調(diào)度策略,進一步結(jié)合請求隊列確定調(diào)度建議,將其加入至建議緩沖隊列;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從建議緩沖隊列中讀取調(diào)度建議,并根據(jù)調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,對模型推理服務(wù)的請求調(diào)度進行干預(yù),最后目標調(diào)度決策控制模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理;通過指標預(yù)測對模型推理服務(wù)的調(diào)度決策進行干擾,為模型推理服務(wù)提供目標調(diào)度決策,控制模型推理服務(wù)通過合理的請求調(diào)度執(zhí)行模型推理,實現(xiàn)資源的高效利用和合理分配。
20、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標識本專利技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本專利技術(shù)的范圍。本專利技術(shù)的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種模型推理的請求管理方法,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述觀測指標包括處理器參數(shù)指標和請求指標中的至少一種;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述預(yù)測指標確定調(diào)度策略,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述請求隊列包括運行隊列和掛起隊列,所述根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述預(yù)測指標還包括:請求數(shù)量;
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策之前,還包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,包括:
>10.根據(jù)權(quán)利要求1-9任一項所述的方法,其特征在于,還包括:
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,在所述接受所述新的請求之后,還包括:
12.一種模型推理的請求管理裝置,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述裝置包括:
13.一種請求管理系統(tǒng),其特征在于,包括:請求處理引擎和模型推理服務(wù);
14.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
15.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)權(quán)利要求1-11中任一項所述的模型推理的請求管理方法。
16.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-11中任一項所述的模型推理的請求管理方法。
...【技術(shù)特征摘要】
1.一種模型推理的請求管理方法,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述觀測指標包括處理器參數(shù)指標和請求指標中的至少一種;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述預(yù)測指標確定調(diào)度策略,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述請求隊列包括運行隊列和掛起隊列,所述根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述預(yù)測指標還包括:請求數(shù)量;
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策之前,還包括:
9.根據(jù)權(quán)利要求1所述的方法,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:吳賢偉,張耒,王天青,侯雨希,楊超,劉熙,
申請(專利權(quán))人:星環(huán)信息科技上海股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。