System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产热の有码热の无码视频 ,中文字幕无码精品亚洲资源网,久久天堂av综合色无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng)制造方法及圖紙

    技術(shù)編號:44112335 閱讀:13 留言:0更新日期:2025-01-24 22:36
    本發(fā)明專利技術(shù)公開了一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng)。該方法包括:獲取模型推理服務(wù)的觀測指標;根據(jù)觀測指標進行指標預(yù)測,得到預(yù)測指標,預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;根據(jù)預(yù)測指標確定調(diào)度策略,根據(jù)調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將調(diào)度建議加入至建議緩沖隊列中;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從建議緩沖隊列中讀取調(diào)度建議,并根據(jù)調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)目標調(diào)度決策控制模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理,解決了模型推理過程中請求調(diào)度不合理的問題,實現(xiàn)資源的高效利用和合理分配。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及計算機,尤其涉及一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng)


    技術(shù)介紹

    1、在大模型推理服務(wù)領(lǐng)域,隨著技術(shù)的進步和市場需求的增長,用戶對于大模型推理服務(wù)的使用日益頻繁,對于企業(yè)的推理集群的負載壓力越來越高。同時,由于使用大模型推理服務(wù)的用戶的身份并不相同,并且發(fā)起大模型推理請求的任務(wù)也多種多樣,這就導(dǎo)致不同的大模型推理請求受到服務(wù)的優(yōu)先級和緊急程度并不相同,在硬件資源受限時,高優(yōu)先級、高緊急性的請求應(yīng)當(dāng)優(yōu)先于低優(yōu)先級的請求得到服務(wù)。

    2、為了滿足多樣化的用戶需求,推理服務(wù)框架不僅需要高效處理大規(guī)模數(shù)據(jù),還需能夠在多用戶環(huán)境中合理分配資源。然而目前主流的大模型推理框架雖然在處理大規(guī)模數(shù)據(jù)與復(fù)雜計算任務(wù)方面有著卓越的表現(xiàn),但在用戶優(yōu)先級區(qū)分與資源調(diào)度方面存在諸多不足。在云計算領(lǐng)域,可以通過劃分請求資源池的方法來區(qū)分分配給高優(yōu)先級請求和低優(yōu)先級請求的資源配額,分別為高優(yōu)先級請求和低優(yōu)先級請求指定資源量不同的資源池,從而實現(xiàn)對不同優(yōu)先級和緊急程度的請求提供差異化服務(wù)。

    3、但是,通過劃分資源池來滿足不同優(yōu)先級和緊急程度的請求的服務(wù)要求在請求處理上較為僵硬,當(dāng)一個請求被路由到對應(yīng)的資源池中時,該請求將只能得到該資源池中的服務(wù)實例的服務(wù),當(dāng)另外的資源池時出現(xiàn)空余時,該請求也無法被重新分配到出現(xiàn)空余的資源池,即便可以重新調(diào)度請求,也需要對請求prompt的kvcache進行重新計算,從而造成算力的浪費。因此基于資源池的方法來對不同優(yōu)先級的請求提供服務(wù)的方法會不可避免地造成算力浪費,這一現(xiàn)象在整體硬件資源不足的情況下尤為明顯。因此,在模型推理過程中如何合理地調(diào)度請求成為有待解決的問題。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)提供了一種模型推理的請求管理方法、裝置以及請求管理系統(tǒng),以解決模型推理過程中請求調(diào)度不合理的問題。

    2、根據(jù)本專利技術(shù)的一方面,提供了一種模型推理的請求管理方法,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:

    3、獲取所述模型推理服務(wù)的觀測指標;

    4、根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;

    5、根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;

    6、在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。

    7、根據(jù)本專利技術(shù)的另一方面,提供了一種模型推理的請求管理裝置,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述裝置包括:

    8、觀測模塊,用于獲取所述模型推理服務(wù)的觀測指標;

    9、狀態(tài)預(yù)測模塊,用于根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;

    10、請求調(diào)度器,用于根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;

    11、側(cè)載調(diào)度模塊,用于在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。

    12、根據(jù)本專利技術(shù)的另一方面,提供了一種請求管理系統(tǒng),包括:請求處理引擎和模型推理服務(wù);

    13、所述請求處理引擎,用于:獲取所述模型推理服務(wù)的觀測指標;根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理。

    14、根據(jù)本專利技術(shù)的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:

    15、至少一個處理器,以及與所述至少一個處理器通信連接的存儲器;

    16、其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機程序,所述計算機程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本專利技術(shù)任一實施例所述的模型推理的請求管理方法。

    17、根據(jù)本專利技術(shù)的另一方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)本專利技術(shù)任一實施例所述的模型推理的請求管理方法。

    18、根據(jù)本專利技術(shù)的另一方面,提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)本專利技術(shù)任一實施例所述的模型推理的請求管理方法。

    19、本專利技術(shù)實施例的技術(shù)方案,通過獲取所述模型推理服務(wù)的觀測指標;根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,所述預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率;根據(jù)所述預(yù)測指標確定調(diào)度策略,根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,并將所述調(diào)度建議加入至建議緩沖隊列中;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從所述建議緩沖隊列中讀取調(diào)度建議,并根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,根據(jù)所述目標調(diào)度決策控制所述模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理,解決了模型推理過程中請求調(diào)度不合理的問題,通過模型推理服務(wù)的觀測指標進行預(yù)測,得到預(yù)測指標,預(yù)測指標包括中央處理器的目標內(nèi)存利用率和圖形處理器的目標顯存利用率,本申請實施例中預(yù)測指標可以用于表示模型推理服務(wù)在接下來的時間的不同指標,即預(yù)測模型推理服務(wù)在后續(xù)時間的指標;通過預(yù)測指標確定調(diào)度策略,進一步結(jié)合請求隊列確定調(diào)度建議,將其加入至建議緩沖隊列;在模型推理服務(wù)執(zhí)行請求調(diào)度時,從建議緩沖隊列中讀取調(diào)度建議,并根據(jù)調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,對模型推理服務(wù)的請求調(diào)度進行干預(yù),最后目標調(diào)度決策控制模型推理服務(wù)調(diào)度相應(yīng)的請求執(zhí)行模型推理;通過指標預(yù)測對模型推理服務(wù)的調(diào)度決策進行干擾,為模型推理服務(wù)提供目標調(diào)度決策,控制模型推理服務(wù)通過合理的請求調(diào)度執(zhí)行模型推理,實現(xiàn)資源的高效利用和合理分配。

    20、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標識本專利技術(shù)的實施例的關(guān)鍵或重要特征,也不用于限制本專利技術(shù)的范圍。本專利技術(shù)的其它特征將通過以下的說明書而變得容易理解。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種模型推理的請求管理方法,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述觀測指標包括處理器參數(shù)指標和請求指標中的至少一種;

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述預(yù)測指標確定調(diào)度策略,包括:

    6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述請求隊列包括運行隊列和掛起隊列,所述根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,包括:

    7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述預(yù)測指標還包括:請求數(shù)量;

    8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策之前,還包括:

    9.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策,包括:>

    10.根據(jù)權(quán)利要求1-9任一項所述的方法,其特征在于,還包括:

    11.根據(jù)權(quán)利要求10所述的方法,其特征在于,在所述接受所述新的請求之后,還包括:

    12.一種模型推理的請求管理裝置,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述裝置包括:

    13.一種請求管理系統(tǒng),其特征在于,包括:請求處理引擎和模型推理服務(wù);

    14.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

    15.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)權(quán)利要求1-11中任一項所述的模型推理的請求管理方法。

    16.一種計算機程序產(chǎn)品,其特征在于,所述計算機程序產(chǎn)品包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-11中任一項所述的模型推理的請求管理方法。

    ...

    【技術(shù)特征摘要】

    1.一種模型推理的請求管理方法,其特征在于,應(yīng)用于請求管理系統(tǒng)中的請求處理引擎,所述請求管理系統(tǒng)還包括模型推理服務(wù),所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述觀測指標包括處理器參數(shù)指標和請求指標中的至少一種;

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述觀測指標進行指標預(yù)測,得到預(yù)測指標,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述預(yù)測指標確定調(diào)度策略,包括:

    6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述請求隊列包括運行隊列和掛起隊列,所述根據(jù)所述調(diào)度策略結(jié)合請求隊列確定調(diào)度建議,包括:

    7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述預(yù)測指標還包括:請求數(shù)量;

    8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述調(diào)度建議結(jié)合模型推理服務(wù)的調(diào)度決策確定目標調(diào)度決策之前,還包括:

    9.根據(jù)權(quán)利要求1所述的方法,...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:吳賢偉張耒王天青侯雨希楊超劉熙
    申請(專利權(quán))人:星環(huán)信息科技上海股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码乱码av天堂一区二区| 四虎成人精品无码| 伊人久久精品无码二区麻豆| 亚洲va中文字幕无码久久| 久久久久亚洲AV片无码下载蜜桃 | 亚洲AV无码一区二区三区电影| 精品无码中文视频在线观看| 久久久久久久无码高潮| 国产啪亚洲国产精品无码| 无码福利一区二区三区| 一本无码中文字幕在线观| 国产成人无码精品一区不卡| 亚洲精品无码久久| 久久午夜伦鲁片免费无码| 国产办公室秘书无码精品99| 亚洲美日韩Av中文字幕无码久久久妻妇| 免费A级毛片无码视频| 亚洲一区爱区精品无码| 亚洲精品无码成人片在线观看 | av无码久久久久久不卡网站| 中文精品无码中文字幕无码专区| 国产精品无码久久四虎| 亚洲AV无码男人的天堂| 亚洲AV色吊丝无码| 精品国产V无码大片在线看| 久久久久久国产精品免费无码| 亚洲日韩欧洲无码av夜夜摸| 国产成人无码一区二区在线观看| 一本久道中文无码字幕av| 日韩AV无码精品一二三区| 国产精品va无码二区| 国产精品午夜无码体验区 | 亚洲最大av无码网址| 亚洲精品无码久久毛片| 无码少妇一区二区浪潮av| 亚洲 无码 在线 专区| 人妻丰满熟妇aⅴ无码| 高h纯肉无码视频在线观看| 久久精品亚洲中文字幕无码网站 | 一本之道高清无码视频| 无码人妻丰满熟妇啪啪|