System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文字幕日产无码,亚洲无码视频在线,成人免费无码视频在线网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置制造方法及圖紙

    技術(shù)編號(hào):44524717 閱讀:3 留言:0更新日期:2025-03-07 13:16
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置,方法包括:基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。通過(guò)上述方法及裝置不僅可以提升分布式推理任務(wù)的效率,還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及信息處理領(lǐng)域,具體涉及基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置


    技術(shù)介紹

    1、當(dāng)前大語(yǔ)言模型(llm)等ai技術(shù)因其強(qiáng)大的自然語(yǔ)言處理和生成能力,展現(xiàn)出巨大的潛力,特別是在實(shí)時(shí)對(duì)話(huà)、智能客服和自動(dòng)翻譯等場(chǎng)景。與此同時(shí),5g網(wǎng)絡(luò)已經(jīng)全球商用化,擁有十億級(jí)規(guī)模移動(dòng)設(shè)備接入。視頻直播、虛擬現(xiàn)實(shí)(vr/ar)、云游戲等高清實(shí)時(shí)智能化數(shù)據(jù)服務(wù)在人們的生活中愈發(fā)普及。隨著基于5g網(wǎng)絡(luò)的智能化應(yīng)用不斷增加,第三代合作伙伴計(jì)劃組織(3gpp)提出5g-advanced(5g-a)標(biāo)準(zhǔn),旨在為各種5g應(yīng)用場(chǎng)景提供通用智能化管理,而引入大模型推理是實(shí)現(xiàn)該服務(wù)的有效途徑。

    2、移動(dòng)運(yùn)營(yíng)商升級(jí)了5g網(wǎng)絡(luò)結(jié)構(gòu),采用分離式無(wú)線接入網(wǎng)(split-ran),如圖1所示。各基站的中央單元(cu)服務(wù)器對(duì)多個(gè)分布式單元(du)服務(wù)器進(jìn)行管理,每個(gè)分布式單元又連接多個(gè)射頻無(wú)線單元(ru),后者通過(guò)天線與用戶(hù)終端通信交互;而后傳網(wǎng)絡(luò)則將cu連接至核心網(wǎng)絡(luò),使得多個(gè)分布式基站相互連通實(shí)現(xiàn)跨域通信。然而,由于大模型的千億級(jí)參數(shù)量(如常用開(kāi)源模型llama和falcon分別達(dá)到405b和180b),基于現(xiàn)有5g基站cu/du邊緣服務(wù)器設(shè)備完成大模型推理存在如下三方面挑戰(zhàn)。

    3、首先,目前5g邊緣服務(wù)器很少配置圖像處理器(gpu)芯片,市面上僅有少量低端專(zhuān)用芯片(如nvidiaquadro-e?p2200/p1000),算力遠(yuǎn)低于a100、h100等大模型訓(xùn)練/推理常用gpu芯片。此外,相比于大模型常用的數(shù)據(jù)中心內(nèi)多機(jī)多卡集中部署環(huán)境,跨不同區(qū)域基站的邊緣服務(wù)器間存在很大的網(wǎng)絡(luò)時(shí)延,嚴(yán)重影響協(xié)同推理效率。最后,移動(dòng)運(yùn)營(yíng)商會(huì)不時(shí)發(fā)生故障,在主要負(fù)責(zé)通信管理的基站邊緣服務(wù)器上附加大模型推理功能,進(jìn)一步增加了工作負(fù)載和故障風(fēng)險(xiǎn)。

    4、當(dāng)前有一些適用于分布式環(huán)境的大模型推理框架,典型方案包括petals和fastdecode。petals通過(guò)將推理任務(wù)分解并在多個(gè)異構(gòu)節(jié)點(diǎn)上并行執(zhí)行,以加速大規(guī)模模型的推理過(guò)程。然而在弱網(wǎng)絡(luò)環(huán)境下,特別是跨區(qū)域場(chǎng)景中,其數(shù)據(jù)傳輸延遲問(wèn)題尤為明顯;同時(shí)其調(diào)度算法簡(jiǎn)單,資源分配不平衡,易出現(xiàn)部分節(jié)點(diǎn)長(zhǎng)時(shí)間空閑,而影響系統(tǒng)整體效率。fastdecode采用了較復(fù)雜的資源調(diào)度算法,并具備一系列優(yōu)化措施以提升推理速度和準(zhǔn)確性,但其在跨區(qū)域弱網(wǎng)絡(luò)環(huán)境下效果顯著下降,因?yàn)橐环矫嫫滟Y源調(diào)度高度依賴(lài)于網(wǎng)絡(luò)穩(wěn)定性和帶寬,另一方面數(shù)據(jù)預(yù)取和緩存機(jī)制等優(yōu)化措施在弱網(wǎng)下無(wú)法有效運(yùn)作,反而引入了額外的時(shí)延。綜上,現(xiàn)有分布式大模型推理方案很難適用于5g等移動(dòng)邊緣側(cè)進(jìn)行大模型推理,無(wú)法滿(mǎn)足越來(lái)越多移動(dòng)應(yīng)用的智能化服務(wù)需求。


    技術(shù)實(shí)現(xiàn)思路

    1、本專(zhuān)利技術(shù)提供了一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置,用于解決現(xiàn)有技術(shù)中大模型推理過(guò)程中所存在的推理效率低下的問(wèn)題。

    2、本專(zhuān)利技術(shù)提供的一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,所述方法包括:

    3、基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;

    4、接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);

    5、基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;

    6、所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

    7、可選的,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    8、當(dāng)?shù)谝还ぷ鞴?jié)點(diǎn)集為非空時(shí),將所述大模型分塊分配給第一工作節(jié)點(diǎn)集;

    9、計(jì)算分配后的所述第一工作節(jié)點(diǎn)集是否包括閑置工作節(jié)點(diǎn);

    10、若是,則分離所述閑置工作節(jié)點(diǎn)并形成第二工作節(jié)點(diǎn)集。

    11、可選的,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    12、可選的,所述方法還包括:

    13、獲取第一時(shí)間,所述第一時(shí)間為網(wǎng)絡(luò)傳輸時(shí)間tt、計(jì)算完成時(shí)間tc和請(qǐng)求等待時(shí)間tq之和;

    14、最小化所述第一時(shí)間以作為優(yōu)化目標(biāo);

    15、基于所述優(yōu)化目標(biāo)選擇所述工作節(jié)點(diǎn)以進(jìn)行推理。

    16、可選的,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;

    17、若是,將所述工作節(jié)點(diǎn)的執(zhí)行任務(wù)遷移至其他所述工作節(jié)點(diǎn)。

    18、可選的,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:

    19、采集所述工作節(jié)點(diǎn)的資源占用率以及帶寬利用率;

    20、當(dāng)所述資源占用率超過(guò)資源占用閾值或帶寬利用率超過(guò)帶寬利用閾值時(shí),所述工作節(jié)點(diǎn)為異常。

    21、可選的,所述方法包括:當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí),動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小,并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。

    22、可選的,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:

    23、計(jì)算所述推理任務(wù)的隊(duì)列長(zhǎng)度與批量大小的比值;

    24、當(dāng)比值大于1時(shí),增大所述批量大小;當(dāng)比值小于0.5時(shí),減少所述批量大小。

    25、本專(zhuān)利技術(shù)中一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,所述裝置包括:

    26、處理單元,用于基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;

    27、接收單元,用于接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);

    28、第一分配單元,用于基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;

    29、第二分配單元,用于所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

    30、本專(zhuān)利技術(shù)的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上任意一項(xiàng)所述方法。

    31、本專(zhuān)利技術(shù)方法及裝置能夠有效利用跨地理分布區(qū)域的低端邊緣設(shè)備(如低功耗5g邊緣服務(wù)器)實(shí)現(xiàn)大模型推理。不僅可以提升分布式推理任務(wù)的效率,還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性,也適用于公司、大學(xué)等多方組織機(jī)構(gòu)利用閑置設(shè)備協(xié)同推理等其他相關(guān)場(chǎng)景。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:

    5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;

    6.根據(jù)權(quán)利要求5所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:

    7.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí),動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小,并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。

    8.根據(jù)權(quán)利要求7所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:

    9.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,其特征在于,所述裝置包括:

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上權(quán)利要求1-8任意一項(xiàng)所述方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:

    5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:鄂金龍徐威王宇航彭暢王晶柴云鵬
    申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)人民大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 东京热加勒比无码少妇| 18禁网站免费无遮挡无码中文| 国产aⅴ无码专区亚洲av| 精品欧洲av无码一区二区三区| 亚洲动漫精品无码av天堂| 国产成人麻豆亚洲综合无码精品| 无码专区AAAAAA免费视频| 最新亚洲春色Av无码专区| 无码激情做a爰片毛片AV片 | 亚洲一区二区三区AV无码| 亚洲精品无码精品mV在线观看| 亚洲欧洲无码一区二区三区 | 无码AⅤ精品一区二区三区| 亚洲日韩乱码中文无码蜜桃臀网站| 久久亚洲AV成人无码| 影院无码人妻精品一区二区| 台湾无码一区二区| 国产热の有码热の无码视频| 成人无码区免费A∨直播| 精品无码中文视频在线观看| 亚洲人成人无码.www石榴| 永久免费av无码网站韩国毛片| 日韩AV无码精品人妻系列| 中文字幕久久精品无码| 无码专区6080yy国产电影| 日韩aⅴ人妻无码一区二区| 亚洲av无码一区二区三区网站| 亚洲AV无码专区亚洲AV伊甸园| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 国产V亚洲V天堂A无码| 成人免费a级毛片无码网站入口 | 国产99久久九九精品无码| 人妻精品久久无码区| 亚洲另类无码一区二区三区| 国产成人精品一区二区三区无码| 亚洲精品无码永久中文字幕| 熟妇人妻中文a∨无码| 亚洲人成网亚洲欧洲无码久久| 中文字幕av无码不卡| 亚洲精品一级无码中文字幕| YW尤物AV无码国产在线观看|