當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>中國(guó)人民大學(xué)專(zhuān)利>正文

基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置制造方法及圖紙

技術(shù)編號(hào)：44524717 閱讀：3 留言：0更新日期：2025-03-07 13:16

本發(fā)明專(zhuān)利技術(shù)公開(kāi)一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置，方法包括：基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況，根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)；所述可用資源情況表征未分配的工作節(jié)點(diǎn)集；接收用戶(hù)推理請(qǐng)求，所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù)；基于所述工作節(jié)點(diǎn)分配的大模型分塊，將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn)；每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集；所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理；所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。通過(guò)上述方法及裝置不僅可以提升分布式推理任務(wù)的效率，還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)涉及信息處理領(lǐng)域，具體涉及基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置。

技術(shù)介紹

1、當(dāng)前大語(yǔ)言模型(llm)等ai技術(shù)因其強(qiáng)大的自然語(yǔ)言處理和生成能力，展現(xiàn)出巨大的潛力，特別是在實(shí)時(shí)對(duì)話(huà)、智能客服和自動(dòng)翻譯等場(chǎng)景。與此同時(shí)，5g網(wǎng)絡(luò)已經(jīng)全球商用化，擁有十億級(jí)規(guī)模移動(dòng)設(shè)備接入。視頻直播、虛擬現(xiàn)實(shí)(vr/ar)、云游戲等高清實(shí)時(shí)智能化數(shù)據(jù)服務(wù)在人們的生活中愈發(fā)普及。隨著基于5g網(wǎng)絡(luò)的智能化應(yīng)用不斷增加，第三代合作伙伴計(jì)劃組織(3gpp)提出5g-advanced(5g-a)標(biāo)準(zhǔn)，旨在為各種5g應(yīng)用場(chǎng)景提供通用智能化管理，而引入大模型推理是實(shí)現(xiàn)該服務(wù)的有效途徑。

2、移動(dòng)運(yùn)營(yíng)商升級(jí)了5g網(wǎng)絡(luò)結(jié)構(gòu)，采用分離式無(wú)線接入網(wǎng)(split-ran)，如圖1所示。各基站的中央單元(cu)服務(wù)器對(duì)多個(gè)分布式單元(du)服務(wù)器進(jìn)行管理，每個(gè)分布式單元又連接多個(gè)射頻無(wú)線單元(ru)，后者通過(guò)天線與用戶(hù)終端通信交互；而后傳網(wǎng)絡(luò)則將cu連接至核心網(wǎng)絡(luò)，使得多個(gè)分布式基站相互連通實(shí)現(xiàn)跨域通信。然而，由于大模型的千億級(jí)參數(shù)量(如常用開(kāi)源模型llama和falcon分別達(dá)到405b和180b)，基于現(xiàn)有5g基站cu/du邊緣服務(wù)器設(shè)備完成大模型推理存在如下三方面挑戰(zhàn)。

3、首先，目前5g邊緣服務(wù)器很少配置圖像處理器(gpu)芯片，市面上僅有少量低端專(zhuān)用芯片(如nvidiaquadro-e?p2200/p1000)，算力遠(yuǎn)低于a100、h100等大模型訓(xùn)練/推理常用gpu芯片。此外，相比于大模型常用的數(shù)據(jù)中心內(nèi)多機(jī)多卡集中部署環(huán)

4、當(dāng)前有一些適用于分布式環(huán)境的大模型推理框架，典型方案包括petals和fastdecode。petals通過(guò)將推理任務(wù)分解并在多個(gè)異構(gòu)節(jié)點(diǎn)上并行執(zhí)行，以加速大規(guī)模模型的推理過(guò)程。然而在弱網(wǎng)絡(luò)環(huán)境下，特別是跨區(qū)域場(chǎng)景中，其數(shù)據(jù)傳輸延遲問(wèn)題尤為明顯；同時(shí)其調(diào)度算法簡(jiǎn)單，資源分配不平衡，易出現(xiàn)部分節(jié)點(diǎn)長(zhǎng)時(shí)間空閑，而影響系統(tǒng)整體效率。fastdecode采用了較復(fù)雜的資源調(diào)度算法，并具備一系列優(yōu)化措施以提升推理速度和準(zhǔn)確性，但其在跨區(qū)域弱網(wǎng)絡(luò)環(huán)境下效果顯著下降，因?yàn)橐环矫嫫滟Y源調(diào)度高度依賴(lài)于網(wǎng)絡(luò)穩(wěn)定性和帶寬，另一方面數(shù)據(jù)預(yù)取和緩存機(jī)制等優(yōu)化措施在弱網(wǎng)下無(wú)法有效運(yùn)作，反而引入了額外的時(shí)延。綜上，現(xiàn)有分布式大模型推理方案很難適用于5g等移動(dòng)邊緣側(cè)進(jìn)行大模型推理，無(wú)法滿(mǎn)足越來(lái)越多移動(dòng)應(yīng)用的智能化服務(wù)需求。

技術(shù)實(shí)現(xiàn)思路

1、本專(zhuān)利技術(shù)提供了一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置，用于解決現(xiàn)有技術(shù)中大模型推理過(guò)程中所存在的推理效率低下的問(wèn)題。

2、本專(zhuān)利技術(shù)提供的一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，所述方法包括：

3、基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況，根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)；所述可用資源情況表征未分配的工作節(jié)點(diǎn)集；

4、接收用戶(hù)推理請(qǐng)求，所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù)；

5、基于所述工作節(jié)點(diǎn)分配的大模型分塊，將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn)；每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集；

6、所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理；所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

7、可選的，根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括：

8、當(dāng)?shù)谝还ぷ鞴?jié)點(diǎn)集為非空時(shí)，將所述大模型分塊分配給第一工作節(jié)點(diǎn)集；

9、計(jì)算分配后的所述第一工作節(jié)點(diǎn)集是否包括閑置工作節(jié)點(diǎn)；

10、若是，則分離所述閑置工作節(jié)點(diǎn)并形成第二工作節(jié)點(diǎn)集。

11、可選的，所述方法還包括：基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延，選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理；所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

12、可選的，所述方法還包括：

13、獲取第一時(shí)間，所述第一時(shí)間為網(wǎng)絡(luò)傳輸時(shí)間tt、計(jì)算完成時(shí)間tc和請(qǐng)求等待時(shí)間tq之和；

14、最小化所述第一時(shí)間以作為優(yōu)化目標(biāo)；

15、基于所述優(yōu)化目標(biāo)選擇所述工作節(jié)點(diǎn)以進(jìn)行推理。

16、可選的，所述方法還包括：采集所述工作節(jié)點(diǎn)的狀態(tài)，根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常；所述異常包括：資源瓶頸或故障；

17、若是，將所述工作節(jié)點(diǎn)的執(zhí)行任務(wù)遷移至其他所述工作節(jié)點(diǎn)。

18、可選的，所述工作節(jié)點(diǎn)的狀態(tài)包括：資源占用率以及帶寬利用率，所述方法包括：

19、采集所述工作節(jié)點(diǎn)的資源占用率以及帶寬利用率；

20、當(dāng)所述資源占用率超過(guò)資源占用閾值或帶寬利用率超過(guò)帶寬利用閾值時(shí)，所述工作節(jié)點(diǎn)為異常。

21、可選的，所述方法包括：當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí)，動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小，并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。

22、可選的，動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小：

23、計(jì)算所述推理任務(wù)的隊(duì)列長(zhǎng)度與批量大小的比值；

24、當(dāng)比值大于1時(shí)，增大所述批量大小；當(dāng)比值小于0.5時(shí)，減少所述批量大小。

25、本專(zhuān)利技術(shù)中一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置，所述裝置包括：

26、處理單元，用于基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況，根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)；所述可用資源情況表征未分配的工作節(jié)點(diǎn)集；

27、接收單元，用于接收用戶(hù)推理請(qǐng)求，所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù)；

28、第一分配單元，用于基于所述工作節(jié)點(diǎn)分配的大模型分塊，將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn)；每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集；

29、第二分配單元，用于所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理；所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

30、本專(zhuān)利技術(shù)的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序，所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行，以實(shí)現(xiàn)如上任意一項(xiàng)所述方法。

31、本專(zhuān)利技術(shù)方法及裝置能夠有效利用跨地理分布區(qū)域的低端邊緣設(shè)備(如低功耗5g邊緣服務(wù)器)實(shí)現(xiàn)大模型推理。不僅可以提升分布式推理任務(wù)的效率，還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性，也適用于公司、大學(xué)等多方組織機(jī)構(gòu)利用閑置設(shè)備協(xié)同推理等其他相關(guān)場(chǎng)景。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括：

3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法還包括：基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延，選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理；所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法還包括：采集所述工作節(jié)點(diǎn)的狀態(tài)，根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常；所述異常包括：資源瓶頸或故障；

6.根據(jù)權(quán)利要求5所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述工作節(jié)點(diǎn)的狀態(tài)包括：資源占用率以及帶寬利用率，所述方法包括：

7.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法

8.根據(jù)權(quán)利要求7所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小：

9.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置，其特征在于，所述裝置包括：

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序，所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行，以實(shí)現(xiàn)如上權(quán)利要求1-8任意一項(xiàng)所述方法。

...

【技術(shù)特征摘要】

1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法包括：

4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法還包括：

5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法，其特征在于，所述方法還包括：采集所述工作節(jié)點(diǎn)的狀態(tài)，根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常；所述異常包括：資源瓶頸...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：鄂金龍，徐威，王宇航，彭暢，王晶，柴云鵬，
申請(qǐng)(專(zhuān)利權(quán))人：中國(guó)人民大學(xué)，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)