System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及信息處理領(lǐng)域,具體涉及基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置。
技術(shù)介紹
1、當(dāng)前大語(yǔ)言模型(llm)等ai技術(shù)因其強(qiáng)大的自然語(yǔ)言處理和生成能力,展現(xiàn)出巨大的潛力,特別是在實(shí)時(shí)對(duì)話(huà)、智能客服和自動(dòng)翻譯等場(chǎng)景。與此同時(shí),5g網(wǎng)絡(luò)已經(jīng)全球商用化,擁有十億級(jí)規(guī)模移動(dòng)設(shè)備接入。視頻直播、虛擬現(xiàn)實(shí)(vr/ar)、云游戲等高清實(shí)時(shí)智能化數(shù)據(jù)服務(wù)在人們的生活中愈發(fā)普及。隨著基于5g網(wǎng)絡(luò)的智能化應(yīng)用不斷增加,第三代合作伙伴計(jì)劃組織(3gpp)提出5g-advanced(5g-a)標(biāo)準(zhǔn),旨在為各種5g應(yīng)用場(chǎng)景提供通用智能化管理,而引入大模型推理是實(shí)現(xiàn)該服務(wù)的有效途徑。
2、移動(dòng)運(yùn)營(yíng)商升級(jí)了5g網(wǎng)絡(luò)結(jié)構(gòu),采用分離式無(wú)線接入網(wǎng)(split-ran),如圖1所示。各基站的中央單元(cu)服務(wù)器對(duì)多個(gè)分布式單元(du)服務(wù)器進(jìn)行管理,每個(gè)分布式單元又連接多個(gè)射頻無(wú)線單元(ru),后者通過(guò)天線與用戶(hù)終端通信交互;而后傳網(wǎng)絡(luò)則將cu連接至核心網(wǎng)絡(luò),使得多個(gè)分布式基站相互連通實(shí)現(xiàn)跨域通信。然而,由于大模型的千億級(jí)參數(shù)量(如常用開(kāi)源模型llama和falcon分別達(dá)到405b和180b),基于現(xiàn)有5g基站cu/du邊緣服務(wù)器設(shè)備完成大模型推理存在如下三方面挑戰(zhàn)。
3、首先,目前5g邊緣服務(wù)器很少配置圖像處理器(gpu)芯片,市面上僅有少量低端專(zhuān)用芯片(如nvidiaquadro-e?p2200/p1000),算力遠(yuǎn)低于a100、h100等大模型訓(xùn)練/推理常用gpu芯片。此外,相比于大模型常用的數(shù)據(jù)中心內(nèi)多機(jī)多卡集中部署環(huán)
4、當(dāng)前有一些適用于分布式環(huán)境的大模型推理框架,典型方案包括petals和fastdecode。petals通過(guò)將推理任務(wù)分解并在多個(gè)異構(gòu)節(jié)點(diǎn)上并行執(zhí)行,以加速大規(guī)模模型的推理過(guò)程。然而在弱網(wǎng)絡(luò)環(huán)境下,特別是跨區(qū)域場(chǎng)景中,其數(shù)據(jù)傳輸延遲問(wèn)題尤為明顯;同時(shí)其調(diào)度算法簡(jiǎn)單,資源分配不平衡,易出現(xiàn)部分節(jié)點(diǎn)長(zhǎng)時(shí)間空閑,而影響系統(tǒng)整體效率。fastdecode采用了較復(fù)雜的資源調(diào)度算法,并具備一系列優(yōu)化措施以提升推理速度和準(zhǔn)確性,但其在跨區(qū)域弱網(wǎng)絡(luò)環(huán)境下效果顯著下降,因?yàn)橐环矫嫫滟Y源調(diào)度高度依賴(lài)于網(wǎng)絡(luò)穩(wěn)定性和帶寬,另一方面數(shù)據(jù)預(yù)取和緩存機(jī)制等優(yōu)化措施在弱網(wǎng)下無(wú)法有效運(yùn)作,反而引入了額外的時(shí)延。綜上,現(xiàn)有分布式大模型推理方案很難適用于5g等移動(dòng)邊緣側(cè)進(jìn)行大模型推理,無(wú)法滿(mǎn)足越來(lái)越多移動(dòng)應(yīng)用的智能化服務(wù)需求。
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)提供了一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置,用于解決現(xiàn)有技術(shù)中大模型推理過(guò)程中所存在的推理效率低下的問(wèn)題。
2、本專(zhuān)利技術(shù)提供的一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,所述方法包括:
3、基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;
4、接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);
5、基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;
6、所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。
7、可選的,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:
8、當(dāng)?shù)谝还ぷ鞴?jié)點(diǎn)集為非空時(shí),將所述大模型分塊分配給第一工作節(jié)點(diǎn)集;
9、計(jì)算分配后的所述第一工作節(jié)點(diǎn)集是否包括閑置工作節(jié)點(diǎn);
10、若是,則分離所述閑置工作節(jié)點(diǎn)并形成第二工作節(jié)點(diǎn)集。
11、可選的,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。
12、可選的,所述方法還包括:
13、獲取第一時(shí)間,所述第一時(shí)間為網(wǎng)絡(luò)傳輸時(shí)間tt、計(jì)算完成時(shí)間tc和請(qǐng)求等待時(shí)間tq之和;
14、最小化所述第一時(shí)間以作為優(yōu)化目標(biāo);
15、基于所述優(yōu)化目標(biāo)選擇所述工作節(jié)點(diǎn)以進(jìn)行推理。
16、可選的,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;
17、若是,將所述工作節(jié)點(diǎn)的執(zhí)行任務(wù)遷移至其他所述工作節(jié)點(diǎn)。
18、可選的,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:
19、采集所述工作節(jié)點(diǎn)的資源占用率以及帶寬利用率;
20、當(dāng)所述資源占用率超過(guò)資源占用閾值或帶寬利用率超過(guò)帶寬利用閾值時(shí),所述工作節(jié)點(diǎn)為異常。
21、可選的,所述方法包括:當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí),動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小,并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。
22、可選的,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:
23、計(jì)算所述推理任務(wù)的隊(duì)列長(zhǎng)度與批量大小的比值;
24、當(dāng)比值大于1時(shí),增大所述批量大小;當(dāng)比值小于0.5時(shí),減少所述批量大小。
25、本專(zhuān)利技術(shù)中一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,所述裝置包括:
26、處理單元,用于基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;
27、接收單元,用于接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);
28、第一分配單元,用于基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;
29、第二分配單元,用于所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。
30、本專(zhuān)利技術(shù)的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上任意一項(xiàng)所述方法。
31、本專(zhuān)利技術(shù)方法及裝置能夠有效利用跨地理分布區(qū)域的低端邊緣設(shè)備(如低功耗5g邊緣服務(wù)器)實(shí)現(xiàn)大模型推理。不僅可以提升分布式推理任務(wù)的效率,還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性,也適用于公司、大學(xué)等多方組織機(jī)構(gòu)利用閑置設(shè)備協(xié)同推理等其他相關(guān)場(chǎng)景。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:
3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。
4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;
6.根據(jù)權(quán)利要求5所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:
7.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法
8.根據(jù)權(quán)利要求7所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:
9.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,其特征在于,所述裝置包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上權(quán)利要求1-8任意一項(xiàng)所述方法。
...【技術(shù)特征摘要】
1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:
3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。
4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:鄂金龍,徐威,王宇航,彭暢,王晶,柴云鵬,
申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)人民大學(xué),
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。