System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文字幕日产无码,亚洲无码视频在线,成人免费无码视频在线网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置制造方法及圖紙

    技術(shù)編號(hào):44524717 閱讀:3 留言:0更新日期:2025-03-07 13:16
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置,方法包括:基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。通過(guò)上述方法及裝置不僅可以提升分布式推理任務(wù)的效率,還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及信息處理領(lǐng)域,具體涉及基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置


    技術(shù)介紹

    1、當(dāng)前大語(yǔ)言模型(llm)等ai技術(shù)因其強(qiáng)大的自然語(yǔ)言處理和生成能力,展現(xiàn)出巨大的潛力,特別是在實(shí)時(shí)對(duì)話(huà)、智能客服和自動(dòng)翻譯等場(chǎng)景。與此同時(shí),5g網(wǎng)絡(luò)已經(jīng)全球商用化,擁有十億級(jí)規(guī)模移動(dòng)設(shè)備接入。視頻直播、虛擬現(xiàn)實(shí)(vr/ar)、云游戲等高清實(shí)時(shí)智能化數(shù)據(jù)服務(wù)在人們的生活中愈發(fā)普及。隨著基于5g網(wǎng)絡(luò)的智能化應(yīng)用不斷增加,第三代合作伙伴計(jì)劃組織(3gpp)提出5g-advanced(5g-a)標(biāo)準(zhǔn),旨在為各種5g應(yīng)用場(chǎng)景提供通用智能化管理,而引入大模型推理是實(shí)現(xiàn)該服務(wù)的有效途徑。

    2、移動(dòng)運(yùn)營(yíng)商升級(jí)了5g網(wǎng)絡(luò)結(jié)構(gòu),采用分離式無(wú)線接入網(wǎng)(split-ran),如圖1所示。各基站的中央單元(cu)服務(wù)器對(duì)多個(gè)分布式單元(du)服務(wù)器進(jìn)行管理,每個(gè)分布式單元又連接多個(gè)射頻無(wú)線單元(ru),后者通過(guò)天線與用戶(hù)終端通信交互;而后傳網(wǎng)絡(luò)則將cu連接至核心網(wǎng)絡(luò),使得多個(gè)分布式基站相互連通實(shí)現(xiàn)跨域通信。然而,由于大模型的千億級(jí)參數(shù)量(如常用開(kāi)源模型llama和falcon分別達(dá)到405b和180b),基于現(xiàn)有5g基站cu/du邊緣服務(wù)器設(shè)備完成大模型推理存在如下三方面挑戰(zhàn)。

    3、首先,目前5g邊緣服務(wù)器很少配置圖像處理器(gpu)芯片,市面上僅有少量低端專(zhuān)用芯片(如nvidiaquadro-e?p2200/p1000),算力遠(yuǎn)低于a100、h100等大模型訓(xùn)練/推理常用gpu芯片。此外,相比于大模型常用的數(shù)據(jù)中心內(nèi)多機(jī)多卡集中部署環(huán)境,跨不同區(qū)域基站的邊緣服務(wù)器間存在很大的網(wǎng)絡(luò)時(shí)延,嚴(yán)重影響協(xié)同推理效率。最后,移動(dòng)運(yùn)營(yíng)商會(huì)不時(shí)發(fā)生故障,在主要負(fù)責(zé)通信管理的基站邊緣服務(wù)器上附加大模型推理功能,進(jìn)一步增加了工作負(fù)載和故障風(fēng)險(xiǎn)。

    4、當(dāng)前有一些適用于分布式環(huán)境的大模型推理框架,典型方案包括petals和fastdecode。petals通過(guò)將推理任務(wù)分解并在多個(gè)異構(gòu)節(jié)點(diǎn)上并行執(zhí)行,以加速大規(guī)模模型的推理過(guò)程。然而在弱網(wǎng)絡(luò)環(huán)境下,特別是跨區(qū)域場(chǎng)景中,其數(shù)據(jù)傳輸延遲問(wèn)題尤為明顯;同時(shí)其調(diào)度算法簡(jiǎn)單,資源分配不平衡,易出現(xiàn)部分節(jié)點(diǎn)長(zhǎng)時(shí)間空閑,而影響系統(tǒng)整體效率。fastdecode采用了較復(fù)雜的資源調(diào)度算法,并具備一系列優(yōu)化措施以提升推理速度和準(zhǔn)確性,但其在跨區(qū)域弱網(wǎng)絡(luò)環(huán)境下效果顯著下降,因?yàn)橐环矫嫫滟Y源調(diào)度高度依賴(lài)于網(wǎng)絡(luò)穩(wěn)定性和帶寬,另一方面數(shù)據(jù)預(yù)取和緩存機(jī)制等優(yōu)化措施在弱網(wǎng)下無(wú)法有效運(yùn)作,反而引入了額外的時(shí)延。綜上,現(xiàn)有分布式大模型推理方案很難適用于5g等移動(dòng)邊緣側(cè)進(jìn)行大模型推理,無(wú)法滿(mǎn)足越來(lái)越多移動(dòng)應(yīng)用的智能化服務(wù)需求。


    技術(shù)實(shí)現(xiàn)思路

    1、本專(zhuān)利技術(shù)提供了一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法及裝置,用于解決現(xiàn)有技術(shù)中大模型推理過(guò)程中所存在的推理效率低下的問(wèn)題。

    2、本專(zhuān)利技術(shù)提供的一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,所述方法包括:

    3、基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;

    4、接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);

    5、基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;

    6、所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

    7、可選的,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    8、當(dāng)?shù)谝还ぷ鞴?jié)點(diǎn)集為非空時(shí),將所述大模型分塊分配給第一工作節(jié)點(diǎn)集;

    9、計(jì)算分配后的所述第一工作節(jié)點(diǎn)集是否包括閑置工作節(jié)點(diǎn);

    10、若是,則分離所述閑置工作節(jié)點(diǎn)并形成第二工作節(jié)點(diǎn)集。

    11、可選的,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    12、可選的,所述方法還包括:

    13、獲取第一時(shí)間,所述第一時(shí)間為網(wǎng)絡(luò)傳輸時(shí)間tt、計(jì)算完成時(shí)間tc和請(qǐng)求等待時(shí)間tq之和;

    14、最小化所述第一時(shí)間以作為優(yōu)化目標(biāo);

    15、基于所述優(yōu)化目標(biāo)選擇所述工作節(jié)點(diǎn)以進(jìn)行推理。

    16、可選的,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;

    17、若是,將所述工作節(jié)點(diǎn)的執(zhí)行任務(wù)遷移至其他所述工作節(jié)點(diǎn)。

    18、可選的,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:

    19、采集所述工作節(jié)點(diǎn)的資源占用率以及帶寬利用率;

    20、當(dāng)所述資源占用率超過(guò)資源占用閾值或帶寬利用率超過(guò)帶寬利用閾值時(shí),所述工作節(jié)點(diǎn)為異常。

    21、可選的,所述方法包括:當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí),動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小,并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。

    22、可選的,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:

    23、計(jì)算所述推理任務(wù)的隊(duì)列長(zhǎng)度與批量大小的比值;

    24、當(dāng)比值大于1時(shí),增大所述批量大小;當(dāng)比值小于0.5時(shí),減少所述批量大小。

    25、本專(zhuān)利技術(shù)中一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,所述裝置包括:

    26、處理單元,用于基于分布式哈希表動(dòng)態(tài)感知多個(gè)工作節(jié)點(diǎn)中圖形處理器的可用資源情況,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn);所述可用資源情況表征未分配的工作節(jié)點(diǎn)集;

    27、接收單元,用于接收用戶(hù)推理請(qǐng)求,所述推理請(qǐng)求中至少包括一個(gè)或多個(gè)推理任務(wù);

    28、第一分配單元,用于基于所述工作節(jié)點(diǎn)分配的大模型分塊,將所述推理任務(wù)分配至一個(gè)或多個(gè)管理節(jié)點(diǎn);每個(gè)所述管理節(jié)點(diǎn)所在區(qū)域包括一個(gè)工作節(jié)點(diǎn)集;

    29、第二分配單元,用于所述管理節(jié)點(diǎn)將所述推理任務(wù)分配至本區(qū)域的所述工作節(jié)點(diǎn)集以進(jìn)行推理;所述工作節(jié)點(diǎn)集包括多個(gè)工作節(jié)點(diǎn)。

    30、本專(zhuān)利技術(shù)的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上任意一項(xiàng)所述方法。

    31、本專(zhuān)利技術(shù)方法及裝置能夠有效利用跨地理分布區(qū)域的低端邊緣設(shè)備(如低功耗5g邊緣服務(wù)器)實(shí)現(xiàn)大模型推理。不僅可以提升分布式推理任務(wù)的效率,還能實(shí)現(xiàn)資源的靈活分配和系統(tǒng)的高可靠性,也適用于公司、大學(xué)等多方組織機(jī)構(gòu)利用閑置設(shè)備協(xié)同推理等其他相關(guān)場(chǎng)景。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:

    5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸或故障;

    6.根據(jù)權(quán)利要求5所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述工作節(jié)點(diǎn)的狀態(tài)包括:資源占用率以及帶寬利用率,所述方法包括:

    7.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:當(dāng)并發(fā)接收多個(gè)所述用戶(hù)推理請(qǐng)求時(shí),動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小,并對(duì)所述工作節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)進(jìn)行量化處理。

    8.根據(jù)權(quán)利要求7所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,動(dòng)態(tài)調(diào)整所述推理任務(wù)的批量大小:

    9.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理裝置,其特征在于,所述裝置包括:

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如上權(quán)利要求1-8任意一項(xiàng)所述方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,根據(jù)所述可用資源情況將大模型分塊分配至所述工作節(jié)點(diǎn)包括:

    3.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:基于跨域的所述工作節(jié)點(diǎn)間的實(shí)時(shí)網(wǎng)絡(luò)時(shí)延,選擇所述推理請(qǐng)求的最優(yōu)推理協(xié)同路由以進(jìn)行推理;所述最優(yōu)推理協(xié)同路由為所述大模型分塊間的結(jié)果數(shù)據(jù)最優(yōu)傳輸路徑。

    4.根據(jù)權(quán)利要求3所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:

    5.根據(jù)權(quán)利要求1所述的基于跨域邊緣設(shè)備協(xié)同的大模型推理方法,其特征在于,所述方法還包括:采集所述工作節(jié)點(diǎn)的狀態(tài),根據(jù)所述狀態(tài)識(shí)別所述工作節(jié)點(diǎn)是否異常;所述異常包括:資源瓶頸...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:鄂金龍徐威王宇航彭暢王晶柴云鵬
    申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)人民大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 曰韩无码无遮挡A级毛片| 精品久久久久久中文字幕无码| 国产午夜无码福利在线看网站 | 亚洲AV区无码字幕中文色| 中文有码无码人妻在线| 亚洲区日韩区无码区| 精品欧洲AV无码一区二区男男| 丰满少妇人妻无码专区| 无码少妇一区二区性色AV| 日韩精品无码一区二区三区AV| 亚洲av无码专区在线观看亚| 国产亚洲精久久久久久无码| av无码aV天天aV天天爽| 无码一区18禁3D| 亚洲AV无码一区二区三区久久精品| 成年无码av片完整版| 熟妇人妻系列av无码一区二区| 无码一区二区波多野结衣播放搜索| 日韩国产精品无码一区二区三区| 中文字幕无码乱人伦| 中文字幕无码免费久久9一区9| 少妇无码太爽了不卡视频在线看 | 无码国内精品久久人妻麻豆按摩| 亚洲av无码一区二区三区天堂古代| 狠狠躁天天躁中文字幕无码 | 无码国产色欲XXXX视频| 国产免费无码AV片在线观看不卡| 日韩无码系列综合区| 国产精品无码DVD在线观看| 尤物永久免费AV无码网站| WWW久久无码天堂MV| 丰满爆乳无码一区二区三区| 成人麻豆日韩在无码视频| 国产做无码视频在线观看| 国产av无码久久精品| 中文字幕久无码免费久久| 国产精品无码一区二区三区电影| 亚洲AV无码一区二区三区系列| 无码人妻久久久一区二区三区 | 人妻无码久久一区二区三区免费| 亚洲AV无码码潮喷在线观看|