System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能?,尤其涉及一種面向混合專家大模型的動態高效路由方法及裝置。
技術介紹
1、大型語言模型(large?language?models?,llms)在參數數量大幅增加的同時,其訓練和推理的計算成本也顯著提高。混合專家(mixture-of-experts,?moe)架構通過引入專家網絡和路由策略來平衡模型規模和計算成本。但是,現有技術中的moe大模型多采用固定數量的top-k專家進行處理,缺乏對不同復雜性詞元(token)的適應性,導致資源分配不均和效率不高。
技術實現思路
1、本專利技術提供一種面向混合專家大模型的動態高效路由方法及裝置,用以解決現有技術中采用固定數量的top-k專家進行處理,缺乏對不同復雜性token的適應性,導致資源分配不均和效率不高的缺陷,實現模型性能和效率的最優化。?本專利技術提出的技術方案如下:
2、第一方面,本專利技術提供一種面向混合專家大模型的動態高效路由方法,包括:
3、獲取輸入數據和預先訓練的混合專家大模型,其中,所述混合專家大模型包括分配器模塊和路由器;
4、將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量;
5、利用路由器根據最優專家數量為每個詞元選擇專家組合,并將每個詞元路由到對應的專家組合。
6、可選地,在將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量之前,所述方法還包括:
7、使用策略梯度算法訓練所述分配器模塊。
8、可選地,所述使用策略梯度算法訓練所述分配器模塊,包括:
9、對于每個訓練樣本,將訓練樣本分解為多個詞元;
10、使用分配器模塊為每個詞元生成專家數量的概率分布;
11、根據概率分布進行采樣,確定激活的專家數量;
12、使用激活的專家對詞元進行推理,并計算相應的性能指標;
13、將所述激活的專家數量和性能指標輸入預先定義的獎勵函數計算每個訓練樣本的獎勵值;
14、基于獎勵值使用策略梯度算法更新分配器模塊的策略參數,使期望回報最大化。
15、可選地,所述分配器模塊包括輸入層、至少一個隱藏層和輸出層;
16、所述將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量,包括:
17、將輸入數據分為多個詞元,并為每個詞元生成表示向量;
18、輸入層接收每個詞元的表示向量;
19、至少一個隱藏層提取每個表示向量的詞元特征;
20、輸出層根據每個表示向量的詞元特征輸出每個詞元對應的專家數量的概率分布,并基于專家數量的概率分布進行采樣,為每個詞元選擇最優專家數量。
21、可選地,所述專家組合包括至少一個專家模型;所述方法還包括:
22、基于專家組合中的每個專家模型對詞元進行處理,并生成相應的輸出結果;
23、將不同專家模型的輸出結果進行聚合,得到模型輸出。
24、可選地,在使用策略梯度算法訓練所述分配器模塊之前,所述方法還包括:
25、將混合專家大模型中的每個moe層替換為包括分配器模塊的動態k路由層。
26、第二方面,本專利技術還提供一種面向混合專家大模型的動態高效路由裝置,所述裝置包括如下模塊:
27、獲取模塊,用于獲取輸入數據和預先訓練的混合專家大模型,其中,所述混合專家大模型包括分配器模塊和路由器;
28、分配模塊,用于將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量;
29、路由模塊,用于利用路由器根據最優專家數量為每個詞元選擇專家組合,并將每個詞元路由到對應的專家組合。
30、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述第一方面所述面向混合專家大模型的動態高效路由方法。
31、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述第一方面所述面向混合專家大模型的動態高效路由方法。
32、第五方面,本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述第一方面所述面向混合專家大模型的動態高效路由方法。
33、基于上述技術方案,本專利技術較現有技術而言的有益效果為:
34、本專利技術提供的面向混合專家大模型的動態高效路由方法及裝置,通過將輸入數據分為多個詞元,并利用分配器模塊確定每個詞元的最優專家數量,能夠根據每個詞元的難度和重要性自適應地調整激活的專家數量,通過一種輕量級分配器模塊動態確定每個詞元的最優專家數量,這種機制不僅提高了計算資源的利用效率,而且通過精細化的資源分配,進一步提升了模型的性能。
35、本專利技術的其他特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本專利技術而了解。本專利技術的目的和其他優點在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
36、為使本專利技術的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
本文檔來自技高網...【技術保護點】
1.一種面向混合專家大模型的動態高效路由方法,其特征在于,包括:
2.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,在將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量之前,所述方法還包括:
3.根據權利要求2所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述使用策略梯度算法訓練所述分配器模塊,包括:
4.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述分配器模塊包括輸入層、至少一個隱藏層和輸出層;
5.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述專家組合包括至少一個專家模型;所述方法還包括:
6.根據權利要求2所述的面向混合專家大模型的動態高效路由方法,其特征在于,在使用策略梯度算法訓練所述分配器模塊之前,所述方法還包括:
7.一種面向混合專家大模型的動態高效路由裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述面向混合專家大模型的動態高效路由方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述面向混合專家大模型的動態高效路由方法。
...【技術特征摘要】
1.一種面向混合專家大模型的動態高效路由方法,其特征在于,包括:
2.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,在將輸入數據分為多個詞元,利用分配器模塊確定每個詞元的最優專家數量之前,所述方法還包括:
3.根據權利要求2所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述使用策略梯度算法訓練所述分配器模塊,包括:
4.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述分配器模塊包括輸入層、至少一個隱藏層和輸出層;
5.根據權利要求1所述的面向混合專家大模型的動態高效路由方法,其特征在于,所述專家組合包括至少一個專家模型;所述方法還包括:
6.根據權利要求2所述的面向混合專家大模型的動態高效...
【專利技術屬性】
技術研發人員:郭龍騰,劉靜,岳同天,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。