System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及一種基于上復用混合多樣性專家大模型的代碼生成方法及裝置。
技術介紹
1、大語言模型llm(large?language?model)指可以處理多種自然語言任務且具有大量參數的深度學習模型。代碼大模型指用于代碼生成的大語言模型,而代碼大模型的增強生成旨在為經過預訓練后的代碼大模型進行進一步設計,從而提升該模型生成代碼的質量。
2、相關代碼大模型的代碼生成技術中,基于混合專家(mixture?of?experts,moe)架構的llm是llm領域的熱點研究方向之一,目前基于moe架構的llm可以通過更少激活參數來實現更好的效果。通常,moe架構的稀疏llm和稠密(dense)llm類似,需要從頭進行訓練。最新的方案中使用上復用(upcycling)的方式通過將原始稠密模型的前向反饋網絡(feedforwad?network)進行復制得到多個專家,并增加門控路由機制,模型的其他部件與原始稠密模型保持不變,在此基礎上再進行訓練。
3、采用上述技術方案的代碼大模型,部分復用了稠密模型訓練的沉淀成本,較從頭訓練的方式能夠節省算力,但是采用這種代碼大模型生成的代碼準確率低。
技術實現思路
1、本專利技術提供一種基于上復用混合多樣性專家大模型的代碼生成方法及裝置,用以解決現有技術中代碼大模型生成的代碼準確率低的技術問題。
2、第一方面,本專利技術提供一種基于上復用混合多樣性專家大模型的代碼生成方法,包括:
3、獲取代碼
4、將所述代碼描述信息輸入至經過訓練的代碼大模型,獲取所述代碼大模型輸出的代碼;
5、所述代碼大模型為基于上復用混合多樣性專家的大模型;所述代碼大模型是在稠密模型的基礎上增加一個共享專家和m個普通專家構建而成;所述共享專家復用所述稠密模型的ffn模塊的參數;所述共享專家用于提取詞元的通用知識;所述普通專家采用隨機初始化的方式進行初始化參數;所述普通專家用于提取詞元的專用知識,其中m為大于或等于2的整數。
6、在一些實施例中,所述代碼大模型還包括路由網絡和求和模塊;
7、所述路由網絡用于將每個待處理詞元送入對應的n個普通專家;n為大于或等于2的整數,n小于或等于m;
8、所述求和模塊用于對所述n個普通專家輸出的詞元和所述共享專家輸出的詞元進行求和。
9、在一些實施例中,對所述n個普通專家輸出的詞元和所述共享專家輸出的詞元進行求和,包括:
10、對所述n個普通專家輸出的詞元進行加權求和,得到求和結果;
11、對所述求和結果和所述共享專家輸出的詞元進行求和。
12、在一些實施例中,所述路由網絡用于基于每一普通專家的權重矩陣確定每一普通專家的得分,并確定得分最高的n個普通專家用于處理詞元。
13、在一些實施例中,所述方法還包括:
14、確定共享專家的詞元輸出差異和普通專家的詞元輸出差異;
15、基于所述共享專家的詞元輸出差異和所述普通專家的詞元輸出差異確定多樣性損失函數值;
16、基于所述多樣性損失函數值確定總損失;
17、基于所述總損失指導所述代碼大模型的訓練。
18、在一些實施例中,所述稠密模型為deepseek-coder-base?1.3b模型。
19、第二方面,本專利技術還提供一種基于上復用混合多樣性專家大模型的代碼生成裝置,包括:
20、獲取模塊,用于獲取代碼描述信息;
21、生成模塊,用于將所述代碼描述信息輸入至經過訓練的代碼大模型,獲取所述代碼大模型輸出的代碼;
22、所述代碼大模型為基于上復用混合多樣性專家的大模型;所述代碼大模型是在稠密模型的基礎上增加一個共享專家和m個普通專家構建而成;所述共享專家復用所述稠密模型的ffn模塊的參數;所述共享專家用于提取詞元的通用知識;所述普通專家采用隨機初始化的方式進行初始化參數;所述普通專家用于提取詞元的專用知識,其中m為大于或等于2的整數。
23、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述基于上復用混合多樣性專家大模型的代碼生成方法。
24、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述基于上復用混合多樣性專家大模型的代碼生成方法。
25、第五方面,本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述基于上復用混合多樣性專家大模型的代碼生成方法。
26、本專利技術提供的基于上復用混合多樣性專家大模型的代碼生成方法及裝置,在稠密模型的基礎上增加一個共享專家和多個普通專家構建代碼大模型,采用多樣性上復用機制,增大了專家之間的差異性,減少不同專家抽取到的信息之間存在的冗余,提高了生成的代碼的準確率。
本文檔來自技高網...【技術保護點】
1.一種基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,包括:
2.根據權利要求1所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述代碼大模型還包括路由網絡和求和模塊;
3.根據權利要求2所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,對所述N個普通專家輸出的詞元和所述共享專家輸出的詞元進行求和,包括:
4.根據權利要求2所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述路由網絡用于基于每一普通專家的權重矩陣確定每一普通專家的得分,并確定得分最高的N個普通專家用于處理詞元。
5.根據權利要求1所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述方法還包括:
6.根據權利要求1至5任一項所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述稠密模型為DeepSeek-Coder-Base?1.3B模型。
7.一種基于上復用混合多樣性專家大模型的代碼生成裝置,其特征在于,包括:
8.一種電子設備,包括存儲器、處
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于上復用混合多樣性專家大模型的代碼生成方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于上復用混合多樣性專家大模型的代碼生成方法。
...【技術特征摘要】
1.一種基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,包括:
2.根據權利要求1所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述代碼大模型還包括路由網絡和求和模塊;
3.根據權利要求2所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,對所述n個普通專家輸出的詞元和所述共享專家輸出的詞元進行求和,包括:
4.根據權利要求2所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述路由網絡用于基于每一普通專家的權重矩陣確定每一普通專家的得分,并確定得分最高的n個普通專家用于處理詞元。
5.根據權利要求1所述的基于上復用混合多樣性專家大模型的代碼生成方法,其特征在于,所述方法還包括:
6.根據權利要求1至5任一項所述的基于上復用混合多樣性專家大模...
【專利技術屬性】
技術研發人員:王方圓,齊帥,徐博,徐波,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。