System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能及金融科技領域,尤其涉及基于混合專家模型的文本處理方法、裝置、設備及介質。
技術介紹
1、在大語言模型的訓練和推理過程中,參數量是提升模型性能的關鍵因素之一。混合專家模型(moe)通過激活部分專家網絡來完成稠密模型相同質量水平的任務,因此能夠在遠少于稠密模型所需的計算資源下進行有效的訓練與推理,從而減少計算資源。
2、目前的混合專家模型中決定激活的門控網絡通常使用卷積神經網絡或簡單的transformer等結構提取樣本特征并激活相應專家網絡,然而因為負載均衡,各個專家網絡并不像理想中那樣各自負載一個專業領域的知識,即目前基于負載均衡的激活方式具有一定程度的隨機性,會降低專家網絡的專業化程度,從而降低模型推理輸出的準確性和可靠性。
技術實現思路
1、鑒于上述現有技術的不足,本專利技術的目的在于提供可應用于金融科技或其它相關領域的基于混合專家模型的文本處理方法、裝置、設備及介質,其主要目的在于提高混合專家模型在專業領域的解釋能力,提高整體模型的運行效率和輸出準確性。
2、本專利技術的技術方案如下:
3、本專利技術第一方面提供一種基于混合專家模型的文本處理方法,包括:
4、接收用戶輸入的待處理文本;
5、將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果;
6、根據所述領域匹配結果按預設激活策略在n個專家模型中激活m個專家模型,并配置當前激活的m個專家模型的權重
7、將所述待處理文本輸入到當前激活的m個專家模型中進行文本處理后生成相應的最終輸出文本。
8、本專利技術第二方面提供一種基于混合專家模型的文本處理裝置,包括:
9、接收模塊,用于接收用戶輸入的待處理文本;
10、領域匹配模塊,用于將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果;
11、激活配置模塊,用于根據所述領域匹配結果按預設激活策略在n個專家模型中激活m個專家模型,并配置當前激活的m個專家模型的權重,其中m≤n;
12、文本處理模塊,用于將所述待處理文本輸入到當前激活的m個專家模型中進行文本處理后生成相應的最終輸出文本。
13、本專利技術第三方面提供一種計算機設備,包括至少一個處理器;以及,
14、與所述至少一個處理器通信連接的存儲器;其中,
15、所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述基于混合專家模型的文本處理方法。
16、本專利技術第四方面提供一種非易失性計算機可讀存儲介質,所述非易失性計算機可讀存儲介質存儲有計算機可執行指令,該計算機可執行指令被一個或多個處理器執行時,可使得所述一個或多個處理器執行上述的基于混合專家模型的文本處理方法。
17、有益效果:本專利技術公開了基于混合專家模型的文本處理方法、裝置、設備及介質,相比于現有技術,本專利技術實施例接收用戶輸入的待處理文本;將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果;根據所述領域匹配結果按預設激活策略在n個專家模型中激活m個專家模型,并配置當前激活的m個專家模型的權重,其中m≤n;將所述待處理文本輸入到當前激活的m個專家模型中進行文本處理后生成相應的最終輸出文本。通過將文本與不同專家模型的專業領域進行匹配,識別出最適合處理該文本的模型,確保激活的專家模型所擅長的領域與待處理文本之間相適配,從而提高混合專家模型在專業領域的解釋能力,并且通過配置當前激活的專家模型的權重,可以進一步根據不同專家模型的輸出貢獻來優化輸出結果,提高整體模型的運行效率和輸出準確性。
本文檔來自技高網...【技術保護點】
1.一種基于混合專家模型的文本處理方法,其特征在于,包括:
2.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所述接收用戶輸入的待處理文本之前,方法還包括:
3.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所述將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果,包括:
4.根據權利要求3所述的基于混合專家模型的文本處理方法,其特征在于,所述對所述待處理文本進行向量轉換,生成所述待處理文本的輸入向量之后,方法還包括:
5.根據權利要求3所述的基于混合專家模型的文本處理方法,其特征在于,所述將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果之前,方法還包括:
6.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所述根據所述領域匹配結果按預設激活策略在n個專家模型中激活m個專家模型,并配置當前激活的m個專家模型的權重,包括:
7.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所
8.一種基于混合專家模型的文本處理裝置,其特征在于,包括:
9.一種計算機設備,其特征在于,包括至少一個處理器;以及,
10.一種非易失性計算機可讀存儲介質,其特征在于,所述非易失性計算機可讀存儲介質存儲有計算機可執行指令,該計算機可執行指令被一個或多個處理器執行時,可使得所述一個或多個處理器執行權利要求1-7任一項所述的基于混合專家模型的文本處理方法。
...【技術特征摘要】
1.一種基于混合專家模型的文本處理方法,其特征在于,包括:
2.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所述接收用戶輸入的待處理文本之前,方法還包括:
3.根據權利要求1所述的基于混合專家模型的文本處理方法,其特征在于,所述將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果,包括:
4.根據權利要求3所述的基于混合專家模型的文本處理方法,其特征在于,所述對所述待處理文本進行向量轉換,生成所述待處理文本的輸入向量之后,方法還包括:
5.根據權利要求3所述的基于混合專家模型的文本處理方法,其特征在于,所述將所述待處理文本與混合專家模型中n個專家模型對應的專業領域進行匹配,生成領域匹配結果之前,方法還包括:
6.根據權利...
【專利技術屬性】
技術研發人員:劉紋石,
申請(專利權)人:中國平安財產保險股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。