面向低資源語言的大語言模型訓練方法、裝置、設備及介質制造方法及圖紙

技術編號：44493931 閱讀：5 留言：0更新日期：2025-03-04 18:00

本公開提供了一種面向低資源語言的大語言模型訓練方法、裝置、設備及介質，涉及人工智能技術領域。該方法包括：獲取低資源語言數據并經預處理得到低資源語言無監督訓練數據；生成低資源語言詞表并對現有的模型進行詞表擴充；根據低資源語言無監督訓練數據結合第一低秩自適應模塊對詞表擴充后的模型進行無監督預訓練；根據低資源語言指令微調數據集結合第二低秩自適應模塊對預訓練后的模型進行指令微調；將高資源語言有監督語料分別輸入指令微調后的模型和現有成熟模型，分別得到負例和正例數據，以此生成基于模型反饋的強化學習低資源語言數據集，并結合第三低秩自適應模塊來對指令微調后的模型進行強化學習訓練。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及人工智能，更具體地，涉及一種面向低資源語言的大語言模型訓練方法、裝置、設備及介質。

技術介紹

1、近年來，隨著人工智能（artificial?intelligence,?ai）技術的迅速發展，基于深度學習的自然語言處理（natural?language?processing,?nlp）在諸多應用場景中得到了廣泛應用。大語言模型（large?language?model,?llm）作為當前nlp領域的核心技術之一，展現出在多種任務中處理自然語言的強大能力，如機器翻譯、文本生成、信息檢索、問答系統和情感分析等。大語言模型通過大規模語料庫的訓練，能夠理解和生成自然語言的復雜模式，并在許多實際應用中取得了顯著的成果。

2、在實現本公開構思的過程中，專利技術人發現相關技術中至少存在如下缺陷：這些大語言模型的訓練高度依賴于豐富的高資源語言數據（例如英語、漢語、法語等），而對于低資源語言（例如某些地區的少數民族語言或瀕危語言），由于缺乏足夠的訓練數據，導致模型的實際應用受到極大限制。

技術實現思路

1、鑒于上述問題，本公開提供了一種面向低資源語言的大語言模型訓練方法、裝置、設備及介質，用以解決現有大語言模型對低資源語言支持不足的技術問題。

2、本公開的一個方面提供了一種面向低資源語言的大語言模型訓練方法，包括：獲取低資源語言數據，并對低資源語言數據進行預處理，得到低資源語言無監督訓練數據；根據低資源語言無監督訓練數據生成低資源語言詞表，并利用低資源語言詞表對現有

3、根據本公開的實施例，對低資源語言數據進行預處理，得到低資源語言無監督訓練數據包括：對低資源語言數據進行噪聲清除處理；對噪聲清除處理后的低資源語言數據進行格式標準化處理；對格式標準化處理后的低資源語言數據進行多語言數據過濾處理；對多語言數據過濾處理后的低資源語言數據進行隱私信息去除處理；根據隱私信息去除處理后的低資源語言數據，生成低資源語言無監督訓練數據。

4、根據本公開的實施例，利用低資源語言詞表對現有的第一大語言模型進行詞表擴充包括：?將低資源語言詞表和現有的第一大語言模型的詞表進行合并處理，得到合并后的詞表；根據合并后的詞表，對現有的第一大語言模型的頭部層進行擴充，使其適配擴充后的詞表，實現對低資源語言的支持，其中，頭部層包括嵌入層和輸出層。

5、根據本公開的實施例，結合第一低秩自適應模塊對詞表擴充后的第一大語言模型進行無監督預訓練包括：為詞表擴充后的第一大語言模型增設第一旁支，其中，第一旁支被配置為能夠通過引入第一低秩矩陣來簡化模型的參數調整；將低資源語言無監督訓練數據輸入詞表擴充后的第一大語言模型進行無監督預訓練，其中，在預訓練過程中，固定模型初始化參數不變，只訓練第一旁支的參數。

6、根據本公開的實施例，獲取高資源語言有監督語料，并根據高資源語言有監督語料生成低資源語言有監督語料包括：獲取高資源語言有監督語料，采用機器翻譯技術將高資源語言有監督語料翻譯為低資源語言；利用基于自監督學習的平行語句挖掘方法和標簽遷移方法，從高資源語言有監督語料中挖掘并標注低資源語言的偽標注數據；利用語料質量評估算法，對偽標注數據進行置信度評分；通過篩選去除低于置信度評分閾值的偽標注數據，得到低資源語言有監督語料。

7、根據本公開的實施例，根據低資源語言指令微調數據集，結合第二低秩自適應模塊對預訓練后的第一大語言模型進行指令微調包括：為預訓練后的第一大語言模型增設第二旁支，其中，第二旁支被配置為能夠通過引入第二低秩矩陣來簡化模型的參數調整；將低資源語言指令微調數據集輸入預訓練后的第一大語言模型進行指令微調，其中，在指令微調過程中，固定模型初始化參數不變，只訓練第二旁支的參數。

8、根據本公開的實施例，根據強化學習低資源語言數據集，對指令微調后的第一大語言模型進行強化學習訓練，得到目標大語言模型包括：根據強化學習低資源語言數據集，利用直接偏好優化算法結合第三低秩自適應模塊對指令微調后的第一大語言模型進行強化學習訓練，得到目標大語言模型。

9、本公開的另一個方面提供了一種面向低資源語言的大語言模型訓練裝置，包括：第一獲取模塊，用于獲取低資源語言數據，并對低資源語言數據進行預處理，得到低資源語言無監督訓練數據；詞表擴充模塊，用于根據低資源語言無監督訓練數據生成低資源語言詞表，并利用低資源語言詞表對現有的第一大語言模型進行詞表擴充，使得詞表擴充后的第一大語言模型能夠支持低資源語言；無監督預訓練模塊，用于根據低資源語言無監督訓練數據，結合第一低秩自適應模塊對詞表擴充后的第一大語言模型進行無監督預訓練，使得預訓練后的第一大語言模型能夠適應低資源語言的語言模式和語法特性；第二獲取模塊，用于獲取高資源語言有監督語料，并根據高資源語言有監督語料生成低資源語言有監督語料；轉換模塊，用于對低資源語言有監督語料進行指令微調轉換處理，生成低資源語言指令微調數據集；指令微調模塊，用于根據低資源語言指令微調數據集，結合第二低秩自適應模塊對預訓練后的第一大語言模型進行指令微調，使得指令微調后的第一大語言模型能夠在多種低資源語言任務環境下執行不同的任務指令；模型反饋數據生成模塊，用于將高資源語言有監督語料分別輸入指令微調后的第一大語言模型和現有的第二大語言模型，分別得到負例數據和正例數據，并根據負例數據和正例數據，生成基于模型反饋的強化學習低資源語言數據集；強化學習模塊，用于根據強化學習低資源語言數據集，結合第三低秩自適應模塊對指令微調后的第一大語言模型進行強化學習訓練，得到目標大語言模型。

10、本公開的另一個方面提供了一種電子設備，包括：一個或多個處理器；存儲器，用于存儲一個或多個程序；其中，當一個或多個程序被一個或多個處理器執行時，使得一個或多個處理器實現如上的方法。

11、本公開的另一方面提供了一種計算機可讀存儲介質，存儲有計算機可執行指令，指令在被執行時用于實現如上的方法。

12、本公開的另一方面提供本文檔來自技高網...

【技術保護點】

1.一種面向低資源語言的大語言模型訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述低資源語言數據進行預處理，得到低資源語言無監督訓練數據包括：

3.根據權利要求2所述的方法，其特征在于，所述利用所述低資源語言詞表對現有的第一大語言模型進行詞表擴充包括：

4.根據權利要求1所述的方法，其特征在于，所述根據所述低資源語言無監督訓練數據，結合第一低秩自適應模塊對詞表擴充后的第一大語言模型進行無監督預訓練包括：

5.根據權利要求1所述的方法，其特征在于，所述獲取高資源語言有監督語料，并根據所述高資源語言有監督語料生成低資源語言有監督語料包括：

6.根據權利要求1所述的方法，其特征在于，所述根據所述低資源語言指令微調數據集，結合第二低秩自適應模塊對預訓練后的第一大語言模型進行指令微調包括：

7.根據權利要求1所述的方法，其特征在于，所述根據所述強化學習低資源語言數據集，結合第三低秩自適應模塊對指令微調后的第一大語言模型進行強化學習訓練，得到目標大語言模型包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀存儲介質，其上存儲有可執行指令，其特征在于，該指令被處理器執行時使處理器執行根據權利要求1~7中任一項所述的方法。

...

【技術特征摘要】

1.一種面向低資源語言的大語言模型訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述低資源語言數據進行預處理，得到低資源語言無監督訓練數據包括：

3.根據權利要求2所述的方法，其特征在于，所述利用所述低資源語言詞表對現有的第一大語言模型進行詞表擴充包括：

5.根據權利要求1所述的方法，其特征在于，所述獲取高資源語言有監督語料，并根據所述高資源語言有監督語料生成低資源語言有監督語料包括：...

【專利技術屬性】
技術研發人員：周喜，艾比布拉·阿塔伍拉，楊奉毅，楊雅婷，馬博，艾合塔木江·艾合麥提，魯凱文，畢然，
申請(專利權)人：中國科學院新疆理化技術研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術