一種基于記憶增強的大語言模型檢索微調方法技術

技術編號：44404222 閱讀：5 留言：0更新日期：2025-02-25 10:18

本發明專利技術公開了一種基于記憶增強的大語言模型檢索微調方法，該方法包括：對文本序列庫中的文本序列進行逐層稠密向量表示；逐層對齊性分析得到每層對齊性損失值；逐層均勻性分析得到每層均勻性損失值；根據每層對齊性損失值和每層均勻性損失值得到最優對齊層和最優均勻層；將最優對齊層和最優均勻層輸入至檢索微調模塊得到最終輸出向量；將最終輸出向量帶入交叉熵訓練損失函數中，通過最小化交叉熵訓練損失函數的值，得到檢索微調模塊的模型參數。本發明專利技術實現了在不微調大語言模型內部參數并且保留其原始生成能力的同時進行有效的文本檢索，完成了文本檢索和文本生成的模型兼容，為構建大語言模型的長期記憶模塊提供了技術基礎。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于自然語言處理和信息檢索，尤其涉及一種基于記憶增強的大語言模型檢索微調方法。

技術介紹

1、在構建通用人工智能框架的藍圖中，記憶模塊被視為通用人工智能的核心組件之一，其可以有效保留需要長期留存的信息，并以記憶的形式幫助大語言模型(largelanguage?model,大語言模型)在各類任務中進行更好地規劃和決策。近幾年涌現出了諸多可用于增強大語言模型短期記憶的方法，這些方法通過為transformer改良注意力機制或增加循環網絡機制，來賦予大語言模型利用歷史信息的能力。但這些方法可利用的歷史信息規模有限，難以運用于長期記憶階段。

2、目前，增強大語言模型長期記憶的主流方法是稠密檢索(dense?retrieval,dr)，其可以將大語言模型已處理或生成過的大量信息壓縮成稠密向量用于長期存儲，并支持從大規模記憶向量中快速檢索回與當前文本生成任務相關的記憶信息。然而，由于文本檢索和文本生成任務范式的異構性，現有絕大多數研究中dr模型和大語言模型生成模型是相對獨立的。其通常需要重新微調一個大語言模型作為一個特定的檢索模塊來支撐大語言模型的生成功能，但是這種訓練方式成本較高；另外，大語言模型也將退化為一種檢索任務特定的模型，致使其與大語言模型處理各類自然語言任務的生成范式不兼容，限制了將大語言模型發展為各類自然語言處理與生成任務的通用基座的愿景。

技術實現思路

1、本專利技術解決的技術問題是：克服現有技術的不足，提供了一種基于記憶增強的大語言模型檢索微調方法，實現

2、本專利技術目的通過以下技術方案予以實現：一種基于記憶增強的大語言模型檢索微調方法，包括：將預設文本序列庫中的文本序列x經大語言模型映射得到第一逐層向量序列，將第一逐層向量序列通過平均池化處理得到第一逐層稠密向量；將預設文本序列庫中的文本序列x的相關文本序列x+經大語言模型映射得到第二逐層向量序列，將第二逐層向量序列通過平均池化處理得到第二逐層稠密向量；將預設文本序列庫中的文本序列y經大語言模型映射得到第三逐層向量序列，將第三逐層向量序列通過平均池化處理得到第三逐層稠密向量；根據第一逐層稠密向量和第二逐層稠密向量得到每層對齊性損失值；根據第一逐層稠密向量和第三逐層稠密向量得到每層均勻性損失值；根據每層對齊性損失值和每層均勻性損失值得到文本序列x的最優對齊向量序列、文本序列x的最優均勻向量序列、文本序列x+的最優對齊向量序列、文本序列x+的最優均勻向量序列、文本序列y的最優對齊向量序列、文本序列y的最優均勻向量序列；將文本序列x的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中，輸出文本序列x的輸出向量序列，對文本序列x的輸出向量序列通過平均池化處理得到文本序列x的最終輸出向量；將序列文本x+的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中，輸出文本序列x+的輸出向量序列，對文本序列x+的輸出向量序列通過平均池化處理得到文本序列x+的最終輸出向量；將序列文本y的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中，輸出文本序列y的輸出向量序列，對文本序列y的輸出向量序列通過平均池化處理得到文本序列y的最終輸出向量；將文本序列x的最終輸出向量、序列文本x+的最終輸出向量和文本序列y的最終輸出向量帶入交叉熵訓練損失函數中，通過最小化交叉熵訓練損失函數的值，得到檢索微調模塊的模型參數。

3、上述基于記憶增強的大語言模型檢索微調方法中，對于任意文本序列x，都存在人工標注出的相關文本序列x+；定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

4、上述基于記憶增強的大語言模型檢索微調方法中，每層對齊性損失值通過如下公式得到：

5、

6、其中，為每層對齊性損失值，xl為第一逐層稠密向量，x+,l為第二逐層稠密向量，為計算期望的函數，為計算歐幾里得范數(二范數)的平方值的操作。

7、上述基于記憶增強的大語言模型檢索微調方法中，每層均勻性損失值通過如下公式得到：

8、

9、其中，為每層均勻性損失值，xl為第一逐層稠密向量，yl為第三逐層稠密向量，為計算期望的函數，為計算歐幾里得范數(二范數)的平方值的操作。

10、上述基于記憶增強的大語言模型檢索微調方法中，交叉熵訓練損失函數為：

11、

12、其中，ox為文本序列x的最終輸出向量，為序列文本x+的最終輸出向量，oy為文本序列y的最終輸出向量，θ為檢索微調模塊的模型參數，大語言模型為大預言模型參數。

13、一種基于記憶增強的大語言模型檢索微調系統，包括：第一模塊，用于將預設文本序列庫中的文本序列x經大語言模型映射得到第一逐層向量序列，將第一逐層向量序列通過平均池化處理得到第一逐層稠密向量；第二模塊，用于將預設文本序列庫中的文本序列x的相關文本序列x+經大語言模型映射得到第二逐層向量序列，將第二逐層向量序列通過平均池化處理得到第二逐層稠密向量；第三模塊，用于將預設文本序列庫中的文本序列y經大語言模型映射得到第三逐層向量序列，將第三逐層向量序列通過平均池化處理得到第三逐層稠密向量；第四模塊，用于根據第一逐層稠密向量和第二逐層稠密向量得到每層對齊性損失值；第五模塊，用于根據第一逐層稠密向量和第三逐層稠密向量得到每層均勻性損失值；第六模塊，用于根據每層對齊性損失值和每層均勻性損失值得到文本序列x的最優對齊向量序列、文本序列x的最優均勻向量序列、文本序列x+的最優對齊向量序列、文本序列x+的最優均勻向量序列、文本序列y的最優對齊向量序列、文本序列y的最優均勻向量序列；第七模塊，用于將文本序列x的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中輸出文本序列x的輸出向量序列，對文本序列x的輸出向量序列通過平均池化處理得到文本序列x的最終輸出向量；第八模塊，用于將序列文本x+的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中，輸出文本序列x+的輸出向量序列，對文本序列x+的輸出向量序列通過平均池化處理得到文本序列x+的最終輸出向量；第九模塊，用于將序列文本y的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中，輸出文本序列y的輸出向量序列，對文本序列y的輸出向量序列通過平均池化處理得到文本序列y的最終輸出向量；第十模塊，用于將文本序列x的最終輸出向量、序列文本x+的最終輸出向量和文本序列y的最終輸出向量帶入交叉熵訓練損失函數中，通過最小化交叉熵訓練損失函數的值，得到檢索微調模塊的模型參數。

14、上述基于記憶增強的大語言模型檢索微調系統中，對于任意文本序列x，都存在人工標注出的相關文本序列x+；定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

15、上述基于記憶增強的大語言模型檢索微調系統中，每層對齊性損失值通過本文檔來自技高網...

【技術保護點】

1.一種基于記憶增強的大語言模型檢索微調方法，其特征在于包括：

2.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：對于任意文本序列X，都存在人工標注出的相關文本序列X+；定義預設文本序列庫中除文本序列X和文本序列X+外的其他所有文本序列為序列文本Y。

3.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：每層對齊性損失值通過如下公式得到：

4.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：每層均勻性損失值通過如下公式得到：

5.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：交叉熵訓練損失函數為：

6.一種基于記憶增強的大語言模型檢索微調系統，其特征在于包括：

7.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統，其特征在于：對于任意文本序列X，都存在人工標注出的相關文本序列X+；定義預設文本序列庫中除文本序列X和文本序列X+外的其他所有文本序列為序列文本Y。

8.根據權利要求6所述的基于記憶增強的大

9.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統，其特征在于：每層均勻性損失值通過如下公式得到：

10.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統，其特征在于：交叉熵訓練損失函數為：

...

【技術特征摘要】

1.一種基于記憶增強的大語言模型檢索微調方法，其特征在于包括：

2.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：對于任意文本序列x，都存在人工標注出的相關文本序列x+；定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

3.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：每層對齊性損失值通過如下公式得到：

4.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：每層均勻性損失值通過如下公式得到：

5.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法，其特征在于：交叉熵訓練損失函數為：

...

【專利技術屬性】
技術研發人員：孫絲，高厚樸，黃虎，鄭本昌，李君，楊威，韋文書，劉峰，王佳林，徐驍翰，楊尚霖，邵子航，朱佳琳，李晟嘉，吳志壕，果昊涵，姚力煒，李絲然，董啟超，
申請(專利權)人：中國運載火箭技術研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術