System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产做无码视频在线观看,亚洲精品无码久久久,一道久在线无码加勒比
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于記憶增強的大語言模型檢索微調方法技術

    技術編號:44404222 閱讀:5 留言:0更新日期:2025-02-25 10:18
    本發明專利技術公開了一種基于記憶增強的大語言模型檢索微調方法,該方法包括:對文本序列庫中的文本序列進行逐層稠密向量表示;逐層對齊性分析得到每層對齊性損失值;逐層均勻性分析得到每層均勻性損失值;根據每層對齊性損失值和每層均勻性損失值得到最優對齊層和最優均勻層;將最優對齊層和最優均勻層輸入至檢索微調模塊得到最終輸出向量;將最終輸出向量帶入交叉熵訓練損失函數中,通過最小化交叉熵訓練損失函數的值,得到檢索微調模塊的模型參數。本發明專利技術實現了在不微調大語言模型內部參數并且保留其原始生成能力的同時進行有效的文本檢索,完成了文本檢索和文本生成的模型兼容,為構建大語言模型的長期記憶模塊提供了技術基礎。

    【技術實現步驟摘要】

    本專利技術屬于自然語言處理和信息檢索,尤其涉及一種基于記憶增強的大語言模型檢索微調方法


    技術介紹

    1、在構建通用人工智能框架的藍圖中,記憶模塊被視為通用人工智能的核心組件之一,其可以有效保留需要長期留存的信息,并以記憶的形式幫助大語言模型(largelanguage?model,大語言模型)在各類任務中進行更好地規劃和決策。近幾年涌現出了諸多可用于增強大語言模型短期記憶的方法,這些方法通過為transformer改良注意力機制或增加循環網絡機制,來賦予大語言模型利用歷史信息的能力。但這些方法可利用的歷史信息規模有限,難以運用于長期記憶階段。

    2、目前,增強大語言模型長期記憶的主流方法是稠密檢索(dense?retrieval,dr),其可以將大語言模型已處理或生成過的大量信息壓縮成稠密向量用于長期存儲,并支持從大規模記憶向量中快速檢索回與當前文本生成任務相關的記憶信息。然而,由于文本檢索和文本生成任務范式的異構性,現有絕大多數研究中dr模型和大語言模型生成模型是相對獨立的。其通常需要重新微調一個大語言模型作為一個特定的檢索模塊來支撐大語言模型的生成功能,但是這種訓練方式成本較高;另外,大語言模型也將退化為一種檢索任務特定的模型,致使其與大語言模型處理各類自然語言任務的生成范式不兼容,限制了將大語言模型發展為各類自然語言處理與生成任務的通用基座的愿景。


    技術實現思路

    1、本專利技術解決的技術問題是:克服現有技術的不足,提供了一種基于記憶增強的大語言模型檢索微調方法,實現了在不微調大語言模型內部參數并且保留其原始生成能力的同時進行有效的文本檢索,完成了文本檢索和文本生成的模型兼容,為構建大語言模型的長期記憶模塊提供了技術基礎。

    2、本專利技術目的通過以下技術方案予以實現:一種基于記憶增強的大語言模型檢索微調方法,包括:將預設文本序列庫中的文本序列x經大語言模型映射得到第一逐層向量序列,將第一逐層向量序列通過平均池化處理得到第一逐層稠密向量;將預設文本序列庫中的文本序列x的相關文本序列x+經大語言模型映射得到第二逐層向量序列,將第二逐層向量序列通過平均池化處理得到第二逐層稠密向量;將預設文本序列庫中的文本序列y經大語言模型映射得到第三逐層向量序列,將第三逐層向量序列通過平均池化處理得到第三逐層稠密向量;根據第一逐層稠密向量和第二逐層稠密向量得到每層對齊性損失值;根據第一逐層稠密向量和第三逐層稠密向量得到每層均勻性損失值;根據每層對齊性損失值和每層均勻性損失值得到文本序列x的最優對齊向量序列、文本序列x的最優均勻向量序列、文本序列x+的最優對齊向量序列、文本序列x+的最優均勻向量序列、文本序列y的最優對齊向量序列、文本序列y的最優均勻向量序列;將文本序列x的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中,輸出文本序列x的輸出向量序列,對文本序列x的輸出向量序列通過平均池化處理得到文本序列x的最終輸出向量;將序列文本x+的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中,輸出文本序列x+的輸出向量序列,對文本序列x+的輸出向量序列通過平均池化處理得到文本序列x+的最終輸出向量;將序列文本y的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中,輸出文本序列y的輸出向量序列,對文本序列y的輸出向量序列通過平均池化處理得到文本序列y的最終輸出向量;將文本序列x的最終輸出向量、序列文本x+的最終輸出向量和文本序列y的最終輸出向量帶入交叉熵訓練損失函數中,通過最小化交叉熵訓練損失函數的值,得到檢索微調模塊的模型參數。

    3、上述基于記憶增強的大語言模型檢索微調方法中,對于任意文本序列x,都存在人工標注出的相關文本序列x+;定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

    4、上述基于記憶增強的大語言模型檢索微調方法中,每層對齊性損失值通過如下公式得到:

    5、

    6、其中,為每層對齊性損失值,xl為第一逐層稠密向量,x+,l為第二逐層稠密向量,為計算期望的函數,為計算歐幾里得范數(二范數)的平方值的操作。

    7、上述基于記憶增強的大語言模型檢索微調方法中,每層均勻性損失值通過如下公式得到:

    8、

    9、其中,為每層均勻性損失值,xl為第一逐層稠密向量,yl為第三逐層稠密向量,為計算期望的函數,為計算歐幾里得范數(二范數)的平方值的操作。

    10、上述基于記憶增強的大語言模型檢索微調方法中,交叉熵訓練損失函數為:

    11、

    12、其中,ox為文本序列x的最終輸出向量,為序列文本x+的最終輸出向量,oy為文本序列y的最終輸出向量,θ為檢索微調模塊的模型參數,大語言模型為大預言模型參數。

    13、一種基于記憶增強的大語言模型檢索微調系統,包括:第一模塊,用于將預設文本序列庫中的文本序列x經大語言模型映射得到第一逐層向量序列,將第一逐層向量序列通過平均池化處理得到第一逐層稠密向量;第二模塊,用于將預設文本序列庫中的文本序列x的相關文本序列x+經大語言模型映射得到第二逐層向量序列,將第二逐層向量序列通過平均池化處理得到第二逐層稠密向量;第三模塊,用于將預設文本序列庫中的文本序列y經大語言模型映射得到第三逐層向量序列,將第三逐層向量序列通過平均池化處理得到第三逐層稠密向量;第四模塊,用于根據第一逐層稠密向量和第二逐層稠密向量得到每層對齊性損失值;第五模塊,用于根據第一逐層稠密向量和第三逐層稠密向量得到每層均勻性損失值;第六模塊,用于根據每層對齊性損失值和每層均勻性損失值得到文本序列x的最優對齊向量序列、文本序列x的最優均勻向量序列、文本序列x+的最優對齊向量序列、文本序列x+的最優均勻向量序列、文本序列y的最優對齊向量序列、文本序列y的最優均勻向量序列;第七模塊,用于將文本序列x的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中輸出文本序列x的輸出向量序列,對文本序列x的輸出向量序列通過平均池化處理得到文本序列x的最終輸出向量;第八模塊,用于將序列文本x+的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中,輸出文本序列x+的輸出向量序列,對文本序列x+的輸出向量序列通過平均池化處理得到文本序列x+的最終輸出向量;第九模塊,用于將序列文本y的最優對齊向量序列和最優均勻向量序列輸入到檢索微調模塊中,輸出文本序列y的輸出向量序列,對文本序列y的輸出向量序列通過平均池化處理得到文本序列y的最終輸出向量;第十模塊,用于將文本序列x的最終輸出向量、序列文本x+的最終輸出向量和文本序列y的最終輸出向量帶入交叉熵訓練損失函數中,通過最小化交叉熵訓練損失函數的值,得到檢索微調模塊的模型參數。

    14、上述基于記憶增強的大語言模型檢索微調系統中,對于任意文本序列x,都存在人工標注出的相關文本序列x+;定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

    15、上述基于記憶增強的大語言模型檢索微調系統中,每層對齊性損失值通過本文檔來自技高網...

    【技術保護點】

    1.一種基于記憶增強的大語言模型檢索微調方法,其特征在于包括:

    2.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:對于任意文本序列X,都存在人工標注出的相關文本序列X+;定義預設文本序列庫中除文本序列X和文本序列X+外的其他所有文本序列為序列文本Y。

    3.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:每層對齊性損失值通過如下公式得到:

    4.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:每層均勻性損失值通過如下公式得到:

    5.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:交叉熵訓練損失函數為:

    6.一種基于記憶增強的大語言模型檢索微調系統,其特征在于包括:

    7.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統,其特征在于:對于任意文本序列X,都存在人工標注出的相關文本序列X+;定義預設文本序列庫中除文本序列X和文本序列X+外的其他所有文本序列為序列文本Y。

    8.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統,其特征在于:每層對齊性損失值通過如下公式得到:

    9.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統,其特征在于:每層均勻性損失值通過如下公式得到:

    10.根據權利要求6所述的基于記憶增強的大語言模型檢索微調系統,其特征在于:交叉熵訓練損失函數為:

    ...

    【技術特征摘要】

    1.一種基于記憶增強的大語言模型檢索微調方法,其特征在于包括:

    2.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:對于任意文本序列x,都存在人工標注出的相關文本序列x+;定義預設文本序列庫中除文本序列x和文本序列x+外的其他所有文本序列為序列文本y。

    3.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:每層對齊性損失值通過如下公式得到:

    4.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:每層均勻性損失值通過如下公式得到:

    5.根據權利要求1所述的基于記憶增強的大語言模型檢索微調方法,其特征在于:交叉熵訓練損失函數為:

    ...

    【專利技術屬性】
    技術研發人員:孫絲高厚樸黃虎鄭本昌李君楊威韋文書劉峰王佳林徐驍翰楊尚霖邵子航朱佳琳李晟嘉吳志壕果昊涵姚力煒李絲然董啟超
    申請(專利權)人:中國運載火箭技術研究院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲最大av资源站无码av网址| 国产亚洲精品无码成人| 无码中文字幕人妻在线一区二区三区| 精品欧洲av无码一区二区三区| 久久久久久99av无码免费网站| 亚洲级αV无码毛片久久精品| 色欲aⅴ亚洲情无码AV蜜桃| 日韩免费无码一区二区视频| 国99精品无码一区二区三区| 日韩精品无码免费视频| 久久久久成人精品无码中文字幕| 国产成人无码AV片在线观看| 无码AV中文字幕久久专区| 伊人久久无码精品中文字幕| 曰韩人妻无码一区二区三区综合部| 亚洲欧洲日产国码无码网站 | 亚洲youwu永久无码精品| 自拍中文精品无码| 国产精品va无码免费麻豆| 久久国产精品无码一区二区三区| 亚洲日韩精品无码一区二区三区 | 精品少妇人妻AV无码专区不卡| 无码精品久久久久久人妻中字| 成人午夜亚洲精品无码网站| 国产在线无码精品无码| 久久精品日韩av无码| 无码人妻久久一区二区三区免费丨| 无码专区中文字幕无码| 亚洲无码在线播放| 亚洲AV无码一区二区三区DV| 亚洲精品无码午夜福利中文字幕| 国产精品无码v在线观看| 亚洲AV无码专区日韩| 无码熟熟妇丰满人妻啪啪软件| 性生交片免费无码看人| 亚洲人AV在线无码影院观看| 亚洲av永久中文无码精品| 亚洲av永久中文无码精品综合| av色欲无码人妻中文字幕| 熟妇人妻无码中文字幕老熟妇| 无码成人AAAAA毛片|