System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 暴力强奷在线播放无码,免费无码av片在线观看,国产福利电影一区二区三区久久老子无码午夜伦不
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>中山大學專利>正文

    基于KV緩存復用的對話系統(tǒng)交互方法及裝置制造方法及圖紙

    技術編號:44521761 閱讀:5 留言:0更新日期:2025-03-07 13:14
    本申請?zhí)峁┑幕贙V緩存復用的對話系統(tǒng)交互方法及裝置,包括:在接收到目標提示詞時,確定參考提示詞,接著確定將參考提示詞轉換為目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合后,確定參考提示詞在每個解碼器層的統(tǒng)一注意力圖,對于每一解碼器層,根據(jù)編輯操作集合和參考提示詞在該解碼器層的統(tǒng)一注意力圖確定目標提示詞在該解碼器層中需要重新計算KV緩存的目標詞元。通過編輯操作集合和統(tǒng)一注意力圖來確定目標詞元,這樣可以準確地識別出目標提示詞在每一解碼器層中需要重新計算KV緩存的目標詞元,而對于目標提示詞在每一解碼器層中的其他詞元則可以復用參考提示詞的KV緩存,以盡量提高KV緩存的復用率和對話系統(tǒng)的響應速度。

    【技術實現(xiàn)步驟摘要】

    本申請涉及深度學習,尤其涉及一種基于kv緩存復用的對話系統(tǒng)交互方法及裝置。


    技術介紹

    1、在基于大模型的多輪對話系統(tǒng)中,最新的查詢通常會與之前的對話上下文信息一同輸入。隨著對話歷史的累積,輸入提示詞的長度不斷增加,ttft(time?to?first?token)延遲也隨之增長,從而導降低了對話系統(tǒng)的響應速度。目前可以通過共享相同前綴的詞元的kv緩存來復用一部分kv緩存,這種方法在一定程度上降低了ttft延遲。

    2、然而,通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度。


    技術實現(xiàn)思路

    1、本申請的目的旨在至少能解決上述的技術缺陷之一,特別是現(xiàn)有技術中通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度的技術缺陷。

    2、第一方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互方法,所述方法包括:

    3、當接收到用戶輸入的目標提示詞時,確定參考提示詞;

    4、基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖;

    5、對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;

    6、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;

    7、復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,所述其他詞元是指除目標詞元以外的詞元。

    8、在其中一個實施例中,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:

    9、根據(jù)所述編輯操作集合確定所述參考提示詞對應的待刪除詞元和待插入詞元;

    10、將各個待插入詞元確定為所述目標提示詞在該解碼器層對應的目標詞元;

    11、針對每個待刪除詞元,根據(jù)所述參考提示詞在該解碼器層的統(tǒng)一注意力圖評估該待刪除詞元在所述參考提示詞中的后續(xù)詞元的注意力得分,若后續(xù)詞元中存在注意力得分高于第一預設閾值的詞元,則將后續(xù)詞元中注意力得分高于第一預設閾值的詞元確定為所述目標提示詞在該解碼器層對應的目標詞元。

    12、在其中一個實施例中,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:

    13、在當前解碼器層中,獲取當前解碼器層對應的第一權重集和第二權重集,以及獲取當前解碼器層的上一解碼器層的輸出向量;

    14、根據(jù)當前解碼器層對應的第一權重集和第二權重集以及當前解碼器層的上一解碼器層的輸出向量,確定所述目標提示詞在當前解碼器層中的目標詞元的鍵向量和值向量,并將所述鍵向量和所述值向量存儲于預設的kv緩存池中以得到所述目標提示詞在當前解碼器層中對應的目標詞元的kv緩存;

    15、根據(jù)所述鍵向量和所述值向量計算注意力得分,并依據(jù)所述注意力得分確定當前解碼器層的輸出向量,進入下一解碼器層,直至依照層級順序處理完所有解碼器層,得到所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存。

    16、在其中一個實施例中,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:

    17、對于每一解碼器層,確定所述目標提示詞在該解碼器層中對應的其他詞元,并在所述參考提示詞對應的kv緩存中查找和獲取與所述目標提示詞在該解碼器層中的其他詞元對應kv緩存,以得到所述目標提示詞在該解碼器層中對應的其他詞元的kv緩存;

    18、當確定所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存時,依據(jù)所述目標提示詞在各個解碼器層中的其他詞元對應kv緩存和所述目標提示詞在各個解碼器層中的目標詞元對應kv緩存確定所述目標提示詞的輸出內容。

    19、在其中一個實施例中,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:

    20、確定預設的注意力圖緩存池;

    21、針對每一解碼器層,從所述注意力圖緩存池中獲取所述參考提示詞在該解碼器層的多頭注意力圖;

    22、對所述參考提示詞在該解碼器層的多頭注意力圖進行求和,得到所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖。

    23、在其中一個實施例中,所述基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,包括:

    24、根據(jù)確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)這一目的確定狀態(tài)轉移方程;

    25、基于所述狀態(tài)轉移方程構建二維轉移表格,并根據(jù)所述二維轉移表格進行狀態(tài)回溯;

    26、在狀態(tài)回溯過程中記錄編輯操作,以得到編輯操作集合。

    27、在其中一個實施例中,所述方法還包括:

    28、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,統(tǒng)計所述目標提示詞在每一解碼器層對應的目標詞元的詞元數(shù)量;

    29、將詞元數(shù)量未超過第二預設閾值的解碼器層標記為目標解碼器層,并在計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存的過程中跳過對每一目標解碼器層的前一層的注意力得分的計算。

    30、第二方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互裝置,所述裝置包括:

    31、提示詞確定模塊,用于當接收到用戶輸入的目標提示詞時,確定參考提示詞;

    32、編輯操作確定模塊,用于基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖;

    33、詞元確定模塊,用于對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;

    34、緩存計算模塊,用于當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;

    35、緩存復用模塊,用于復用所述參考提示詞對應的kv緩存以得到所述目標提本文檔來自技高網...

    【技術保護點】

    1.一種基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的KV緩存的目標詞元,包括:

    3.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的KV緩存,包括:

    4.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的KV緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的KV緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的KV緩存確定所述目標提示詞的輸出內容,包括:

    5.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:

    6.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,包括:

    7.根據(jù)權利要求1至6任一項所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法還包括:

    8.一種基于KV緩存復用的對話系統(tǒng)交互裝置,其特征在于,所述裝置包括:

    9.一種存儲介質,其特征在于:所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行如權利要求1至7中任一項所述基于KV緩存復用的對話系統(tǒng)交互方法的步驟。

    10.一種計算機設備,其特征在于,包括:一個或多個處理器,以及存儲器;

    ...

    【技術特征摘要】

    1.一種基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:

    3.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:

    4.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:

    5.根據(jù)權利要求1所述的基于k...

    【專利技術屬性】
    技術研發(fā)人員:陳武輝周嘉航鄭子彬
    申請(專利權)人:中山大學
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码人妻一区二区免费蜜桃| 国产精品免费无遮挡无码永久视频| 无码专区AAAAAA免费视频| 无码人妻精品一区二区三区夜夜嗨| 日韩免费人妻AV无码专区蜜桃 | 亚洲欧洲日产国码无码网站| 亚洲av永久无码精品漫画| 亚洲精品无码人妻无码| 亚洲AV无码一区二区乱孑伦AS| 国产成人无码区免费A∨视频网站| 国产AV一区二区三区无码野战| 国产精品成人一区无码| 久久精品无码一区二区WWW | 亚洲VA中文字幕无码毛片| 无码熟妇人妻在线视频| 无码GOGO大胆啪啪艺术| 日韩精品无码一区二区视频| 成年男人裸j照无遮挡无码| 亚洲AV无码久久精品狠狠爱浪潮| 人妻av中文字幕无码专区| 精品国产一区二区三区无码 | 国产产无码乱码精品久久鸭| 国产爆乳无码视频在线观看3 | 日韩AV无码一区二区三区不卡| AV无码免费永久在线观看| 亚洲AV无码久久精品蜜桃| 亚洲中文字幕无码久久2017| 久久伊人亚洲AV无码网站| 亚洲人成国产精品无码| 永久免费无码网站在线观看| 国产精品亚洲专区无码唯爱网| 67194成l人在线观看线路无码| av无码国产在线看免费网站| 久久亚洲精品无码VA大香大香| 无码中文人妻视频2019| 日韩人妻精品无码一区二区三区| 无码一区二区三区老色鬼| 无码超乳爆乳中文字幕久久| 青青草无码免费一二三区| 18禁网站免费无遮挡无码中文 | (无码视频)在线观看|