System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 暴力强奷在线播放无码,免费无码av片在线观看,国产福利电影一区二区三区久久老子无码午夜伦不
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>中山大學專利>正文

    基于KV緩存復用的對話系統(tǒng)交互方法及裝置制造方法及圖紙

    技術編號:44521761 閱讀:5 留言:0更新日期:2025-03-07 13:14
    本申請?zhí)峁┑幕贙V緩存復用的對話系統(tǒng)交互方法及裝置,包括:在接收到目標提示詞時,確定參考提示詞,接著確定將參考提示詞轉換為目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合后,確定參考提示詞在每個解碼器層的統(tǒng)一注意力圖,對于每一解碼器層,根據(jù)編輯操作集合和參考提示詞在該解碼器層的統(tǒng)一注意力圖確定目標提示詞在該解碼器層中需要重新計算KV緩存的目標詞元。通過編輯操作集合和統(tǒng)一注意力圖來確定目標詞元,這樣可以準確地識別出目標提示詞在每一解碼器層中需要重新計算KV緩存的目標詞元,而對于目標提示詞在每一解碼器層中的其他詞元則可以復用參考提示詞的KV緩存,以盡量提高KV緩存的復用率和對話系統(tǒng)的響應速度。

    【技術實現(xiàn)步驟摘要】

    本申請涉及深度學習,尤其涉及一種基于kv緩存復用的對話系統(tǒng)交互方法及裝置。


    技術介紹

    1、在基于大模型的多輪對話系統(tǒng)中,最新的查詢通常會與之前的對話上下文信息一同輸入。隨著對話歷史的累積,輸入提示詞的長度不斷增加,ttft(time?to?first?token)延遲也隨之增長,從而導降低了對話系統(tǒng)的響應速度。目前可以通過共享相同前綴的詞元的kv緩存來復用一部分kv緩存,這種方法在一定程度上降低了ttft延遲。

    2、然而,通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度。


    技術實現(xiàn)思路

    1、本申請的目的旨在至少能解決上述的技術缺陷之一,特別是現(xiàn)有技術中通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度的技術缺陷。

    2、第一方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互方法,所述方法包括:

    3、當接收到用戶輸入的目標提示詞時,確定參考提示詞;

    4、基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖;

    5、對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;

    6、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;

    7、復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,所述其他詞元是指除目標詞元以外的詞元。

    8、在其中一個實施例中,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:

    9、根據(jù)所述編輯操作集合確定所述參考提示詞對應的待刪除詞元和待插入詞元;

    10、將各個待插入詞元確定為所述目標提示詞在該解碼器層對應的目標詞元;

    11、針對每個待刪除詞元,根據(jù)所述參考提示詞在該解碼器層的統(tǒng)一注意力圖評估該待刪除詞元在所述參考提示詞中的后續(xù)詞元的注意力得分,若后續(xù)詞元中存在注意力得分高于第一預設閾值的詞元,則將后續(xù)詞元中注意力得分高于第一預設閾值的詞元確定為所述目標提示詞在該解碼器層對應的目標詞元。

    12、在其中一個實施例中,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:

    13、在當前解碼器層中,獲取當前解碼器層對應的第一權重集和第二權重集,以及獲取當前解碼器層的上一解碼器層的輸出向量;

    14、根據(jù)當前解碼器層對應的第一權重集和第二權重集以及當前解碼器層的上一解碼器層的輸出向量,確定所述目標提示詞在當前解碼器層中的目標詞元的鍵向量和值向量,并將所述鍵向量和所述值向量存儲于預設的kv緩存池中以得到所述目標提示詞在當前解碼器層中對應的目標詞元的kv緩存;

    15、根據(jù)所述鍵向量和所述值向量計算注意力得分,并依據(jù)所述注意力得分確定當前解碼器層的輸出向量,進入下一解碼器層,直至依照層級順序處理完所有解碼器層,得到所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存。

    16、在其中一個實施例中,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:

    17、對于每一解碼器層,確定所述目標提示詞在該解碼器層中對應的其他詞元,并在所述參考提示詞對應的kv緩存中查找和獲取與所述目標提示詞在該解碼器層中的其他詞元對應kv緩存,以得到所述目標提示詞在該解碼器層中對應的其他詞元的kv緩存;

    18、當確定所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存時,依據(jù)所述目標提示詞在各個解碼器層中的其他詞元對應kv緩存和所述目標提示詞在各個解碼器層中的目標詞元對應kv緩存確定所述目標提示詞的輸出內容。

    19、在其中一個實施例中,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:

    20、確定預設的注意力圖緩存池;

    21、針對每一解碼器層,從所述注意力圖緩存池中獲取所述參考提示詞在該解碼器層的多頭注意力圖;

    22、對所述參考提示詞在該解碼器層的多頭注意力圖進行求和,得到所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖。

    23、在其中一個實施例中,所述基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,包括:

    24、根據(jù)確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)這一目的確定狀態(tài)轉移方程;

    25、基于所述狀態(tài)轉移方程構建二維轉移表格,并根據(jù)所述二維轉移表格進行狀態(tài)回溯;

    26、在狀態(tài)回溯過程中記錄編輯操作,以得到編輯操作集合。

    27、在其中一個實施例中,所述方法還包括:

    28、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,統(tǒng)計所述目標提示詞在每一解碼器層對應的目標詞元的詞元數(shù)量;

    29、將詞元數(shù)量未超過第二預設閾值的解碼器層標記為目標解碼器層,并在計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存的過程中跳過對每一目標解碼器層的前一層的注意力得分的計算。

    30、第二方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互裝置,所述裝置包括:

    31、提示詞確定模塊,用于當接收到用戶輸入的目標提示詞時,確定參考提示詞;

    32、編輯操作確定模塊,用于基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖;

    33、詞元確定模塊,用于對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;

    34、緩存計算模塊,用于當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;

    35、緩存復用模塊,用于復用所述參考提示詞對應的kv緩存以得到所述目標提本文檔來自技高網...

    【技術保護點】

    1.一種基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的KV緩存的目標詞元,包括:

    3.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的KV緩存,包括:

    4.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的KV緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的KV緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的KV緩存確定所述目標提示詞的輸出內容,包括:

    5.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:

    6.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,包括:

    7.根據(jù)權利要求1至6任一項所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法還包括:

    8.一種基于KV緩存復用的對話系統(tǒng)交互裝置,其特征在于,所述裝置包括:

    9.一種存儲介質,其特征在于:所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行如權利要求1至7中任一項所述基于KV緩存復用的對話系統(tǒng)交互方法的步驟。

    10.一種計算機設備,其特征在于,包括:一個或多個處理器,以及存儲器;

    ...

    【技術特征摘要】

    1.一種基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:

    3.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:

    4.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:

    5.根據(jù)權利要求1所述的基于k...

    【專利技術屬性】
    技術研發(fā)人員:陳武輝周嘉航鄭子彬
    申請(專利權)人:中山大學
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码精品网站| 亚洲国产成人精品无码久久久久久综合| 曰韩无码二三区中文字幕| 精品无码久久久久久久久久| 久久精品中文无码资源站| 在线无码视频观看草草视频| 无码人妻久久一区二区三区免费| 亚洲久热无码av中文字幕| 日韩AV无码久久一区二区| 免费无码黄动漫在线观看| 国内精品人妻无码久久久影院| 无码精品A∨在线观看无广告| 成人无码WWW免费视频| 免费无码又爽又刺激网站直播| 午夜无码一区二区三区在线观看| 久久亚洲精品无码gv| 好爽毛片一区二区三区四无码三飞| 亚洲啪啪AV无码片| 天堂无码久久综合东京热| AV大片在线无码永久免费| 亚洲AV无码一区二区大桥未久| 无码日韩AV一区二区三区| 国产成人A人亚洲精品无码| 亚洲午夜国产精品无码| 午夜成人无码福利免费视频| 亚洲AV日韩AV永久无码色欲| 亚洲av无码片在线观看| 日韩免费a级毛片无码a∨| 无码人妻久久一区二区三区 | 国精品无码A区一区二区| 亚洲a无码综合a国产av中文| 免费A级毛片无码无遮挡内射 | 亚洲熟妇av午夜无码不卡| 亚洲AV无码成人精品区天堂| 国产激情无码一区二区| 亚洲AV无码一区二区二三区入口| 国产亚洲大尺度无码无码专线| 精品一区二区无码AV| 亚洲中久无码永久在线观看同| 久久久无码精品亚洲日韩蜜桃| 亚洲桃色AV无码|