System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本申請涉及深度學習,尤其涉及一種基于kv緩存復用的對話系統(tǒng)交互方法及裝置。
技術介紹
1、在基于大模型的多輪對話系統(tǒng)中,最新的查詢通常會與之前的對話上下文信息一同輸入。隨著對話歷史的累積,輸入提示詞的長度不斷增加,ttft(time?to?first?token)延遲也隨之增長,從而導降低了對話系統(tǒng)的響應速度。目前可以通過共享相同前綴的詞元的kv緩存來復用一部分kv緩存,這種方法在一定程度上降低了ttft延遲。
2、然而,通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度。
技術實現(xiàn)思路
1、本申請的目的旨在至少能解決上述的技術缺陷之一,特別是現(xiàn)有技術中通過共享相同前綴的詞元的kv緩存實現(xiàn)延遲降低的這種方法只能在提示詞的前綴與kv緩存中詞元的前綴完全一致時才能使用,并且只能夠復用前綴部分的kv緩存,導致kv緩存的復用效率有限,難以最大程度降低ttft延遲并進一步提高對話系統(tǒng)的響應速度的技術缺陷。
2、第一方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互方法,所述方法包括:
3、當接收到用戶輸入的目標提示詞時,確定參考提示詞;
4、基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器
5、對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;
6、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;
7、復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,所述其他詞元是指除目標詞元以外的詞元。
8、在其中一個實施例中,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:
9、根據(jù)所述編輯操作集合確定所述參考提示詞對應的待刪除詞元和待插入詞元;
10、將各個待插入詞元確定為所述目標提示詞在該解碼器層對應的目標詞元;
11、針對每個待刪除詞元,根據(jù)所述參考提示詞在該解碼器層的統(tǒng)一注意力圖評估該待刪除詞元在所述參考提示詞中的后續(xù)詞元的注意力得分,若后續(xù)詞元中存在注意力得分高于第一預設閾值的詞元,則將后續(xù)詞元中注意力得分高于第一預設閾值的詞元確定為所述目標提示詞在該解碼器層對應的目標詞元。
12、在其中一個實施例中,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:
13、在當前解碼器層中,獲取當前解碼器層對應的第一權重集和第二權重集,以及獲取當前解碼器層的上一解碼器層的輸出向量;
14、根據(jù)當前解碼器層對應的第一權重集和第二權重集以及當前解碼器層的上一解碼器層的輸出向量,確定所述目標提示詞在當前解碼器層中的目標詞元的鍵向量和值向量,并將所述鍵向量和所述值向量存儲于預設的kv緩存池中以得到所述目標提示詞在當前解碼器層中對應的目標詞元的kv緩存;
15、根據(jù)所述鍵向量和所述值向量計算注意力得分,并依據(jù)所述注意力得分確定當前解碼器層的輸出向量,進入下一解碼器層,直至依照層級順序處理完所有解碼器層,得到所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存。
16、在其中一個實施例中,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:
17、對于每一解碼器層,確定所述目標提示詞在該解碼器層中對應的其他詞元,并在所述參考提示詞對應的kv緩存中查找和獲取與所述目標提示詞在該解碼器層中的其他詞元對應kv緩存,以得到所述目標提示詞在該解碼器層中對應的其他詞元的kv緩存;
18、當確定所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存時,依據(jù)所述目標提示詞在各個解碼器層中的其他詞元對應kv緩存和所述目標提示詞在各個解碼器層中的目標詞元對應kv緩存確定所述目標提示詞的輸出內容。
19、在其中一個實施例中,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:
20、確定預設的注意力圖緩存池;
21、針對每一解碼器層,從所述注意力圖緩存池中獲取所述參考提示詞在該解碼器層的多頭注意力圖;
22、對所述參考提示詞在該解碼器層的多頭注意力圖進行求和,得到所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖。
23、在其中一個實施例中,所述基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,包括:
24、根據(jù)確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)這一目的確定狀態(tài)轉移方程;
25、基于所述狀態(tài)轉移方程構建二維轉移表格,并根據(jù)所述二維轉移表格進行狀態(tài)回溯;
26、在狀態(tài)回溯過程中記錄編輯操作,以得到編輯操作集合。
27、在其中一個實施例中,所述方法還包括:
28、當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,統(tǒng)計所述目標提示詞在每一解碼器層對應的目標詞元的詞元數(shù)量;
29、將詞元數(shù)量未超過第二預設閾值的解碼器層標記為目標解碼器層,并在計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存的過程中跳過對每一目標解碼器層的前一層的注意力得分的計算。
30、第二方面,本申請?zhí)峁┝艘环N基于kv緩存復用的對話系統(tǒng)交互裝置,所述裝置包括:
31、提示詞確定模塊,用于當接收到用戶輸入的目標提示詞時,確定參考提示詞;
32、編輯操作確定模塊,用于基于動態(tài)規(guī)劃確定將所述參考提示詞轉換為所述目標提示詞所需的最少編輯次數(shù)對應的編輯操作集合,并確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖;
33、詞元確定模塊,用于對于每一解碼器層,根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層中所要重新計算的kv緩存的目標詞元;
34、緩存計算模塊,用于當確定所述目標提示詞在每一解碼器層中對應的目標詞元時,計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存;
35、緩存復用模塊,用于復用所述參考提示詞對應的kv緩存以得到所述目標提本文檔來自技高網...
【技術保護點】
1.一種基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的KV緩存的目標詞元,包括:
3.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的KV緩存,包括:
4.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的KV緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的KV緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的KV緩存確定所述目標提示詞的輸出內容,包括:
5.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述確定所述參考提示詞在每個解碼器層的統(tǒng)一注意力圖,包括:
6.根據(jù)權利要求1所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述基于動態(tài)規(guī)劃確定將
7.根據(jù)權利要求1至6任一項所述的基于KV緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法還包括:
8.一種基于KV緩存復用的對話系統(tǒng)交互裝置,其特征在于,所述裝置包括:
9.一種存儲介質,其特征在于:所述存儲介質中存儲有計算機可讀指令,所述計算機可讀指令被一個或多個處理器執(zhí)行時,使得一個或多個處理器執(zhí)行如權利要求1至7中任一項所述基于KV緩存復用的對話系統(tǒng)交互方法的步驟。
10.一種計算機設備,其特征在于,包括:一個或多個處理器,以及存儲器;
...【技術特征摘要】
1.一種基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述根據(jù)所述編輯操作集合以及所述參考提示詞在該解碼器層的統(tǒng)一注意力圖,確定所述目標提示詞在該解碼器層所要重新計算的kv緩存的目標詞元,包括:
3.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述計算所述目標提示詞在每一解碼器層中對應的目標詞元的kv緩存,包括:
4.根據(jù)權利要求1所述的基于kv緩存復用的對話系統(tǒng)交互方法,其特征在于,所述復用所述參考提示詞對應的kv緩存以得到所述目標提示詞在每一解碼器層中對應的其他詞元的kv緩存,并根據(jù)所述目標提示詞在各個解碼器層中對應的目標詞元和其他詞元的kv緩存確定所述目標提示詞的輸出內容,包括:
5.根據(jù)權利要求1所述的基于k...
【專利技術屬性】
技術研發(fā)人員:陳武輝,周嘉航,鄭子彬,
申請(專利權)人:中山大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。