自回歸方法和自回歸系統技術方案

技術編號：44397409 閱讀：3 留言：0更新日期：2025-02-25 10:10

一種用于大型語言模型的自回歸方法包括：接收與至少一個標記相關聯的隱藏狀態；根據接收到的隱藏狀態生成關鍵數據、第一數值數據和查詢數據；通過對該關鍵數據進行位置編碼，以生成第一位置編碼的關鍵數據；通過對該查詢數據進行位置編碼，以生成位置編碼的查詢數據；根據該第一位置編碼的關鍵數據、該位置編碼的查詢數據和第二位置編碼的關鍵數據執行第一元素級點積操作，以生成注意力分數；根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作，以生成注意力輸出；以及，將該注意力輸出和該隱藏狀態相加，以生成更新后的隱藏狀態。相應地，本發明專利技術還提供了一種自回歸系統，采用本發明專利技術可以減少計算量并提高效率。

全部詳細技術資料下載

【技術實現步驟摘要】

【】本專利技術通常涉及一種語言模型，以及更特別地，涉及一種用于基于變換器的大語言模型(large?language?model，llm)的自回歸方法和自回歸系統。

技術介紹

0、
技術介紹

1、在技術迅速發展的背景下，大型語言模型(llm)在一系列應用中展現出巨大的潛力。作為一種人工智能(artificial?intelligence，ai)形式的llm，能夠處理和生成人類語言。通過在大量文本數據上訓練llm，它們能夠識別出語言的模式和規則，從而使它們能夠執行多種任務。例如，llm可以生成文本、翻譯語言、回答查詢以及創作各種形式的創意文本。特別是，llm中的變換器解碼器需要來自過去標記的信息來預測下一個標記。在推理間隔期間加速變換器解碼器推理的一種普遍技術是引入緩存。這避免了重新計算與之前計算的標記相關聯的數值數據和關鍵數據的需要。

2、盡管向llm引入了緩存，但在llm模型的每個迭代周期中，緩存數據都會被完全讀取、處理和寫入。這導致llm的輸入和輸出維度的大小增加，從而導致顯著的延遲。此外，緩存輸出可能會在相同的存儲器地址空間中被寫入和重寫。因此，在相同的存儲器地址空間中重復重寫數據可能會引入額外的軟件開銷。

3、因此，為llm設計一個能夠減少llm輸入和輸出維度的自回歸系統，是一個重大的設計挑戰。

技術實現思路

0、
技術實現思路

1、有鑒于此，本專利技術提供一種自回歸方法和系統，其能夠減少運算維度進而減少計算量。

>2、第一方面，本專利技術提供了一種自回歸方法，其適用于基于變換器的大型語言模型。該自回歸方法包括：接收與至少一個標記相關聯的隱藏狀態；根據接收到的隱藏狀態生成關鍵數據、第一數值數據和查詢數據；對該關鍵數據進行位置編碼，以生成第一位置編碼的關鍵數據；對該查詢數據進行位置編碼，以生成位置編碼的查詢數據；根據該第一位置編碼的關鍵數據、該位置編碼的查詢數據和第二位置編碼的關鍵數據執行第一元素級點積操作，以生成注意力分數；根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作，以生成注意力輸出；以及，將該注意力輸出和該隱藏狀態相加，以生成更新后的隱藏狀態；其中，該第二位置編碼的關鍵數據是在生成該第一位置編碼的關鍵數據之前就已經獲得并緩存的，以及，該第二數值數據是在生成該第一數值數據之前就已經獲得并緩存的。

3、在一些實施例中，根據該第一位置編碼的關鍵數據、該位置編碼的查詢數據和該第二位置編碼的關鍵數據執行第一元素級點積操作以生成注意力分數包括：對該第一位置編碼的關鍵數據和該位置編碼的查詢數據執行第一矩陣點積，以生成第一乘積輸出；對該第二位置編碼的關鍵數據和該位置編碼的查詢數據執行第二矩陣點積，以生成第二乘積輸出；以及，將該第一乘積輸出和該第二乘積輸出級聯起來，以生成該注意力分數。

4、在一些實施例中，根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作以生成注意力輸出包括：根據該注意力分數和該第二數值數據執行第三矩陣點積，以生成第三乘積輸出；根據該注意力分數和該第一數值數據執行第四矩陣點積，以生成第四乘積輸出；以及，將該第三乘積輸出和該第四乘積輸出相加，以生成該注意力輸出。

5、在一些實施例中，該自回歸方法還包括：對該注意力分數執行softmax函數以生成注意力權重，其中，該第二元素級點積操作是根據該第一數值數據、該注意力權重和該第二數值數據執行的以生成該注意力輸出。

6、在一些實施例中，該自回歸方法還包括：將該隱藏狀態歸一化為歸一化的隱藏狀態，其中，該關鍵數據、該第一數值數據和該查詢數據是根據該歸一化的隱藏狀態生成的；以及，將該更新后的隱藏狀態歸一化為更新后的歸一化隱藏狀態。

7、在一些實施例中，該自回歸方法還包括：從環形緩沖區切出第一部分存儲段作為滑動窗口，以用于第一數值緩存和/或第一關鍵緩存；以及，從該環形緩沖區切出第二部分存儲段，以用于第二數值緩存和/或第二關鍵緩存；其中，該第一數值緩存被配置為緩存該第一數值數據，該第二數值緩存被配置為緩存該第二數值數據，該第一關鍵緩存被配置為緩存該第一位置編碼的關鍵數據，以及，該第二關鍵緩存被配置為緩存該第二位置編碼的關鍵數據。

8、在一些實施例中，該自回歸方法還包括：在該第一數值緩存和/或第一關鍵緩存對相應數據進行緩存后，通過增加存儲器地址的偏移值來更新該環形緩沖區的該第二部分存儲段。

9、在一些實施例中，該自回歸方法還包括：在該第二部分存儲段移位至觸及該環形緩沖區的末端存儲段后，根據該環形緩沖區初始化的存儲器地址復制該環形緩沖區的該第二部分存儲段。

10、在一些實施例中，該第一數值數據和該第一位置編碼的關鍵數據的信號形狀格式表示為(b,n,t,d)，該第二數值數據和該第二位置編碼的關鍵數據的信號形狀格式表示為(b,n,c,d)，其中，b是批量大小，t是標記數量，n是注意力頭數量，d是每個注意力頭的頭維度，c是用戶預先定義的預定值。

11、在一些實施例中，該自回歸方法還包括：將該注意力分數的空值替換為掩碼值，以生成更新后的注意力分數，其中，該注意力權重是基于該更新后的注意力分數生成的。

12、第二方面，本專利技術提供一種自回歸系統，其適用于基于變換器的大型語言模型(llm)。該自回歸系統包括：層輸入模塊，被配置為接收與至少一個被該llm處理的標記相關的隱藏狀態；線性變換模塊，被配置為根據接收到的隱藏狀態生成關鍵數據、第一數值數據和查詢數據；關鍵位置編碼器，被配置為對該關鍵數據進行位置編碼，以生成第一位置編碼的關鍵數據；查詢位置編碼器，被配置為對該查詢數據進行位置編碼，以生成位置編碼的查詢數據；第一乘法模塊，被配置為根據該第一位置編碼的關鍵數據、該位置編碼的查詢數據和第二位置編碼的關鍵數據執行第一元素級點積操作，以生成注意力分數；第二乘法模塊，被配置為根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作，以生成注意力輸出；第一加法器，被配置為將該注意力輸出和該隱藏狀態相加，以生成更新后的隱藏狀態；其中，該第二位置編碼的關鍵數據是在生成該第一位置編碼的關鍵數據之前就已經獲得并緩存的，以及，該第二數值數據是在生成該第一數值數據之前就已經獲得并緩存的。

13、在一些實施例中，該第一乘法模塊包括：第一批量矩陣乘法模塊，被配置為對該第一位置編碼的關鍵數據和該位置編碼的查詢數據執行第一矩陣點積，以生成第一乘積輸出；第二批量矩陣乘法模塊，被配置為對該第二位置編碼的關鍵數據和該位置編碼的查詢數據執行第二矩陣點積，以生成第二乘積輸出；級聯模塊，被配置為將該第一乘積輸出和該第二乘積輸出級聯起來，以生成該注意力分數。

14、在一些實施例中，該第二乘法模塊包括：第三批量矩陣乘法模塊，被配置為根據該注意力分數和該第二數值數據執行第三矩陣點積，以生成第三乘積輸出；第四批量矩陣乘法模塊，被配置為根據該注意力分數和該第一數值數據執行第四矩陣點積，以生成第四乘積輸本文檔來自技高網...

【技術保護點】

1.一種自回歸方法，其適用于基于變換器的大型語言模型，該自回歸方法包括：

2.如權利要求1所述的方法，其中，根據該第一位置編碼的關鍵數據、該位置編碼的查詢數據和該第二位置編碼的關鍵數據執行第一元素級點積操作以生成注意力分數包括：

3.如權利要求2所述的方法，其中，根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作以生成注意力輸出包括：

4.如權利要求1所述的方法，其中，該自回歸方法還包括：

5.如權利要求1所述的方法，其中，該自回歸方法還包括：

6.如權利要求1所述的方法，其中，該自回歸方法還包括：

7.如權利要求6所述的方法，其中，該自回歸方法還包括：

8.如權利要求7所述的方法，其中，該自回歸方法還包括：

9.如權利要求1所述的方法，其中，該第一數值數據和該第一位置編碼的關鍵數據的信號形狀格式表示為(B,N,T,D)，該第二數值數據和該第二位置編碼的關鍵數據的信號形狀格式表示為(B,N,C,D)，其中，B是批量大小，T是標記數量，N是注意力頭數量，D是每個注意力頭

10.如權利要求4所述的方法，其中，該自回歸方法還包括：

11.一種自回歸系統，其適用于基于變換器的大型語言模型(LLM)，該自回歸系統包括：

12.如權利要求11所述的自回歸系統，其中，該第一乘法模塊包括：

13.如權利要求11所述的自回歸系統，其中，該第二乘法模塊包括：

14.如權利要求11所述的自回歸系統，其中，該自回歸系統還包括：

15.如權利要求11所述的自回歸系統，其中，該自回歸系統還包括：

16.如權利要求11所述的自回歸系統，其中，該自回歸系統還包括：

17.如權利要求16所述的自回歸系統，其中，在該第一數值緩存和/或第一關鍵緩存對相應數據進行緩存后，通過增加存儲器地址的偏移值來更新該環形緩沖區的該第二部分存儲段。

18.如權利要求17所述的自回歸系統，其中，在該第二部分存儲段移位至觸及該環形緩沖區的末端存儲段后，根據該環形緩沖區初始化的存儲器地址復制該環形緩沖區的該第二部分存儲段。

19.如權利要求11所述的自回歸系統，其中，該第一數值數據和該第一位置編碼的關鍵數據的信號形狀格式表示為(B,N,T,D)，該第二數值數據和該第二位置編碼的關鍵數據的信號形狀格式表示為(B,N,C,D)，其中，B是批量大小，T是標記數量，N是注意力頭數量，D是每個注意力頭的頭維度，C是用戶預先定義的預定值。

20.如權利要求14所述的自回歸系統，其中，該自回歸系統還包括：

...

【技術特征摘要】

1.一種自回歸方法，其適用于基于變換器的大型語言模型，該自回歸方法包括：

3.如權利要求2所述的方法，其中，根據該第一數值數據、該注意力分數和第二數值數據執行第二元素級點積操作以生成注意力輸出包括：

4.如權利要求1所述的方法，其中，該自回歸方法還包括：

5.如權利要求1所述的方法，其中，該自回歸方法還包括：

6.如權利要求1所述的方法，其中，該自回歸方法還包括：

7.如權利要求6所述的方法，其中，該自回歸方法還包括：

8.如權利要求7所述的方法，其中，該自回歸方法還包括：

9.如權利要求1所述的方法，其中，該第一數值數據和該第一位置編碼的關鍵數據的信號形狀格式表示為(b,n,t,d)，該第二數值數據和該第二位置編碼的關鍵數據的信號形狀格式表示為(b,n,c,d)，其中，b是批量大小，t是標記數量，n是注意力頭數量，d是每個注意力頭的頭維度，c是用戶預先定義的預定值。

10.如權利要求4所述的方法，其中，該自回歸方法還包括：

11.一種自回歸系統，其適用于基于變換器的大型語言模型(llm...

【專利技術屬性】
技術研發人員：林家耀，鄭凱文，林柏諺，符永豪，許家維，盧育龍，陳鴻仁，陸忠立，黃偉文，
申請(專利權)人：聯發科技新加坡私人有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術