一種用于長序列的注意力機制改進方法、設備及介質技術

技術編號：44533206 閱讀：3 留言：0更新日期：2025-03-07 13:23

本發明專利技術公開了一種用于長序列的注意力機制改進方法、設備及介質，屬于深度學習技術領域，用于解決在現有的Transformer架構中，自注意力機制需要復雜的位置編碼來處理序列順序信息，增加了模型的復雜度，還容易出現注意力分散的問題，難以有效建模長距離依賴關系的技術問題。方法包括：對注意力機制模塊的輸入序列進行有關前后位置的注意力分數計算，得到當前位置的注意力得分；將注意力得分進行概率轉換，得到斷點概率；對當前位置與目標位置之間進行注意力計算，得到注意力權重；對當前位置的輸出向量進行加權求和處理，得到最終輸出權重向量；將最終輸出權重向量所對應的改進注意力機制模塊部署到應用模型中，確定出最終輸出結果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及深度學習，尤其涉及一種用于長序列的注意力機制改進方法、設備及介質。

技術介紹

1、transformer架構提出以來，在各類序列處理任務中取得了突破性進展。然而，傳統transformer存在以下技術問題：首先，其注意力機制需要復雜的位置編碼來處理序列順序信息，增加了模型復雜度；其次，基于softmax的注意力計算容易出現注意力分散的問題，影響模型對長距離依賴關系的建模能力；此外，在處理長序列時，傳統注意力機制的計算復雜度呈平方增長，限制了模型的實際應用范圍。

2、目前，學術界已提出多種改進方案，如相對位置編碼、線性注意力等。但這些方法要么仍需要額外的位置信息輸入，要么在保持模型性能的同時犧牲了計算效率。因此，如何設計一種既能有效建模序列順序信息，又能高效處理長序列的注意力機制，成為當前研究的重要問題。

技術實現思路

1、本申請實施例提供了一種用于長序列的注意力機制改進方法、設備及介質，用于解決如下技術問題：在現有的transformer架構中，自注意力機制需要復雜的位置編碼來處理序列順序信息，增加了模型的復雜度，還容易出現注意力分散的問題，難以有效建模長距離依賴關系。

2、本申請實施例采用下述技術方案：

3、一方面，本申請實施例提供了一種用于長序列的注意力機制改進方法，包括：對transformer架構中注意力機制模塊的輸入序列進行有關前后位置的注意力分數計算，得到當前位置的注意力得分；通過非線性激活函數，將所述注意力得分進行概率轉換

4、本申請實施例通過引入斷棒分割過程，自然地在注意力計算中編碼了位置信息，無需額外的位置編碼模塊，簡化了模型結構。用于長序列的注意力機制改進方法具有天然的局部性偏好，使得應用模型更容易捕獲序列中的局部依賴關系，同時保持了建模長距離依賴的能力。最后，采用對數空間計算和改進的softplus函數，有效解決了數值計算中的穩定性問題，在長序列處理任務上展現出顯著優勢。

5、在一種可行的實施方式中，對transformer架構中注意力機制模塊的輸入序列進行有關前后位置的注意力分數計算，得到當前位置的注意力得分，具體包括：根據，得到當前位置j的注意力得分；其中，表示位置j的查詢向量，表示位置i的鍵向量，d為向量維度。

6、在一種可行的實施方式中，通過非線性激活函數，將所述注意力得分進行概率轉換，得到斷點概率，具體包括：通過非線性激活函數，并根據，得到所述斷點概率；其中，表示當前位置j的所述注意力得分，為數學符號。

7、在一種可行的實施方式中，根據所述斷點概率，對當前位置與目標位置之間進行注意力計算，得到注意力權重，具體包括：根據，得到所述注意力權重；其中，為所述斷點概率，且還表示位置j分配給位置i的初始注意力概率；表示當前位置j對所有中間位置k均未分配注意力的概率，中間位置k為當前位置j與位置i之間的位置。

8、在一種可行的實施方式中，基于預設的對數空間，對所述注意力權重進行數值轉換處理，具體包括：根據，得到所述注意力權重的對數形式；其中，表示當前位置j的所述注意力得分，中間位置k為當前位置j與位置i之間的位置；為數學運算符號；為softplus函數對注意力得分的數值穩定化處理項。

9、在一種可行的實施方式中，基于數值轉換后的注意力權重，對當前位置的輸出向量進行加權求和處理，得到最終輸出權重向量，具體包括：根據，得到所述最終輸出權重向量；其中，為所述注意力權重；為位置i的值向量。

10、在一種可行的實施方式中，確定出所述應用模型中有關所述注意力機制模塊的最終輸出結果，具體包括：根據，得到所述應用模型中有關所述注意力機制模塊的最終輸出結果；其中，為輸出投影矩陣；h為多頭注意力的輸出向量；為輸出向量的拼接計算。

11、在一種可行的實施方式中，將所述最終輸出權重向量所對應的改進注意力機制模塊部署到應用模型中，具體包括：基于所述最終輸出權重向量包含的斷棒分割注意力機制，生成所述改進注意力機制模塊；其中，所述改進注意力機制模塊中的輸入序列包括線性變換矩陣投影后的查詢向量、鍵向量以及值向量；通過預設的交叉熵損失函數、優化器以及余弦學習率衰減策略，將所述改進注意力機制模塊進行有關所述應用模型的關聯部署處理，得到新應用模型；基于所述新應用模型中的改進注意力機制模塊，得到任務數據中有關所述注意力機制模塊下的最終輸出結果。

12、第二方面，本申請實施例還提供了一種用于長序列的注意力機制改進設備，所述設備包括：至少一個處理器；以及，與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有能夠被所述至少一個處理器執行的指令，以使所述至少一個處理器能夠執行上述任一實施方式所述的一種用于長序列的注意力機制改進方法。

13、第三方面，本申請實施例還提供了一種非易失性計算機存儲介質，其特征在于，所述存儲介質為非易失性計算機可讀存儲介質，所述非易失性計算機可讀存儲介質存儲有至少一個程序，每個所述程序包括指令，所述指令當被終端執行時，使所述終端執行上述任一實施方式所述的一種用于長序列的注意力機制改進方法。

14、本申請提供了一種用于長序列的注意力機制改進方法、設備及介質，與現有技術相比，本申請實施例具有以下有益的技術效果：

15、本申請實施例通過引入斷棒分割過程，自然地在注意力計算中編碼了位置信息，無需額外的位置編碼模塊，簡化了模型結構。用于長序列的注意力機制改進方法具有天然的局部性偏好，使得應用模型更容易捕獲序列中的局部依賴關系，同時保持了建模長距離依賴的能力。最后，采用對數空間計算和改進的softplus函數，有效解決了數值計算中的穩定性問題，在長序列處理任務上展現出顯著優勢。

本文檔來自技高網...

【技術保護點】

1.一種用于長序列的注意力機制改進方法，其特征在于，所述方法包括：

2.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，對Transformer架構中注意力機制模塊的輸入序列進行有關前后位置的注意力分數計算，得到當前位置的注意力得分，具體包括：

3.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，通過非線性激活函數，將所述注意力得分進行概率轉換，得到斷點概率，具體包括：

4.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，根據所述斷點概率，對當前位置與目標位置之間進行注意力計算，得到注意力權重，具體包括：

5.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，基于預設的對數空間，對所述注意力權重進行數值轉換處理，具體包括：

6.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，基于數值轉換后的注意力權重，對當前位置的輸出向量進行加權求和處理，得到最終輸出權重向量，具體包括：

7.根據權利要求1所述的一種用于長序列的

8.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，將所述最終輸出權重向量所對應的改進注意力機制模塊部署到應用模型中，具體包括：

9.一種用于長序列的注意力機制改進設備，其特征在于，所述設備包括：

10.一種非易失性計算機存儲介質，其特征在于，所述存儲介質為非易失性計算機可讀存儲介質，所述非易失性計算機可讀存儲介質存儲有至少一個程序，每個所述程序包括指令，所述指令當被終端執行時，使所述終端執行根據權利要求1-8任一項所述的一種用于長序列的注意力機制改進方法。

...

【技術特征摘要】

1.一種用于長序列的注意力機制改進方法，其特征在于，所述方法包括：

2.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，對transformer架構中注意力機制模塊的輸入序列進行有關前后位置的注意力分數計算，得到當前位置的注意力得分，具體包括：

5.根據權利要求1所述的一種用于長序列的注意力機制改進方法，其特征在于，基于預設的對數空間，對所述注意力權重進行數值轉換處理，具體包括：

6.根據權利要求1所述的一種用于長序列...

【專利技術屬性】
技術研發人員：邵嘉豪，段強，薛潔，武寒波，李銳，姜凱，
申請(專利權)人：山東浪潮科學研究院有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術