基于自適應的AI大模型流式語音識別方法、裝置以及設備制造方法及圖紙

技術編號：43943864 閱讀：15 留言：0更新日期：2025-01-07 21:33

本發明專利技術提供了一種基于自適應的AI大模型流式語音識別方法、裝置以及設備，包括：對采集到的流式語音信號進行降噪以及語音增強，得到初步語音信號；對所述初步語音信號進行特征提取，得到語音特征向量；對所述語音特征向量進行多層感知機編碼，得到初始編碼向量；根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量；通過自適應調整權重的注意力機制，依據語音上下文信息動態為聚類后的編碼向量分配權重，并進行加權處理；將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果。在本發明專利技術中，有效提升語音識別結果的質量。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音識別的，特別涉及一種基于自適應的ai大模型流式語音識別方法、裝置以及設備。

技術介紹

1、語音識別技術在眾多領域有著廣泛的應用需求，如智能語音助手、語音控制系統、自動語音轉錄等。

2、在實際應用場景中，在語音識別模型的處理方面，傳統的語音識別模型大多是基于固定結構和參數的設計。然而，語音數據本身具有高度的多樣性和動態變化性，不同的說話人、口音、語言風格以及語音內容都會導致語音特征的分布發生變化。固定的模型結構和參數無法自適應地應對這些變化，例如在面對新的語音模式或者特殊口音時，模型的識別能力會顯著下降。

3、在神經網絡解碼階段，傳統的神經網絡結構無法根據輸入的語音數據自適應地生長和調整，不能動態地適應不同的語音特征組合和變化，造成語音識別結果的質量不佳。

技術實現思路

1、本專利技術的主要目的為提供一種基于自適應的ai大模型流式語音識別方法、裝置以及設備，旨在克服當前語音識別模型的語音識別結果不佳的缺陷。

2、為實現上述目的，本專利技術提供了一種基于自適應的ai大模型流式語音識別方法，包括以下步驟：

3、對采集到的流式語音信號進行降噪以及語音增強，得到初步語音信號；

4、對所述初步語音信號進行特征提取，得到語音特征向量；

5、將所述語音特征向量輸入至自適應的ai大模型中，得到語音識別結果；

6、其中，所述ai大模型具體用于：

7、對所述語音特征向量進行多層感知機編碼，得到初始編碼向量；

8、根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量；

9、通過自適應調整權重的注意力機制，依據語音上下文信息動態為聚類后的編碼向量分配權重，并進行加權處理；

10、將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果。

11、進一步地，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

12、對加權后的編碼向量進行特征分布分析，根據特征分布動態調整神經元之間的連接權重；

13、根據語音數據在時間序列上的變化特點，調整神經元之間的連接數量；

14、基于調整后的神經元對加權后的編碼向量進行解碼，得到所述語音識別結果。

15、進一步地，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

16、實時檢測加權后的編碼向量的信息熵，當信息熵高于預設閾值時，在神經網絡的隱藏層中按照預設比例增加神經元數量，新增加的神經元與周圍神經元的連接權重根據當前加權編碼向量各維度的相關性動態初始化；對原有神經元之間的連接權重通過基于梯度的優化算法進行調整，從而完成解碼得到所述語音識別結果。

17、進一步地，所述得到語音識別結果之后，包括：

18、基于語言模型和聲學模型對所述語音識別結果進行校正處理，得到流式語音識別校正結果。

19、進一步地，所述對所述語音特征向量進行多層感知機編碼，得到初始編碼向量，包括：

20、對所述語音特征向量按特征維度進行分組；

21、對于每組語音特征向量，通過第一層感知機基于初始化權重矩陣的線性變換，得到中間特征向量；

22、對所述中間特征向量進行非線性激活，得到激活特征向量；其中，激活函數依輸入的中間特征向量的能量水平動態調整斜率參數；

23、將激活特征向量輸入第二層感知機，得到初始編碼向量；所述第二層感知機的權重矩陣通過反向傳播和小批次梯度下降優化，依據激活特征向量在批次中的變化動態調整學習率。

24、進一步地，根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量，包括：

25、基于核密度估計法分析所述語音特征向量在各維度的概率密度分布，確定出峰值、峰值間距、寬度以及周圍向量疏密程度；

26、依據峰值確定聚類算法的聚類中心，根據峰值間距、寬度以及周圍向量疏密估算聚類數量；

27、基于k-means算法，將所述初始編碼向量分配到最近的聚類，得到聚類后的編碼向量。

28、進一步地，所述通過自適應調整權重的注意力機制，依據語音上下文信息動態為聚類后的編碼向量分配權重，并進行加權處理，包括：

29、分析語音上下文信息，提取語義關鍵元素、停頓特征、語調趨勢，并轉化為上下文特征向量；

30、計算聚類后的編碼向量與上下文特征向量的相關性，根據相關性自適應調整聚類后的編碼向量對應的注意力權重，將所述注意力權重與聚類后的編碼向量進行加權計算。

31、本專利技術還提供了一種基于自適應的ai大模型流式語音識別裝置，包括：

32、處理單元，用于對采集到的流式語音信號進行降噪以及語音增強，得到初步語音信號；

33、提取單元，用于對所述初步語音信號進行特征提取，得到語音特征向量；

34、識別單元，用于將所述語音特征向量輸入至自適應的ai大模型中，得到語音識別結果；

35、其中，所述ai大模型具體用于：

36、對所述語音特征向量進行多層感知機編碼，得到初始編碼向量；

37、根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量；

38、通過自適應調整權重的注意力機制，依據語音上下文信息動態為聚類后的編碼向量分配權重，并進行加權處理；

39、將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果。

40、本專利技術還提供一種計算機設備，包括存儲器和處理器，所述存儲器中存儲有計算機程序，所述處理器執行所述計算機程序時實現上述任一項所述方法的步驟。

41、本專利技術還提供一種計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現上述任一項所述的方法的步驟。

42、本專利技術提供的基于自適應的ai大模型流式語音識別方法、裝置以及設備，包括：對采集到的流式語音信號進行降噪以及語音增強，得到初步語音信號；對所述初步語音信號進行特征提取，得到語音特征向量；將所述語音特征向量輸入至自適應的ai大模型中，得到語音識別結果；其中，所述ai大模型具體用于：對所述語音特征向量進行多層感知機編碼，得到初始編碼向量；根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量；通過自適應調整權重的注意力機制，依據語音上下文信息動態為聚類后的編碼向量分配權重，并進行加權處理；將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果。在本文檔來自技高網...

【技術保護點】

1.一種基于自適應的AI大模型流式語音識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于自適應的AI大模型流式語音識別方法，其特征在于，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

3.根據權利要求1所述的基于自適應的AI大模型流式語音識別方法，其特征在于，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

4.根據權利要求1所述的基于自適應的AI大模型流式語音識別方法，其特征在于，所述得到語音識別結果之后，包括：

5.根據權利要求1所述的基于自適應的AI大模型流式語音識別方法，其特征在于，所述對所述語音特征向量進行多層感知機編碼，得到初始編碼向量，包括：

6.根據權利要求1所述的基于自適應的AI大模型流式語音識別方法，其特征在于，根據所述語音特征向量的分布變化動態調整聚類算法的聚類中心和聚類數量，以對所述初始編碼向量進行聚類，得到聚類后的編碼向量，包括：

7.根據權利要求1所述的基于自適應的AI

8.一種基于自適應的AI大模型流式語音識別裝置，其特征在于，包括：

9.一種計算機設備，包括存儲器和處理器，所述存儲器中存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。

...

【技術特征摘要】

1.一種基于自適應的ai大模型流式語音識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于自適應的ai大模型流式語音識別方法，其特征在于，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

3.根據權利要求1所述的基于自適應的ai大模型流式語音識別方法，其特征在于，所述將加權后的編碼向量輸入至基于自適應生長結構的神經網絡中進行解碼，得到所述語音識別結果，包括：

4.根據權利要求1所述的基于自適應的ai大模型流式語音識別方法，其特征在于，所述得到語音識別結果之后，包括：

5.根據權利要求1所述的基于自適應的ai大模型流式語音識別方法，其特征在于，所述對所述語音特征向量進行多層感知機編碼，得到初始編碼向量，包括：

6.根據權利要求1所述的基于自...

【專利技術屬性】
技術研發人員：車建波，
申請(專利權)人：深圳市貝鉑智能科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術