語音識別方法及裝置制造方法及圖紙

技術編號：44499682 閱讀：5 留言：0更新日期：2025-03-04 18:08

本申請公開了一種語音識別方法及裝置，其中，獲取需要處理的待處理語音信號；獲取預先訓練的說話人檢測神經網絡模型；基于說話人檢測神經網絡模型對待處理語音信號進行說話人識別，得到第一預測說話人標識序列，其中，第一預測說話人標識序列包括待處理語音信號上各個語音幀數據的預測說話人標識。本申請預先訓練說話人檢測神經網絡模型直接進行幀級的說話人變化檢測，得到幀級說話人變化檢測的第一預測說話人標識序列，相對于傳統聚類方式，大大提高了語音識別的準確度。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能，具體涉及一種語音識別方法及裝置。

技術介紹

1、隨著移動終端技術的持續發展，消費者對于移動終端相冊的需求不再僅僅局限于回顧照片和視頻，對于多模態智能編創的需求也日益提高。在此背景下，基于相冊視頻中語音信息的智能相冊編輯技術也日益重要。目前主流的語音處理流程主要包括：說話人分割與聚類(speaker?diarization，sd)。說話人分割與聚類技術解決的問題是“誰在什么時候說了話”,在給定一個包含多個人交替說話的語音情況下,“說話人分割與聚類”技術需要判斷每句話的起始時間和結束時間,并且得出這一句話是誰說的。但要想達到很好的說話人聚類效果，需要預先訓練一個好的聲紋模型，保證提取聲紋信息矢量具有很強的區分性。這會使得流程復雜，且增加了信息損失的風險，并且基于說話人分割聚類的方案需要保證每個說話人的語料不是太少，在語音段中某個說話人的語料很少，會使得分割聚類效果下降嚴重，導致語音識別的準確度較低。

2、也即，現有技術中語音識別的準確度較低。

技術實現思路

1、本申請實施例提供一種語音識別方法及裝置，可以提高語音識別的準確度。

2、第一方面，本申請提供的語音識別方法，包括：

3、獲取需要處理的待處理語音信號；

4、獲取預先訓練的說話人檢測神經網絡模型；

5、基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別，得到第一預測說話人標識序列，其中，所述第一預測說話人標識序列包括所述待處理語音信號上各

6、第二方面，本申請提供的語音識別裝置，包括：

7、語音獲取模塊，用于獲取需要處理的待處理語音信號；

8、模型獲取模塊，用于獲取預先訓練的說話人檢測神經網絡模型；

9、識別模塊，用于基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別，得到第一預測說話人標識序列，其中，所述第一預測說話人標識序列包括所述待處理語音信號上各個語音幀數據的預測說話人標識。

10、第三方面，本申請提供的電子設備，包括存儲器和處理器，存儲器存儲有計算機程序，處理器用于運行存儲器內的計算機程序，實現本申請所提供的語音識別方法中的步驟。

11、第四方面，本申請提供的計算機可讀存儲介質，存儲有多條指令，該指令適于處理器進行加載，實現本申請所提供的語音識別方法中的步驟。

12、第五方面，本申請提供的計算機程序產品，包括計算機程序或指令，該計算機程序或指令被處理器執行時實現本申請所提供的語音識別方法中的步驟。

13、本申請中，相較于相關技術，獲取需要處理的待處理語音信號；獲取預先訓練的說話人檢測神經網絡模型；基于說話人檢測神經網絡模型對待處理語音信號進行說話人識別，得到第一預測說話人標識序列，其中，第一預測說話人標識序列包括待處理語音信號上各個語音幀數據的預測說話人標識。本申請預先訓練說話人檢測神經網絡模型直接進行幀級的說話人變化檢測，得到幀級說話人變化檢測的第一預測說話人標識序列，相對于傳統聚類方式，大大提高了語音識別的準確度。

本文檔來自技高網...

【技術保護點】

1.一種語音識別方法，其特征在于，包括：

2.根據權利要求1所述的語音識別方法，其特征在于，所述語音識別方法還包括：

3.根據權利要求2所述的語音識別方法，其特征在于，所述對所述第一預測說話人標識序列平滑處理，得到第二預測說話人標識序列，包括：

4.根據權利要求1所述的語音識別方法，其特征在于，所述基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別，得到第一預測說話人標識序列，包括：

5.根據權利要求1所述的語音識別方法，其特征在于，所述獲取需要處理的待處理語音信號，包括：

6.根據權利要求1所述的語音識別方法，其特征在于，所述獲取預先訓練的說話人檢測神經網絡模型，之前，包括：

7.一種語音識別裝置，其特征在于，包括：

8.一種電子設備，其特征在于，包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器用于運行所述存儲器內的計算機程序，以執行權利要求1至6任一項所述的語音識別方法中的步驟。

9.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質存儲有多條指令，

10.一種計算機程序產品，包括計算機程序或指令，其特征在于，該計算機程序或指令被處理器執行時實現權利要求1至6任一項所述的語音識別方法中的步驟。

...

【技術特征摘要】

1.一種語音識別方法，其特征在于，包括：

2.根據權利要求1所述的語音識別方法，其特征在于，所述語音識別方法還包括：

3.根據權利要求2所述的語音識別方法，其特征在于，所述對所述第一預測說話人標識序列平滑處理，得到第二預測說話人標識序列，包括：

5.根據權利要求1所述的語音識別方法，其特征在于，所述獲取需要處理的待處理語音信號，包括：

6.根據權利要求1所述的語音識別方法，其特征在于，所述獲取預先訓...

【專利技術屬性】
技術研發人員：張圣，嚴鋒貴，
申請(專利權)人：OPPO廣東移動通信有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術