System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 天天看高清无码一区二区三区,成人免费无码大片A毛片抽搐,成年男人裸j照无遮挡无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語音識別方法及裝置制造方法及圖紙

    技術編號:44499682 閱讀:5 留言:0更新日期:2025-03-04 18:08
    本申請公開了一種語音識別方法及裝置,其中,獲取需要處理的待處理語音信號;獲取預先訓練的說話人檢測神經網絡模型;基于說話人檢測神經網絡模型對待處理語音信號進行說話人識別,得到第一預測說話人標識序列,其中,第一預測說話人標識序列包括待處理語音信號上各個語音幀數據的預測說話人標識。本申請預先訓練說話人檢測神經網絡模型直接進行幀級的說話人變化檢測,得到幀級說話人變化檢測的第一預測說話人標識序列,相對于傳統聚類方式,大大提高了語音識別的準確度。

    【技術實現步驟摘要】

    本申請涉及人工智能,具體涉及一種語音識別方法及裝置


    技術介紹

    1、隨著移動終端技術的持續發展,消費者對于移動終端相冊的需求不再僅僅局限于回顧照片和視頻,對于多模態智能編創的需求也日益提高。在此背景下,基于相冊視頻中語音信息的智能相冊編輯技術也日益重要。目前主流的語音處理流程主要包括:說話人分割與聚類(speaker?diarization,sd)。說話人分割與聚類技術解決的問題是“誰在什么時候說了話”,在給定一個包含多個人交替說話的語音情況下,“說話人分割與聚類”技術需要判斷每句話的起始時間和結束時間,并且得出這一句話是誰說的。但要想達到很好的說話人聚類效果,需要預先訓練一個好的聲紋模型,保證提取聲紋信息矢量具有很強的區分性。這會使得流程復雜,且增加了信息損失的風險,并且基于說話人分割聚類的方案需要保證每個說話人的語料不是太少,在語音段中某個說話人的語料很少,會使得分割聚類效果下降嚴重,導致語音識別的準確度較低。

    2、也即,現有技術中語音識別的準確度較低。


    技術實現思路

    1、本申請實施例提供一種語音識別方法及裝置,可以提高語音識別的準確度。

    2、第一方面,本申請提供的語音識別方法,包括:

    3、獲取需要處理的待處理語音信號;

    4、獲取預先訓練的說話人檢測神經網絡模型;

    5、基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別,得到第一預測說話人標識序列,其中,所述第一預測說話人標識序列包括所述待處理語音信號上各個語音幀數據的預測說話人標識。

    6、第二方面,本申請提供的語音識別裝置,包括:

    7、語音獲取模塊,用于獲取需要處理的待處理語音信號;

    8、模型獲取模塊,用于獲取預先訓練的說話人檢測神經網絡模型;

    9、識別模塊,用于基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別,得到第一預測說話人標識序列,其中,所述第一預測說話人標識序列包括所述待處理語音信號上各個語音幀數據的預測說話人標識。

    10、第三方面,本申請提供的電子設備,包括存儲器和處理器,存儲器存儲有計算機程序,處理器用于運行存儲器內的計算機程序,實現本申請所提供的語音識別方法中的步驟。

    11、第四方面,本申請提供的計算機可讀存儲介質,存儲有多條指令,該指令適于處理器進行加載,實現本申請所提供的語音識別方法中的步驟。

    12、第五方面,本申請提供的計算機程序產品,包括計算機程序或指令,該計算機程序或指令被處理器執行時實現本申請所提供的語音識別方法中的步驟。

    13、本申請中,相較于相關技術,獲取需要處理的待處理語音信號;獲取預先訓練的說話人檢測神經網絡模型;基于說話人檢測神經網絡模型對待處理語音信號進行說話人識別,得到第一預測說話人標識序列,其中,第一預測說話人標識序列包括待處理語音信號上各個語音幀數據的預測說話人標識。本申請預先訓練說話人檢測神經網絡模型直接進行幀級的說話人變化檢測,得到幀級說話人變化檢測的第一預測說話人標識序列,相對于傳統聚類方式,大大提高了語音識別的準確度。

    本文檔來自技高網...

    【技術保護點】

    1.一種語音識別方法,其特征在于,包括:

    2.根據權利要求1所述的語音識別方法,其特征在于,所述語音識別方法還包括:

    3.根據權利要求2所述的語音識別方法,其特征在于,所述對所述第一預測說話人標識序列平滑處理,得到第二預測說話人標識序列,包括:

    4.根據權利要求1所述的語音識別方法,其特征在于,所述基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別,得到第一預測說話人標識序列,包括:

    5.根據權利要求1所述的語音識別方法,其特征在于,所述獲取需要處理的待處理語音信號,包括:

    6.根據權利要求1所述的語音識別方法,其特征在于,所述獲取預先訓練的說話人檢測神經網絡模型,之前,包括:

    7.一種語音識別裝置,其特征在于,包括:

    8.一種電子設備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器用于運行所述存儲器內的計算機程序,以執行權利要求1至6任一項所述的語音識別方法中的步驟。

    9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有多條指令,所述指令適于處理器進行加載,以執行權利要求1至6任一項所述的語音識別方法中的步驟。

    10.一種計算機程序產品,包括計算機程序或指令,其特征在于,該計算機程序或指令被處理器執行時實現權利要求1至6任一項所述的語音識別方法中的步驟。

    ...

    【技術特征摘要】

    1.一種語音識別方法,其特征在于,包括:

    2.根據權利要求1所述的語音識別方法,其特征在于,所述語音識別方法還包括:

    3.根據權利要求2所述的語音識別方法,其特征在于,所述對所述第一預測說話人標識序列平滑處理,得到第二預測說話人標識序列,包括:

    4.根據權利要求1所述的語音識別方法,其特征在于,所述基于所述說話人檢測神經網絡模型對所述待處理語音信號進行說話人識別,得到第一預測說話人標識序列,包括:

    5.根據權利要求1所述的語音識別方法,其特征在于,所述獲取需要處理的待處理語音信號,包括:

    6.根據權利要求1所述的語音識別方法,其特征在于,所述獲取預先訓...

    【專利技術屬性】
    技術研發人員:張圣嚴鋒貴
    申請(專利權)人:OPPO廣東移動通信有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码av在线播放| 69ZXX少妇内射无码| 亚洲AV无码不卡在线观看下载| 无码国内精品久久人妻| 无码精品A∨在线观看免费| av无码精品一区二区三区四区 | 无码专区AAAAAA免费视频| mm1313亚洲国产精品无码试看| 国产羞羞的视频在线观看 国产一级无码视频在线 | 中文字幕无码一区二区三区本日| 国产成人无码A区在线观看导航| 国产成人亚洲综合无码| 亚洲精品无码久久久久APP| 国产精品无码成人午夜电影| 久久亚洲精品成人无码| 免费无码VA一区二区三区| 激情无码人妻又粗又大| 人妻无码久久精品人妻| 中日韩亚洲人成无码网站| 无码人妻黑人中文字幕| 中文字幕乱妇无码AV在线 | 国产成人无码av在线播放不卡| 精品久久亚洲中文无码| 亚洲成a人片在线观看无码专区| 国产高新无码在线观看| 精品一区二区三区无码免费直播| 日韩av无码国产精品| 无码中文av有码中文av| 人妻精品无码一区二区三区| 人妻少妇看A偷人无码精品| 无码无需播放器在线观看| 无码午夜人妻一区二区不卡视频 | 免费无码又爽又刺激高潮软件| 免费无码国产在线观国内自拍中文字幕 | 欧洲黑大粗无码免费| 无码任你躁久久久久久老妇App| 亚洲中文字幕无码久久精品1| 国产精品无码无在线观看| 日韩欧精品无码视频无删节| 精品爆乳一区二区三区无码av| 18禁网站免费无遮挡无码中文|