本發明專利技術提供一種語音識別驗證處理方法及裝置,涉及語音技術領域,可用于金融領域或其他技術領域。所述方法包括:獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。所述裝置執行上述方法。本發明專利技術實施例提供的語音識別驗證處理方法及裝置,能夠提高語音識別驗證的準確性,進而保證用戶身份信息安全。全。全。
【技術實現步驟摘要】
一種語音識別驗證處理方法及裝置
[0001]本專利技術涉及語音
,具體涉及一種語音識別驗證處理方法及裝置。
技術介紹
[0002]隨著聲音技術的發展,通過識別聲音可以給人們生活工作帶來便利,但也給有些不法分子帶來可乘之機。
[0003]不法分子通過假冒說話人語音和合成說話人語音等方式,冒充說話人身份,進而從事非法活動,現有技術對合成說話人語音的識別準確率不高。
技術實現思路
[0004]針對現有技術中的問題,本專利技術實施例提供一種語音識別驗證處理方法及裝置,能夠至少部分地解決現有技術中存在的問題。
[0005]一方面,本專利技術提出一種語音識別驗證處理方法,包括:
[0006]獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;
[0007]基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;
[0008]若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。
[0009]其中,所述對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖,包括:
[0010]對所述原始語音信號進行預加重處理,以提升所述原始語音信號在高頻部分的信噪比;
[0011]對預加重處理后的語音信號進行分幀加窗處理,并對分幀加窗處理后的語音信號進行快速傅里葉變換,得到每幀語音信號對應的頻譜;
[0012]對各頻譜的頻譜幅度分別進行求平方計算,并將求平方計算結果按照時間維度進行拼接,得到所述第一語譜圖。
[0013]其中,所述卷積循環神經網絡包括依次相連的第一卷積神經網絡和第一循環神經網絡;相應的,所述基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別,包括:
[0014]基于所述第一卷積神經網絡對所述第一語譜圖進行特征提取,得到空間局部特征;
[0015]基于所述第一循環神經網絡對所述空間局部特征進行特征提取,得到由時間序列表示的語音特征;
[0016]基于第一全連接層對所述語音特征進行識別,得到合成語音識別結果。
[0017]其中,所述對非合成語音的語音信號進行聲紋識別,包括:
[0018]對非合成語音的語音信號進行淺層語音特征提取,得到淺層語音特征;
[0019]對非合成語音的語音信號進行深層語音特征提取,得到深層語音特征;
[0020]融合所述淺層語音特征和所述深層語音特征,得到融合語音特征;
[0021]基于第二全連接層對所述融合語音特征進行識別,得到聲紋識別結果。
[0022]其中,所述對非合成語音的語音信號進行深層語音特征提取,得到深層語音特征,包括:
[0023]對非合成語音的語音信號進行預處理,得到第二語譜圖;
[0024]基于預設語音特征提取模型對所述第二語譜圖進行深層語音特征提取,得到深層語音特征;
[0025]所述預設語音特征提取模型根據語音特征提取樣本數據訓練第二卷積神經網絡得到。
[0026]其中,還獲取所述淺層語音特征的數據維數;相應的,所述語音識別驗證處理方法還包括:
[0027]對基于所述預設語音特征提取模型得到的深層語音特征進行數據降維,得到與所述淺層語音特征的數據維數相等的深層語音特征的數據維數。
[0028]其中,所述對基于所述預設語音特征提取模型得到的深層語音特征進行數據降維,包括:
[0029]基于第二循環神經網絡對基于所述預設語音特征提取模型得到的深層語音特征進行數據降維。
[0030]一方面,本專利技術提出一種語音識別驗證處理裝置,包括:
[0031]獲取單元,用于獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;
[0032]識別單元,用于基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;
[0033]驗證單元,用于若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。
[0034]再一方面,本專利技術實施例提供一種電子設備,包括:處理器、存儲器和總線,其中,
[0035]所述處理器和所述存儲器通過所述總線完成相互間的通信;
[0036]所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令能夠執行如下方法:
[0037]獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;
[0038]基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;
[0039]若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。
[0040]本專利技術實施例提供一種非暫態計算機可讀存儲介質,包括:
[0041]所述非暫態計算機可讀存儲介質存儲計算機指令,所述計算機指令使所述計算機執行如下方法:
[0042]獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;
[0043]基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;
[0044]若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。
[0045]本專利技術實施例提供的語音識別驗證處理方法及裝置,獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果,能夠提高語音識別驗證的準確性,進而保證用戶身份信息安全。
附圖說明
[0046]為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。在附圖中:
[0047]圖1是本專利技術一實施例提供的語音識別驗證處理方法的流程示意圖。
[0048]圖2是本專利技術另一實施例提供的語音識別驗證處理方法的流程示意圖。
[0049]圖3是本專利技術另一實施例提供的語音識別驗證處理方法本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種語音識別驗證處理方法,其特征在于,包括:獲取原始語音信號,對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖;基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別;所述預設合成語音識別模型根據合成語音樣本數據訓練卷積循環神經網絡得到;若確定合成語音識別結果為非合成語音,則對非合成語音的語音信號進行聲紋識別,并對聲紋識別結果是否為目標人本人聲音進行驗證,得到驗證結果。2.根據權利要求1所述的語音識別驗證處理方法,其特征在于,所述對所述原始語音信號進行預處理,得到由二維數據表示的第一語譜圖,包括:對所述原始語音信號進行預加重處理,以提升所述原始語音信號在高頻部分的信噪比;對預加重處理后的語音信號進行分幀加窗處理,并對分幀加窗處理后的語音信號進行快速傅里葉變換,得到每幀語音信號對應的頻譜;對各頻譜的頻譜幅度分別進行求平方計算,并將求平方計算結果按照時間維度進行拼接,得到所述第一語譜圖。3.根據權利要求1所述的語音識別驗證處理方法,其特征在于,所述卷積循環神經網絡包括依次相連的第一卷積神經網絡和第一循環神經網絡;相應的,所述基于預設合成語音識別模型對所述第一語譜圖進行合成語音識別,包括:基于所述第一卷積神經網絡對所述第一語譜圖進行特征提取,得到空間局部特征;基于所述第一循環神經網絡對所述空間局部特征進行特征提取,得到由時間序列表示的語音特征;基于第一全連接層對所述語音特征進行識別,得到合成語音識別結果。4.根據權利要求1至3任一所述的語音識別驗證處理方法,其特征在于,所述對非合成語音的語音信號進行聲紋識別,包括:對非合成語音的語音信號進行淺層語音特征提取,得到淺層語音特征;對非合成語音的語音信號進行深層語音特征提取,得到深層語音特征;融合所述淺層語音特征和所述深層語音特征,得到融合語音特征;基于第二全連接層對所述融合語音特征進行識別,得到...
【專利技術屬性】
技術研發人員:黃淋,寧博,劉金山,饒宇熹,
申請(專利權)人:中國工商銀行股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。