基于語音數據檢索增強技術的障礙語音識別和重構方法技術

技術編號：43854492 閱讀：19 留言：0更新日期：2024-12-31 18:45

本發明專利技術公開一種基于語音數據檢索增強技術的障礙語音識別和重構方法。該方法包括：將待識別障礙語音切分為多個片段；對于每一片段，通過檢索障礙語音數據庫，得到多個相似語音片段以及對應的文本內容；對于相似語音片段和待識別障礙語音，分別進行編碼，得到相似語音編碼和待識別障礙語音編碼；將相似語音編碼和待識別障礙語音編碼分別轉換為大語言模型理解的第一編碼和第二編碼；將第一編碼和第二編碼輸入大語言模型，并利用設定的提示詞，獲得所述待識別障礙語音對應的文本信息，其中提示詞包含待識別障礙語音的歷史對話內容及相似語音片段對應的文本內容；對于識別出的文本信息進行語音重構。本發明專利技術能夠提高障礙語音識別的精準性和泛化能力。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及信息，更具體地，涉及一種基于語音數據檢索增強技術的障礙語音識別和重構方法。

技術介紹

1、構音障礙(dysarthria)是指由于神經病變，與言語有關的肌肉麻痹、收縮力減弱或運動不協調所導致的言語障礙。構音障礙患者的發音一般斷斷續續，模糊不清，很難與他人交流。近年來，隨著深度學習的發展，語音識別(asr)技術出現了很大進展，但針對構音障礙患者的障礙語音識別依舊是一項具有挑戰性的工作。為了更好地識別障礙語音，研究者們在語音識別的基礎上，結合障礙語音的特點進行方法設計，提高模型性能。例如，使用人工神經網絡(ann)分析asr對構音障礙言語的實驗結果。又如，使用隱馬爾可夫模型(hmm)設計構音障礙語音的asr，并比較了快速傅里葉變換、線性預測和倒譜系數等不同聲學特征的結果。由于設備計算能力的限制，這些研究并沒有取得特別顯著的成果。隨著采用深度學習方法的asr技術的發展和計算能力的大幅提高，人們開展了大量研究來提高asr對構音障礙語音的性能。例如，takashima等提出了一個端到端的asr框架，該框架共同封裝了聲學和語言模型，框架的聲學模型部分在構音障礙的說話者之間共享，并且該框架的語言模型部分分配給每種語言，而不考慮構音障礙。

2、大語言模型(llm)是人工智能領域一種高度復雜和強大的機器學習模型，它專門設計用來理解和生成人類語言。這些模型通過在大量文本數據上進行訓練，學習語言的模式、語法、語義以及上下文關系。現階段的大語言模型如chat?gpt、文心一言、通義千問、kimi等，已經能夠做到遵循較長的人類語

3、大模型檢索增強技術(retrieval-augmented?generation，簡稱rag)是一種結合了信息檢索和大型語言模型(llm)生成能力的技術。它通過從數據存儲中檢索相關內容來增強人工智能生成內容的結果，提高準確性和魯棒性。rag技術特別適合處理需要特定領域知識的任務，能夠有效避免大模型的幻覺問題，提供權威性的知識，并確保數據安全。

4、語音生成技術(tts)是一種將文本轉換為語音的技術，它使得計算機能夠模擬人類的語音。tts技術在人機交互中扮演著重要的角色，廣泛應用于智能助手、智能客服、有聲讀物、呼叫中心和車載娛樂設備等領域。tts技術的發展經歷了從早期的機械式語音合成到現在的自然語言處理和深度學習技術的應用?，F代的tts系統不僅關注聲音的自然度和流暢性，還致力于個性化和情感化，以提供更加豐富和真實的交互體驗。

5、在現有技術中，專利申請cn202211156788.6公開了一種特征增強的構音障礙語音處理方法。該方法包括以下步驟：s1、對原始信號進行快速傅里葉變換，計算得到其頻譜信號；s2、對頻譜信號進行經驗模態分解，得到各個本征模式分解分量；s3、計算前m個本征模式分解分量的功率譜密度，得到功率譜特征向量；s4、對前m個本征模式分解分量分別進行快速沃爾什-哈達瑪變換得到沃爾什變換系數，然后提取各個沃爾什變換系數的統計學特征，得到統計學特征向量；s5、將所述功率譜特征向量和統計學特征向量組合，得到組合特征向量。該方案提高了構音障礙語音識別的準確率。專利申請cn202110512052.7公開了基于視覺面部輪廓運動的構音障礙語音識別方法及系統。該系統包括多模態數據獲取、多模態融合特征計算、多模態語音識別計算和語言模型計算模塊；多模態數據獲取算模塊用于獲取構音障礙者的面部輪廓運動視頻數據和與視頻同步的語音數據；多模態融合特征計算模塊用于融合面部輪廓運動特征和語音聲學特征；多模態語音識別計算模塊用于獲得由多模態特征到音素字符的映射關系；語言模型計算模塊用于獲得由音素字符到中文句子的映射關系。該方案通過融合語音聲學特征參數與構音障礙者的發音動作得到融合后的多模態特征，利用融合后的多模態特征進行構音障礙語音識別，由此有效地提升構音障礙語音識別準確度。

6、經分析，現有的語音識別方案主要存在以下缺陷：

7、1)現有的語音識別技術，不能通過檢索語音數據庫內容用于參考，因而準確率偏低，同時傳統的障礙語音識別方法大多使用n-gram語言模型，不能綜合大長度上下文進行識別。

8、2)現有基于大語言模型的語音識別方法難以應用在障礙語音上。由于障礙語音的模糊性，其發音很難直接與大語言模型的輸入文本建立對應關系，因而必須將語音轉換為大模型可以理解的編碼內容。

技術實現思路

1、本專利技術的目的是克服上述現有技術的缺陷，提供一種基于語音數據檢索增強技術的障礙語音識別和重構方法。該方法包括以下步驟：

2、基于障礙語音數據庫中數據的長度，將待識別障礙語音切分為多個片段；

3、對于所述多個片段中的每一片段，利用第一語音編碼器進行編碼，并通過檢索障礙語音數據庫，得到多個相似語音片段以及對應的文本內容；

4、對于所述多個相似語音片段和所述待識別障礙語音，分別使用相同的第二語音編碼器進行編碼，得到對應的相似語音編碼和待識別障礙語音編碼；

5、利用經訓練的語音編碼轉換器，將所述相似語音編碼和待識別障礙語音編碼分別轉換為大語言模型理解的第一編碼和第二編碼；

6、將第一編碼和第二編碼輸入到大語言模型，并利用設定的提示詞，獲得所述待識別障礙語音對應的文本信息，其中所述提示詞包含所述待識別障礙語音的歷史對話內容及所述多個相似語音片段對應的文本內容；

7、對于所識別出的文本信息，利用語音合成技術進行語音重構。

8、與現有技術相比，本專利技術的優點在于，針對障礙語音數據相對不足、障礙語音跟正常語音差異較大以及現有語音識別方案難以利用對話歷史信息等問題，本專利技術所提出的基于語音數據檢索增強技術的障礙語音識別和重構方法，利用大量數據得到的預訓練大語言模型彌補障礙語音數據不足的問題，并使用歷史對話內容對大模型進行提示學習，最后通過上下文學習能力和增強檢索技術有針對性地對障礙語音進行識別，進而在準確識別結果上利用現有的語音合成技術(tts)生成正確的語音。本專利技術降低了語音差異對識別結果的影響，提高了識別準確率，能夠將障礙語音轉化為易于理解的文字以及正常語音，有利于構音障礙者與外界進行正常交流。

9、通過以下參照附圖對本專利技術的示例性實施例的詳細描述，本專利技術的其它特征及其優點將會變得清楚。

本文檔來自技高網...

【技術保護點】

1.一種基于語音數據檢索增強技術的障礙語音識別和重構方法，包括以下步驟：

2.根據權利要求1所述的方法，其特征在于，根據以下步驟將待識別障礙語音切分為多個片段：

3.根據權利要求1所述的方法，其特征在于，第一語音編碼器和第二語音編碼器是相同或不同類型的編碼器。

4.根據權利要求3所述的方法，其特征在于，第一語音編碼器和第二語音編碼器選自HuBERT編碼器、Whisper編碼器或Wav2Vec編碼器。

5.根據權利要求1所述的方法，其特征在于，所述多個相似語音片段之間的相似性基于余弦相似度或歐氏距離進行度量。

6.根據權利要求1所述的方法，其特征在于，所述語音合成技術是VITS語音合成模型。

7.根據權利要求1所述的方法，其特征在于，所述語音編碼轉換器是多層神經網絡。

8.根據權利要求1所述的方法，其特征在于，所述語音編碼轉換器采用正常語音數據進行訓練，用于將語音內容轉換為文本內容。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其中，該計算機程序被處理器執行時實現根據權利要求1至8

10.一種計算機設備，包括存儲器和處理器，在所述存儲器上存儲有能夠在處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至8中任一項所述的方法的步驟。

...

【技術特征摘要】

1.一種基于語音數據檢索增強技術的障礙語音識別和重構方法，包括以下步驟：

2.根據權利要求1所述的方法，其特征在于，根據以下步驟將待識別障礙語音切分為多個片段：

3.根據權利要求1所述的方法，其特征在于，第一語音編碼器和第二語音編碼器是相同或不同類型的編碼器。

4.根據權利要求3所述的方法，其特征在于，第一語音編碼器和第二語音編碼器選自hubert編碼器、whisper編碼器或wav2vec編碼器。

5.根據權利要求1所述的方法，其特征在于，所述多個相似語音片段之間的相似性基于余弦相似度或歐氏距離進行度量。

6.根據權利要求1所述的方法，其特...

【專利技術屬性】
技術研發人員：陳易翔，謝旭榮，蘇榮鋒，燕楠，王嵐，
申請(專利權)人：中國科學院深圳先進技術研究院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術