當(dāng)前位置: 首頁 > 專利查詢>深圳市貝鉑智能科技有限公司專利>正文

自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備技術(shù)方案

技術(shù)編號(hào)：43469510 閱讀：10 留言：0更新日期：2024-11-27 13:07

本發(fā)明專利技術(shù)提供了一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備，包括：對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段；對(duì)每個(gè)音頻片段進(jìn)行頻譜分析，得到對(duì)應(yīng)的頻譜特征；根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段；對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻；對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測，確定語音片段和非語音片段；對(duì)語音片段進(jìn)行特征提取，得到語音特征；將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果。在本發(fā)明專利技術(shù)中，通過對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，有效降低噪聲的干擾，提升語音質(zhì)量。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及語音處理的，特別涉及一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備。

技術(shù)介紹

1、在各種國際會(huì)議、學(xué)術(shù)交流、跨國商務(wù)談判以及多語種的媒體內(nèi)容中，多語言長錄音的出現(xiàn)越來越普遍。然而，目前在處理多語言長錄音時(shí)面臨著諸多挑戰(zhàn)。

2、一方面，實(shí)際環(huán)境中往往存在各種噪聲干擾，如背景人聲、設(shè)備噪聲、環(huán)境噪聲等，這些噪聲會(huì)嚴(yán)重影響音頻的質(zhì)量，使得語音的清晰度降低，給后續(xù)的轉(zhuǎn)寫工作帶來極大困難。

3、另一方面，不同語言的語音特點(diǎn)各異，發(fā)音規(guī)則、語調(diào)、語速等都有所不同，這增加了準(zhǔn)確轉(zhuǎn)寫的難度，造成效率低下，難以滿足實(shí)際需求。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)的主要目的為提供一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備，旨在自適應(yīng)去除噪聲的干擾，以及提高多語言長錄音轉(zhuǎn)寫的效率。

2、為實(shí)現(xiàn)上述目的，本專利技術(shù)提供了一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，包括以下步驟：

3、對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段；對(duì)每個(gè)音頻片段進(jìn)行頻譜分析，得到對(duì)應(yīng)的頻譜特征；

4、根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段；

5、對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻；

6、對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測，確定語音片段和非語音片段；對(duì)語音片段進(jìn)行特征提取，得到語音特征；

7、將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果。

8、進(jìn)一步地，所述根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段，包括：

9、對(duì)音頻片段的頻譜特征進(jìn)行能量分布分析，得到不同頻率區(qū)間的能量分布情況；

10、將能量分布情況與預(yù)設(shè)的噪聲能量分布閾值進(jìn)行比較處理，若任一頻率區(qū)間的能量值低于噪聲能量分布閾值且持續(xù)時(shí)長達(dá)到預(yù)設(shè)時(shí)長，則將所述頻率區(qū)間對(duì)應(yīng)的音頻片段部分標(biāo)記為疑似噪聲片段；

11、對(duì)疑似噪聲片段進(jìn)行周期性檢測處理，若無周期性，則確定所述疑似噪聲片段為噪聲片段。

12、進(jìn)一步地，所述對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻，包括：

13、對(duì)噪聲片段進(jìn)行噪聲特征提取處理，得到噪聲特征參數(shù)；

14、根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器；

15、將所述多語言長錄音輸入自適應(yīng)濾波器進(jìn)行濾波，得到去噪后的多語言音頻；其中，所述自適應(yīng)濾波器在濾波過程中實(shí)時(shí)調(diào)整濾波器參數(shù)以適應(yīng)不同的噪聲變化。

16、進(jìn)一步地，所述根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器，包括：

17、設(shè)置濾波器的初始參數(shù)；初始參數(shù)包括濾波器階數(shù)、收斂系數(shù)和步長因子；

18、利用噪聲特征參數(shù)訓(xùn)練濾波器的權(quán)值向量，通過最小均方誤差算法不斷調(diào)整權(quán)值向量，使得濾波器輸出與噪聲片段之間的誤差最小化；在訓(xùn)練過程中，實(shí)時(shí)監(jiān)測誤差變化情況，當(dāng)誤差穩(wěn)定在預(yù)設(shè)范圍內(nèi)時(shí)，停止訓(xùn)練，完成自適應(yīng)濾波器的構(gòu)建。

19、進(jìn)一步地，所述將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果，包括：

20、將語音特征輸入多語言轉(zhuǎn)寫模型的輸入層，經(jīng)過輸入層的預(yù)處理后傳遞至隱藏層；

21、基于隱藏層對(duì)語音特征進(jìn)行深度特征提取，提取出不同語言的語義特征和語法特征；

22、基于多語言轉(zhuǎn)寫模型的輸出層，對(duì)提取出的語義特征和語法特征進(jìn)行概率計(jì)算，確定每個(gè)時(shí)間步最匹配的字符或單詞；

23、對(duì)輸出層得到的每個(gè)時(shí)間步的字符或單詞進(jìn)行依序組合，并去除重復(fù)和錯(cuò)誤部分，得到最終的文本結(jié)果。

24、進(jìn)一步地，所述對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段之前，包括：

25、與多個(gè)翻譯終端協(xié)商建立加密通信連接；其中，各個(gè)翻譯終端為各個(gè)用戶所持終端；

26、獲取各個(gè)翻譯終端的錄音音頻；

27、按照時(shí)間順序，將各個(gè)翻譯終端的錄音音頻進(jìn)行組合，得到所述多語言長錄音。

28、本專利技術(shù)還提供了一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫系統(tǒng)，包括：

29、分割模塊，用于對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段；對(duì)每個(gè)音頻片段進(jìn)行頻譜分析，得到對(duì)應(yīng)的頻譜特征；

30、檢測模塊，用于根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段；

31、去噪模塊，用于對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻；

32、提取模塊，用于對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測，確定語音片段和非語音片段；對(duì)語音片段進(jìn)行特征提取，得到語音特征；

33、轉(zhuǎn)寫模塊，用于將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果。

34、本專利技術(shù)還提供一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。

35、本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。

36、本專利技術(shù)提供的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備，包括：對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段；對(duì)每個(gè)音頻片段進(jìn)行頻譜分析，得到對(duì)應(yīng)的頻譜特征；根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段；對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻；對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測，確定語音片段和非語音片段；對(duì)語音片段進(jìn)行特征提取，得到語音特征；將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果。在本專利技術(shù)中，通過對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，有效降低噪聲的干擾，提升語音質(zhì)量；通過將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，能夠適應(yīng)不同語言的特點(diǎn)，準(zhǔn)確地將語音特征轉(zhuǎn)換為文本，提高了多語言長錄音轉(zhuǎn)寫的準(zhǔn)確性和效率。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，所述根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測，確定噪聲片段，包括：

3.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，所述對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制，得到去噪后的多語言音頻，包括：

4.根據(jù)權(quán)利要求3所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，所述根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器，包括：

5.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，所述將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫，得到對(duì)應(yīng)的文本結(jié)果，包括：

6.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，所述對(duì)多語言長錄音進(jìn)行音頻分割，得到多個(gè)音頻片段之前，包括：

7.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫系統(tǒng)，其特征在于，包括：

8.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器中存儲(chǔ)

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。

...

【技術(shù)特征摘要】

1.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，包括以下步驟：

5.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法，其特征在于，...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：車建波，
申請(專利權(quán))人：深圳市貝鉑智能科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)