System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語音處理的,特別涉及一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備。
技術(shù)介紹
1、在各種國際會(huì)議、學(xué)術(shù)交流、跨國商務(wù)談判以及多語種的媒體內(nèi)容中,多語言長錄音的出現(xiàn)越來越普遍。然而,目前在處理多語言長錄音時(shí)面臨著諸多挑戰(zhàn)。
2、一方面,實(shí)際環(huán)境中往往存在各種噪聲干擾,如背景人聲、設(shè)備噪聲、環(huán)境噪聲等,這些噪聲會(huì)嚴(yán)重影響音頻的質(zhì)量,使得語音的清晰度降低,給后續(xù)的轉(zhuǎn)寫工作帶來極大困難。
3、另一方面,不同語言的語音特點(diǎn)各異,發(fā)音規(guī)則、語調(diào)、語速等都有所不同,這增加了準(zhǔn)確轉(zhuǎn)寫的難度,造成效率低下,難以滿足實(shí)際需求。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的主要目的為提供一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備,旨在自適應(yīng)去除噪聲的干擾,以及提高多語言長錄音轉(zhuǎn)寫的效率。
2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供了一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,包括以下步驟:
3、對(duì)多語言長錄音進(jìn)行音頻分割,得到多個(gè)音頻片段;對(duì)每個(gè)音頻片段進(jìn)行頻譜分析,得到對(duì)應(yīng)的頻譜特征;
4、根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段;
5、對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻;
6、對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測,確定語音片段和非語音片段;對(duì)語音片段進(jìn)行特征提取,得到語音特征;
7、將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,得到對(duì)應(yīng)的
8、進(jìn)一步地,所述根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段,包括:
9、對(duì)音頻片段的頻譜特征進(jìn)行能量分布分析,得到不同頻率區(qū)間的能量分布情況;
10、將能量分布情況與預(yù)設(shè)的噪聲能量分布閾值進(jìn)行比較處理,若任一頻率區(qū)間的能量值低于噪聲能量分布閾值且持續(xù)時(shí)長達(dá)到預(yù)設(shè)時(shí)長,則將所述頻率區(qū)間對(duì)應(yīng)的音頻片段部分標(biāo)記為疑似噪聲片段;
11、對(duì)疑似噪聲片段進(jìn)行周期性檢測處理,若無周期性,則確定所述疑似噪聲片段為噪聲片段。
12、進(jìn)一步地,所述對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻,包括:
13、對(duì)噪聲片段進(jìn)行噪聲特征提取處理,得到噪聲特征參數(shù);
14、根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器;
15、將所述多語言長錄音輸入自適應(yīng)濾波器進(jìn)行濾波,得到去噪后的多語言音頻;其中,所述自適應(yīng)濾波器在濾波過程中實(shí)時(shí)調(diào)整濾波器參數(shù)以適應(yīng)不同的噪聲變化。
16、進(jìn)一步地,所述根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器,包括:
17、設(shè)置濾波器的初始參數(shù);初始參數(shù)包括濾波器階數(shù)、收斂系數(shù)和步長因子;
18、利用噪聲特征參數(shù)訓(xùn)練濾波器的權(quán)值向量,通過最小均方誤差算法不斷調(diào)整權(quán)值向量,使得濾波器輸出與噪聲片段之間的誤差最小化;在訓(xùn)練過程中,實(shí)時(shí)監(jiān)測誤差變化情況,當(dāng)誤差穩(wěn)定在預(yù)設(shè)范圍內(nèi)時(shí),停止訓(xùn)練,完成自適應(yīng)濾波器的構(gòu)建。
19、進(jìn)一步地,所述將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,得到對(duì)應(yīng)的文本結(jié)果,包括:
20、將語音特征輸入多語言轉(zhuǎn)寫模型的輸入層,經(jīng)過輸入層的預(yù)處理后傳遞至隱藏層;
21、基于隱藏層對(duì)語音特征進(jìn)行深度特征提取,提取出不同語言的語義特征和語法特征;
22、基于多語言轉(zhuǎn)寫模型的輸出層,對(duì)提取出的語義特征和語法特征進(jìn)行概率計(jì)算,確定每個(gè)時(shí)間步最匹配的字符或單詞;
23、對(duì)輸出層得到的每個(gè)時(shí)間步的字符或單詞進(jìn)行依序組合,并去除重復(fù)和錯(cuò)誤部分,得到最終的文本結(jié)果。
24、進(jìn)一步地,所述對(duì)多語言長錄音進(jìn)行音頻分割,得到多個(gè)音頻片段之前,包括:
25、與多個(gè)翻譯終端協(xié)商建立加密通信連接;其中,各個(gè)翻譯終端為各個(gè)用戶所持終端;
26、獲取各個(gè)翻譯終端的錄音音頻;
27、按照時(shí)間順序,將各個(gè)翻譯終端的錄音音頻進(jìn)行組合,得到所述多語言長錄音。
28、本專利技術(shù)還提供了一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫系統(tǒng),包括:
29、分割模塊,用于對(duì)多語言長錄音進(jìn)行音頻分割,得到多個(gè)音頻片段;對(duì)每個(gè)音頻片段進(jìn)行頻譜分析,得到對(duì)應(yīng)的頻譜特征;
30、檢測模塊,用于根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段;
31、去噪模塊,用于對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻;
32、提取模塊,用于對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測,確定語音片段和非語音片段;對(duì)語音片段進(jìn)行特征提取,得到語音特征;
33、轉(zhuǎn)寫模塊,用于將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,得到對(duì)應(yīng)的文本結(jié)果。
34、本專利技術(shù)還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述方法的步驟。
35、本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的方法的步驟。
36、本專利技術(shù)提供的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法、系統(tǒng)以及設(shè)備,包括:對(duì)多語言長錄音進(jìn)行音頻分割,得到多個(gè)音頻片段;對(duì)每個(gè)音頻片段進(jìn)行頻譜分析,得到對(duì)應(yīng)的頻譜特征;根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段;對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻;對(duì)去噪后的多語言音頻進(jìn)行語音活動(dòng)檢測,確定語音片段和非語音片段;對(duì)語音片段進(jìn)行特征提取,得到語音特征;將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,得到對(duì)應(yīng)的文本結(jié)果。在本專利技術(shù)中,通過對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,有效降低噪聲的干擾,提升語音質(zhì)量;通過將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,能夠適應(yīng)不同語言的特點(diǎn),準(zhǔn)確地將語音特征轉(zhuǎn)換為文本,提高了多語言長錄音轉(zhuǎn)寫的準(zhǔn)確性和效率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段,包括:
3.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻,包括:
4.根據(jù)權(quán)利要求3所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器,包括:
5.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述將語音特征輸入預(yù)先訓(xùn)練的多語言轉(zhuǎn)寫模型進(jìn)行轉(zhuǎn)寫,得到對(duì)應(yīng)的文本結(jié)果,包括:
6.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述對(duì)多語言長錄音進(jìn)行音頻分割,得到多個(gè)音頻片段之前,包括:
7.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫系統(tǒng),其特征在于,包括:
8.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述根據(jù)頻譜特征對(duì)各個(gè)音頻片段進(jìn)行噪聲檢測,確定噪聲片段,包括:
3.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述對(duì)所述多語言長錄音中的各個(gè)噪聲片段進(jìn)行自適應(yīng)噪聲抑制,得到去噪后的多語言音頻,包括:
4.根據(jù)權(quán)利要求3所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,所述根據(jù)噪聲特征參數(shù)構(gòu)建自適應(yīng)濾波器,包括:
5.根據(jù)權(quán)利要求1所述的自適應(yīng)噪聲抑制的多語言長錄音轉(zhuǎn)寫方法,其特征在于,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:車建波,
申請(專利權(quán))人:深圳市貝鉑智能科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。