• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):9731875 閱讀:187 留言:0更新日期:2014-02-28 06:39
    本實(shí)用新型專(zhuān)利技術(shù)涉及一種語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),包括語(yǔ)音錄入客戶端,其進(jìn)一步包括:聲音采集裝置,采集基于話術(shù)錄入的語(yǔ)音作為基礎(chǔ)語(yǔ)音語(yǔ)料,并將采集得到的基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的話術(shù)傳輸給網(wǎng)絡(luò)發(fā)送裝置;網(wǎng)絡(luò)發(fā)送裝置,接收所述聲音采集裝置采集的基礎(chǔ)語(yǔ)音語(yǔ)料并將所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)通過(guò)網(wǎng)絡(luò)傳輸給服務(wù)器;服務(wù)器,接收所述網(wǎng)絡(luò)發(fā)送裝置發(fā)送的基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)并存儲(chǔ)至語(yǔ)料庫(kù)。通過(guò)語(yǔ)音錄入客戶端實(shí)現(xiàn)語(yǔ)音語(yǔ)料的采集,使得語(yǔ)音語(yǔ)料的采集可以隨時(shí)隨地進(jìn)行,無(wú)需專(zhuān)門(mén)的錄音棚和專(zhuān)門(mén)的錄音設(shè)備,借用現(xiàn)有的網(wǎng)絡(luò),語(yǔ)音語(yǔ)料的獲取成本大大降低,更使得語(yǔ)音語(yǔ)料更接近實(shí)際場(chǎng)景中的語(yǔ)音,提高實(shí)際場(chǎng)景中語(yǔ)音的識(shí)別率。(*該技術(shù)在2023年保護(hù)過(guò)期,可自由使用*)

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)
    本技術(shù)涉及到一種語(yǔ)音識(shí)別系統(tǒng),具體是一種語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)。
    技術(shù)介紹
    語(yǔ)音識(shí)別技術(shù)的發(fā)展已有40多年的歷史了,并取得顯著的進(jìn)步,在一些企業(yè)系統(tǒng)中已經(jīng)得到普及和應(yīng)用。但由于識(shí)別準(zhǔn)確率的影響,極大地限制了語(yǔ)音識(shí)別在更廣泛的應(yīng)用領(lǐng)域內(nèi)的應(yīng)用。語(yǔ)音識(shí)別屬于人工智能和機(jī)器學(xué)習(xí)任務(wù)的一種應(yīng)用,其中,機(jī)器學(xué)習(xí)任務(wù)一般分為訓(xùn)練和預(yù)測(cè)兩個(gè)過(guò)程:訓(xùn)練過(guò)程對(duì)已知樣本進(jìn)行總結(jié)歸納,形成模型;預(yù)測(cè)過(guò)程則利用該模型對(duì)未知樣本進(jìn)行預(yù)測(cè)。那么預(yù)測(cè)的結(jié)果將取決于模型的完善性和準(zhǔn)確性。機(jī)器學(xué)習(xí)任務(wù)符合貝葉斯原則,貝葉斯公式如下:P(h|D)=P(D|h)*p(h)/P(D),其中D為樣本集合,h為假設(shè)空間即模型,P(h|D)為在已出現(xiàn)D的情況出現(xiàn)h的條件概率也成為h的后驗(yàn)概率。貝葉斯公式的基本含義是觀察到已知樣本的情況下,使得模型的后驗(yàn)概率最大化。從上述公式可以看出如果P(D)越大,得到模型也越接近于真實(shí)情況,也就是說(shuō)我們需要收集足夠多的樣本才能保證模型的完善性。其中的已知樣本指語(yǔ)音樣本即語(yǔ)料,多個(gè)語(yǔ)音樣本的集合就構(gòu)成語(yǔ)料庫(kù)。因?yàn)榻y(tǒng)計(jì)自然語(yǔ)言中通常無(wú)法觀測(cè)到大規(guī)模的語(yǔ)言實(shí)例,所以簡(jiǎn)單的把典型的特定的文本上下文關(guān)系作為現(xiàn)實(shí)世界中語(yǔ)言的上下文關(guān)系的替代品,在語(yǔ)音識(shí)別領(lǐng)域,這種替代品被稱(chēng)為話術(shù)。在語(yǔ)音識(shí)別優(yōu)化過(guò)程中,需要采集與話術(shù)匹配的聲音信息,也就是語(yǔ)料。根據(jù)上述機(jī)器學(xué)習(xí)理論原理,在采集質(zhì)量一定的情況下,語(yǔ)料庫(kù)數(shù)量與語(yǔ)音識(shí)別的準(zhǔn)確率成正向關(guān)系。為保證后期獲取比較純正的語(yǔ)音語(yǔ)料,現(xiàn)有語(yǔ)音語(yǔ)料庫(kù)的采集通常采用如下方式:準(zhǔn)備專(zhuān)用的錄音室,招募數(shù)量龐大的志愿者進(jìn)行語(yǔ)料錄制并組建一批經(jīng)過(guò)訓(xùn)練的工作人員用以采集、標(biāo)注和后期的維護(hù)工作。進(jìn)而導(dǎo)致數(shù)據(jù)采集的成本過(guò)高,進(jìn)而導(dǎo)致語(yǔ)音語(yǔ)料的成本過(guò)高,限制了語(yǔ)音語(yǔ)料庫(kù)的使用!而且,現(xiàn)有的語(yǔ)音語(yǔ)料庫(kù)的建設(shè),要么完全依賴(lài)話術(shù)建設(shè),要么完全依賴(lài)實(shí)際場(chǎng)景中獲得的語(yǔ)音語(yǔ)料建設(shè);完全依賴(lài)話術(shù)建設(shè)的語(yǔ)音語(yǔ)料庫(kù)目標(biāo)明確,訓(xùn)練時(shí)間短,可大幅度提高識(shí)別的精度,但是完全依賴(lài)話術(shù)建設(shè)的語(yǔ)音語(yǔ)料庫(kù)的識(shí)別率又依賴(lài)于擬定話術(shù)的業(yè)務(wù)專(zhuān)家的水平,識(shí)別精度不好控制且建設(shè)成本高;完全依賴(lài)實(shí)際場(chǎng)景中獲得的語(yǔ)音語(yǔ)料逼近業(yè)務(wù)場(chǎng)景,可充分利用現(xiàn)有資源,但是完全依賴(lài)實(shí)際場(chǎng)景獲得的語(yǔ)音語(yǔ)料目標(biāo)不明確,需要基數(shù)巨大的語(yǔ)音語(yǔ)料才能覆蓋該特定領(lǐng)域的所有關(guān)鍵詞。中國(guó)專(zhuān)利文獻(xiàn)101593518就公開(kāi)了一種實(shí)際場(chǎng)景語(yǔ)料和有限狀態(tài)網(wǎng)絡(luò)語(yǔ)料的平衡方法,其語(yǔ)料的來(lái)源有兩部分,一部分是通過(guò)整理實(shí)際應(yīng)用場(chǎng)景下錄音得到的語(yǔ)料,稱(chēng)為實(shí)際場(chǎng)景語(yǔ)料;另一部分是用有限狀態(tài)網(wǎng)絡(luò)句法規(guī)則方法生成的語(yǔ)料,稱(chēng)為FSN語(yǔ)料,該文獻(xiàn)重點(diǎn)研究了這兩種語(yǔ)料的平衡方法,提出了以實(shí)際場(chǎng)景語(yǔ)料和FSN語(yǔ)料中共有的關(guān)鍵詞的概率的比較為依據(jù),用一定倍數(shù)的部分實(shí)際場(chǎng)景語(yǔ)料擴(kuò)展FSN語(yǔ)料,得到最終語(yǔ)言模型訓(xùn)練語(yǔ)料的方法。因此,該文獻(xiàn)公開(kāi)的方法最終都完全依賴(lài)實(shí)際場(chǎng)景語(yǔ)料,由于實(shí)際場(chǎng)景語(yǔ)料本身目標(biāo)不明確,與完全依賴(lài)話術(shù)建設(shè)的語(yǔ)音語(yǔ)料數(shù)量相同的實(shí)際場(chǎng)景語(yǔ)料的能識(shí)別的目標(biāo)少,識(shí)別率低。
    技術(shù)實(shí)現(xiàn)思路
    為此,本技術(shù)第一個(gè)所要解決的是現(xiàn)有語(yǔ)音語(yǔ)料采集方法采集成本高的技術(shù)問(wèn)題,提供一種充分利用現(xiàn)有互聯(lián)網(wǎng)的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)。本技術(shù)第二個(gè)要解決的是現(xiàn)有完全依賴(lài)話術(shù)建設(shè)的語(yǔ)音語(yǔ)料庫(kù)和完全基于實(shí)際場(chǎng)景獲取的實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料庫(kù)不能兼顧低成本和高識(shí)別率的技術(shù)問(wèn)題,提供一種成本低且識(shí)別率高的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)。為解決上述技術(shù)問(wèn)題,本技術(shù)采用的技術(shù)方案如下:一種語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),包括,語(yǔ)音錄入客戶端,其進(jìn)一步包括:聲音采集裝置,采集基于話術(shù)錄入的語(yǔ)音作為基礎(chǔ)語(yǔ)音語(yǔ)料,并將采集得到的所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)傳輸給網(wǎng)絡(luò)發(fā)送裝置;網(wǎng)絡(luò)發(fā)送裝置,接收所述聲音采集裝置采集的基礎(chǔ)語(yǔ)音語(yǔ)料并將所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)通過(guò)網(wǎng)絡(luò)傳輸給服務(wù)器;服務(wù)器,接收所述網(wǎng)絡(luò)發(fā)送裝置發(fā)送的基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)并存儲(chǔ)至語(yǔ)料庫(kù)。還包括實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料采集裝置,用于采集實(shí)際應(yīng)用場(chǎng)景中產(chǎn)生的語(yǔ)音語(yǔ)料,并將采集得到的實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料進(jìn)行識(shí)別并將實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料和識(shí)別結(jié)果傳輸至所述服務(wù)器的臨時(shí)語(yǔ)料庫(kù)。還包括對(duì)所述臨時(shí)語(yǔ)料庫(kù)存儲(chǔ)的實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料進(jìn)行在線標(biāo)注的標(biāo)注用客戶端。所述標(biāo)注用客戶端進(jìn)一步包括,實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料獲取裝置,獲取所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料和對(duì)應(yīng)的識(shí)別結(jié)果文件,并傳送至第一語(yǔ)音標(biāo)注裝置;第一語(yǔ)音標(biāo)注裝置,接收所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料獲取裝置傳輸?shù)乃鰧?shí)際場(chǎng)景語(yǔ)音語(yǔ)料和其語(yǔ)音識(shí)別結(jié)果,在線調(diào)聽(tīng)所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料,并判斷在線調(diào)聽(tīng)的所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料的語(yǔ)音識(shí)別結(jié)果是否正確,若正確,則標(biāo)注為正確,并將標(biāo)注結(jié)果發(fā)送給所述服務(wù)器的接收裝置;否則,標(biāo)注為錯(cuò)誤,將標(biāo)注結(jié)果發(fā)送給所述服務(wù)器的接收裝置;第二語(yǔ)音標(biāo)注裝置,獲取服務(wù)器傳輸?shù)恼Z(yǔ)音文件,調(diào)聽(tīng)所述語(yǔ)音文件,并根據(jù)調(diào)聽(tīng)結(jié)果生成所述語(yǔ)音文件的識(shí)別結(jié)果,將所述識(shí)別結(jié)果與所述語(yǔ)音文件發(fā)送至所述服務(wù)器的語(yǔ)料庫(kù).其中,所述標(biāo)注結(jié)果包括:錄音文件的唯一標(biāo)識(shí)、起止時(shí)間和正確或錯(cuò)誤的標(biāo)識(shí);服務(wù)器,其進(jìn)一步包括:接收裝置,接收所述第一語(yǔ)音標(biāo)注裝置發(fā)送的標(biāo)注結(jié)果,將標(biāo)注為正確的所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料和其語(yǔ)音識(shí)別結(jié)果存儲(chǔ)至所述服務(wù)器中的所述語(yǔ)料庫(kù)中;同時(shí),將標(biāo)注為錯(cuò)誤的所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料發(fā)送至切分裝置;切分裝置,接收所述接收裝置發(fā)送的所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料,將標(biāo)注為錯(cuò)誤的所述語(yǔ)音段落從所述實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料中切分,并將切分出的所述語(yǔ)音文件發(fā)送至客戶端的第二語(yǔ)音標(biāo)注裝置。所述切分裝置為基于白高斯模型的切分裝置。本技術(shù)的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):本技術(shù)的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),通過(guò)語(yǔ)音錄入客戶端實(shí)現(xiàn)語(yǔ)音語(yǔ)料的采集,進(jìn)而通過(guò)網(wǎng)絡(luò)傳輸給服務(wù)器,使得語(yǔ)音語(yǔ)料的采集可以隨時(shí)隨地進(jìn)行,無(wú)需專(zhuān)門(mén)的錄音棚和專(zhuān)門(mén)的錄音設(shè)備,借用現(xiàn)有的網(wǎng)絡(luò)即可實(shí)現(xiàn),語(yǔ)音語(yǔ)料的獲取成本大大降低;同時(shí),語(yǔ)音語(yǔ)料是用于后續(xù)語(yǔ)音識(shí)別的,識(shí)別的語(yǔ)音均在平時(shí)的生活環(huán)境中生成,要識(shí)別的錄音自然會(huì)有周?chē)h(huán)境的噪音,如果語(yǔ)音語(yǔ)料僅在錄音棚中生成,反而脫離了實(shí)際生活,不利于實(shí)際生活場(chǎng)景中語(yǔ)音的識(shí)別。本技術(shù)的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),在減少成本的基礎(chǔ)上,更使得語(yǔ)音語(yǔ)料更接近實(shí)際場(chǎng)景中的語(yǔ)音,提高實(shí)際場(chǎng)景中語(yǔ)音的識(shí)別率。進(jìn)一步地,本技術(shù)的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)中,所述語(yǔ)料庫(kù)即包括基于話術(shù)錄制的基礎(chǔ)語(yǔ)音語(yǔ)料,又包括實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料;其中,基于話術(shù)錄制的基礎(chǔ)語(yǔ)音語(yǔ)料,目標(biāo)明確,訓(xùn)練時(shí)間短,可大幅度提高識(shí)別的精度;實(shí)際場(chǎng)景語(yǔ)音語(yǔ)料逼近業(yè)務(wù)場(chǎng)景。充分融合兩種語(yǔ)音語(yǔ)料的優(yōu)點(diǎn),即能降低語(yǔ)音語(yǔ)料的建設(shè)成本,又能最大程度地提高識(shí)別效率。【附圖說(shuō)明】為了使本技術(shù)的內(nèi)容更容易被清楚的理解,下面根據(jù)本技術(shù)的具體實(shí)施例并結(jié)合附圖,對(duì)本技術(shù)作進(jìn)一步詳細(xì)的說(shuō)明,其中圖1為本技術(shù)一個(gè)實(shí)施例的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng)的結(jié)構(gòu)框圖。【具體實(shí)施方式】參見(jiàn)圖1所示,為本技術(shù)的一個(gè)實(shí)施例的語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),其包括:語(yǔ)音錄入客戶端、標(biāo)注用客戶端和服務(wù)器。其中,所述語(yǔ)音錄入客戶端進(jìn)一步包括:聲音采集裝置,采集用戶錄入的語(yǔ)音作為基礎(chǔ)語(yǔ)音語(yǔ)料,并將采集得到的所述基礎(chǔ)語(yǔ)音語(yǔ)料傳輸給網(wǎng)絡(luò)發(fā)送裝置,作為【具體實(shí)施方式】,所述聲音采集裝置為麥克,當(dāng)然作為其它實(shí)施本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),其特征在于:包括,?語(yǔ)音錄入客戶端,其進(jìn)一步包括:?聲音采集裝置,采集基于話術(shù)錄入的語(yǔ)音作為基礎(chǔ)語(yǔ)音語(yǔ)料,并將采集得到的所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)傳輸給網(wǎng)絡(luò)發(fā)送裝置;?網(wǎng)絡(luò)發(fā)送裝置,接收所述聲音采集裝置采集的基礎(chǔ)語(yǔ)音語(yǔ)料并將所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)通過(guò)網(wǎng)絡(luò)傳輸給服務(wù)器;?服務(wù)器,接收所述網(wǎng)絡(luò)發(fā)送裝置發(fā)送的基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)并存儲(chǔ)至語(yǔ)料庫(kù)。

    【技術(shù)特征摘要】
    1.一種語(yǔ)音語(yǔ)料庫(kù)的構(gòu)建系統(tǒng),其特征在于:包括, 語(yǔ)音錄入客戶端,其進(jìn)一步包括: 聲音采集裝置,采集基于話術(shù)錄入的語(yǔ)音作為基礎(chǔ)語(yǔ)音語(yǔ)料,并將采集得到的所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)傳輸給網(wǎng)絡(luò)發(fā)送裝置; 網(wǎng)絡(luò)發(fā)送裝置,接收所述聲音采集裝置采集的基礎(chǔ)語(yǔ)音語(yǔ)料并將所述基礎(chǔ)語(yǔ)音語(yǔ)料和對(duì)應(yīng)的所述話術(shù)通過(guò)網(wǎng)絡(luò)傳輸給服務(wù)...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:江南陳德全
    申請(qǐng)(專(zhuān)利權(quán))人:中金數(shù)據(jù)系統(tǒng)有限公司
    類(lèi)型:實(shí)用新型
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲Av无码乱码在线播放| 亚洲av中文无码乱人伦在线观看 | 亚洲AV成人无码天堂| 久久成人无码国产免费播放| 无码日本电影一区二区网站| 精品久久久无码中文字幕天天 | 国产成人精品无码片区在线观看| 中文字幕日产无码| 亚洲av无码成人黄网站在线观看 | 精品无码久久久久国产动漫3d| 亚洲午夜无码久久久久小说| 免费无码一区二区三区| 国模GOGO无码人体啪啪| 午夜精品久久久久久久无码| 亚洲av无码专区青青草原| 中国少妇无码专区| 中文字幕AV中文字无码亚| 中文无码日韩欧免费视频| 亚洲av无码成人精品国产| 亚洲日韩精品一区二区三区无码| 亚洲精品无码你懂的| 亚洲AV无码一区东京热| 精品一区二区无码AV| 精品久久久久久无码人妻中文字幕 | 久久AV无码精品人妻出轨| 亚洲一区精品无码| 久久午夜无码鲁丝片午夜精品| 黑人巨大无码中文字幕无码| av无码久久久久久不卡网站| 无码人妻少妇色欲AV一区二区| 中文字幕人妻无码系列第三区| 内射人妻少妇无码一本一道| 无码精品人妻一区二区三区AV| 久久久精品天堂无码中文字幕| 中文字幕无码不卡一区二区三区| 亚洲中文无码卡通动漫野外| 免费无码黄十八禁网站在线观看| 亚洲人AV在线无码影院观看| 蜜臀AV无码一区二区三区| 久久久久久久久无码精品亚洲日韩| 成人免费a级毛片无码网站入口|