System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本公開(kāi)涉及語(yǔ)音處理,尤其涉及一種語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、隨著時(shí)代的進(jìn)步,科技的發(fā)展,越來(lái)越多的電子設(shè)備都能通過(guò)語(yǔ)音對(duì)話就可以完成操控。目前在執(zhí)行語(yǔ)音控制時(shí),有兩種控制類型,一種是聯(lián)網(wǎng)控制類型,另一種是離線控制類型,對(duì)于聯(lián)網(wǎng)控制類型,在網(wǎng)絡(luò)中斷的場(chǎng)景下,設(shè)備無(wú)法聯(lián)網(wǎng),直接導(dǎo)致電子設(shè)備的癱瘓;而離線控制類型的電子設(shè)備中包含離線指令詞系統(tǒng),離線指令詞系統(tǒng)直接內(nèi)嵌到電子設(shè)備中,離線指令詞系統(tǒng)無(wú)需連網(wǎng),在本地即可運(yùn)行,不受網(wǎng)絡(luò)原因影響。
2、但是,相關(guān)技術(shù)中,離線指令詞系統(tǒng)是通過(guò)聲學(xué)模型、語(yǔ)言模型以及解碼器解碼得到音頻的識(shí)別結(jié)果后,再通過(guò)分詞模型抽取語(yǔ)句中的控制命令,然后根據(jù)控制命令執(zhí)行相應(yīng)的語(yǔ)音控制功能,整體組成結(jié)構(gòu)比較復(fù)雜。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)提供了一種語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。其主要目的在于解決相關(guān)技術(shù)中離線指令詞系統(tǒng)整體組成結(jié)構(gòu)比較復(fù)雜的問(wèn)題。
2、根據(jù)本公開(kāi)的第一方面,提供了一種語(yǔ)音控制的執(zhí)行方法,其中,包括:
3、基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率,所述后驗(yàn)概率為所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息所出現(xiàn)的概率;
4、調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型,對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼,確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息;
5、根據(jù)所述執(zhí)行屬性信息的識(shí)別結(jié)果,控制執(zhí)行所述待識(shí)
6、可選的,所述基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率包括:
7、基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型獲取所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息;
8、通過(guò)預(yù)設(shè)概率算法計(jì)算所述每一幀語(yǔ)音對(duì)應(yīng)的音素信息對(duì)應(yīng)的所述后驗(yàn)概率。
9、可選的,在調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型,對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼之前,包括:
10、對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型;
11、將所述訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備。
12、可選的,所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括:
13、獲取預(yù)設(shè)數(shù)量的訓(xùn)練用語(yǔ)音數(shù)據(jù);
14、將所述訓(xùn)練用語(yǔ)音數(shù)據(jù)輸入所述預(yù)設(shè)實(shí)體詞提取模型,以得到所述訓(xùn)練用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的訓(xùn)練用執(zhí)行屬性信息;
15、基于所述訓(xùn)練用執(zhí)行屬性信息,通過(guò)預(yù)設(shè)損失函數(shù),計(jì)算所述預(yù)設(shè)實(shí)體詞提取模型的損失值,所述損失值為度量所述預(yù)設(shè)實(shí)體詞提取模型的預(yù)測(cè)執(zhí)行屬性信息與真實(shí)執(zhí)行屬性信息的差異程度的值;
16、基于所述損失值,通過(guò)預(yù)設(shè)優(yōu)化算法對(duì)所述預(yù)設(shè)實(shí)體詞提取模型進(jìn)行優(yōu)化,以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型。
17、可選的,在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率之前,包括:
18、將預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備,所述預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)待識(shí)別語(yǔ)音進(jìn)行編碼得到每一幀語(yǔ)音的音素向量,所述音素向量對(duì)應(yīng)語(yǔ)音的后驗(yàn)概率。
19、可選的,所述執(zhí)行屬性信息包括:期望信息、領(lǐng)域信息及分類信息;其中,
20、所述期望信息為所述待識(shí)別語(yǔ)音中所期望進(jìn)行的動(dòng)作和/或控制;
21、所述領(lǐng)域信息為自定義的所述待識(shí)別語(yǔ)音的種類信息;
22、所述分類信息為所述待識(shí)別語(yǔ)音對(duì)應(yīng)的應(yīng)用場(chǎng)景分類。
23、根據(jù)本公開(kāi)的第二方面,提供了一種語(yǔ)音控制的執(zhí)行裝置,包括:
24、識(shí)別單元,用于基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率,所述后驗(yàn)概率為所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息所出現(xiàn)的概率;
25、解碼單元,用于調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型,對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼,確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息;
26、執(zhí)行單元,用于根據(jù)所述執(zhí)行屬性信息的識(shí)別結(jié)果,控制執(zhí)行所述待識(shí)別語(yǔ)音。
27、可選的,所述識(shí)別單元包括:
28、獲取模塊,用于基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型獲取所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息;
29、計(jì)算模塊,用于通過(guò)預(yù)設(shè)概率算法計(jì)算所述每一幀語(yǔ)音對(duì)應(yīng)的音素信息對(duì)應(yīng)的所述后驗(yàn)概率。
30、可選的,所述裝置還包括:
31、訓(xùn)練單元,用于在所述確定單元調(diào)用預(yù)設(shè)實(shí)體詞提取算法,并根據(jù)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息之前,對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練,以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型;
32、載入單元,用于將所述訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備。
33、可選的,所述訓(xùn)練單元包括:
34、獲取模塊,用于獲取預(yù)設(shè)數(shù)量的訓(xùn)練用語(yǔ)音數(shù)據(jù);
35、輸入模塊,用于將所述訓(xùn)練用語(yǔ)音數(shù)據(jù)輸入所述預(yù)設(shè)實(shí)體詞提取模型,以得到所述訓(xùn)練用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的訓(xùn)練用執(zhí)行屬性信息;
36、計(jì)算模塊,用于基于所述訓(xùn)練用執(zhí)行屬性信息,通過(guò)預(yù)設(shè)損失函數(shù),計(jì)算所述預(yù)設(shè)實(shí)體詞提取模型的損失值,所述損失值為度量所述預(yù)設(shè)實(shí)體詞提取模型的預(yù)測(cè)執(zhí)行屬性信息與真實(shí)執(zhí)行屬性信息的差異程度的值;
37、優(yōu)化模塊,用于基于所述損失值,通過(guò)預(yù)設(shè)優(yōu)化算法對(duì)所述預(yù)設(shè)實(shí)體詞提取模型進(jìn)行優(yōu)化,以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型。
38、可選的,所述載入單元還用于,在所述識(shí)別單元對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別之前,將預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備,所述預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)待識(shí)別語(yǔ)音進(jìn)行編碼得到每一幀語(yǔ)音的音素向量,所述音素向量對(duì)應(yīng)語(yǔ)音的后驗(yàn)概率。
39、根據(jù)本公開(kāi)的第三方面,提供了一種車輛,其中,所述車輛包括如本公開(kāi)第二方面所述的語(yǔ)音控制的執(zhí)行裝置。
40、根據(jù)本公開(kāi)的第四方面,提供了一種電子設(shè)備,包括:
41、至少一個(gè)處理器;以及
42、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
43、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面所述的方法。
44、根據(jù)本公開(kāi)的第五方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面所述的方法。
45、根據(jù)本公開(kāi)的第六方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面所述的方法。
46、本公開(kāi)提供的語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì),通過(guò)基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種語(yǔ)音控制的執(zhí)行方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型,對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼之前,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率之前,所述方法還包括:
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述執(zhí)行屬性信息包括:期望信息、領(lǐng)域信息及分類信息;其中,
7.一種語(yǔ)音控制的執(zhí)行裝置,其特征在于,包括:
8.一種車輛,其特征在于,所述車輛包括如權(quán)利要求7所述的語(yǔ)音控制的執(zhí)行裝置。
9.一種電子設(shè)備,其特征在于,包括:
10.一種
...【技術(shù)特征摘要】
1.一種語(yǔ)音控制的執(zhí)行方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別,得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型,對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼之前,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉明,
申請(qǐng)(專利權(quán))人:北京羅克維爾斯科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。