當(dāng)前位置: 首頁(yè) > 專利查詢>北京羅克維爾斯科技有限公司專利>正文

語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：43876886 閱讀：20 留言：0更新日期：2024-12-31 18:59

本公開(kāi)提供的語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，涉及語(yǔ)音處理技術(shù)領(lǐng)域，主要技術(shù)方案包括：通過(guò)基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率，后驗(yàn)概率為待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息所出現(xiàn)的概率；調(diào)用語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型，對(duì)每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼，確定待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息；根據(jù)執(zhí)行屬性信息的識(shí)別結(jié)果，控制執(zhí)行待識(shí)別語(yǔ)音。與相關(guān)技術(shù)相比，本公開(kāi)實(shí)施例結(jié)合待識(shí)別語(yǔ)音的后驗(yàn)概率使用預(yù)設(shè)實(shí)體詞提取模型，實(shí)現(xiàn)了語(yǔ)言模型、解碼器以及分詞模型的功能，使離線指令詞系統(tǒng)的整體組成結(jié)構(gòu)簡(jiǎn)單化。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開(kāi)涉及語(yǔ)音處理，尤其涉及一種語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、隨著時(shí)代的進(jìn)步，科技的發(fā)展，越來(lái)越多的電子設(shè)備都能通過(guò)語(yǔ)音對(duì)話就可以完成操控。目前在執(zhí)行語(yǔ)音控制時(shí)，有兩種控制類型，一種是聯(lián)網(wǎng)控制類型，另一種是離線控制類型，對(duì)于聯(lián)網(wǎng)控制類型，在網(wǎng)絡(luò)中斷的場(chǎng)景下，設(shè)備無(wú)法聯(lián)網(wǎng)，直接導(dǎo)致電子設(shè)備的癱瘓；而離線控制類型的電子設(shè)備中包含離線指令詞系統(tǒng)，離線指令詞系統(tǒng)直接內(nèi)嵌到電子設(shè)備中，離線指令詞系統(tǒng)無(wú)需連網(wǎng)，在本地即可運(yùn)行，不受網(wǎng)絡(luò)原因影響。

2、但是，相關(guān)技術(shù)中，離線指令詞系統(tǒng)是通過(guò)聲學(xué)模型、語(yǔ)言模型以及解碼器解碼得到音頻的識(shí)別結(jié)果后，再通過(guò)分詞模型抽取語(yǔ)句中的控制命令，然后根據(jù)控制命令執(zhí)行相應(yīng)的語(yǔ)音控制功能，整體組成結(jié)構(gòu)比較復(fù)雜。

技術(shù)實(shí)現(xiàn)思路

1、本公開(kāi)提供了一種語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)。其主要目的在于解決相關(guān)技術(shù)中離線指令詞系統(tǒng)整體組成結(jié)構(gòu)比較復(fù)雜的問(wèn)題。

2、根據(jù)本公開(kāi)的第一方面，提供了一種語(yǔ)音控制的執(zhí)行方法，其中，包括：

3、基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率，所述后驗(yàn)概率為所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息所出現(xiàn)的概率；

4、調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型，對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼，確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息；

5、根據(jù)所述執(zhí)行屬性信息的識(shí)別結(jié)果，控制執(zhí)行所述待識(shí)別語(yǔ)音。

6、可選的，所述基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率包括：

7、基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型獲取所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息；

8、通過(guò)預(yù)設(shè)概率算法計(jì)算所述每一幀語(yǔ)音對(duì)應(yīng)的音素信息對(duì)應(yīng)的所述后驗(yàn)概率。

9、可選的，在調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型，對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼之前，包括：

10、對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練，以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型；

11、將所述訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備。

12、可選的，所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括：

13、獲取預(yù)設(shè)數(shù)量的訓(xùn)練用語(yǔ)音數(shù)據(jù)；

14、將所述訓(xùn)練用語(yǔ)音數(shù)據(jù)輸入所述預(yù)設(shè)實(shí)體詞提取模型，以得到所述訓(xùn)練用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的訓(xùn)練用執(zhí)行屬性信息；

15、基于所述訓(xùn)練用執(zhí)行屬性信息，通過(guò)預(yù)設(shè)損失函數(shù)，計(jì)算所述預(yù)設(shè)實(shí)體詞提取模型的損失值，所述損失值為度量所述預(yù)設(shè)實(shí)體詞提取模型的預(yù)測(cè)執(zhí)行屬性信息與真實(shí)執(zhí)行屬性信息的差異程度的值；

16、基于所述損失值，通過(guò)預(yù)設(shè)優(yōu)化算法對(duì)所述預(yù)設(shè)實(shí)體詞提取模型進(jìn)行優(yōu)化，以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型。

17、可選的，在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率之前，包括：

18、將預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備，所述預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)待識(shí)別語(yǔ)音進(jìn)行編碼得到每一幀語(yǔ)音的音素向量，所述音素向量對(duì)應(yīng)語(yǔ)音的后驗(yàn)概率。

19、可選的，所述執(zhí)行屬性信息包括：期望信息、領(lǐng)域信息及分類信息；其中，

20、所述期望信息為所述待識(shí)別語(yǔ)音中所期望進(jìn)行的動(dòng)作和/或控制；

21、所述領(lǐng)域信息為自定義的所述待識(shí)別語(yǔ)音的種類信息；

22、所述分類信息為所述待識(shí)別語(yǔ)音對(duì)應(yīng)的應(yīng)用場(chǎng)景分類。

23、根據(jù)本公開(kāi)的第二方面，提供了一種語(yǔ)音控制的執(zhí)行裝置，包括：

24、識(shí)別單元，用于基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率，所述后驗(yàn)概率為所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息所出現(xiàn)的概率；

25、解碼單元，用于調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型，對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼，確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息；

26、執(zhí)行單元，用于根據(jù)所述執(zhí)行屬性信息的識(shí)別結(jié)果，控制執(zhí)行所述待識(shí)別語(yǔ)音。

27、可選的，所述識(shí)別單元包括：

28、獲取模塊，用于基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型獲取所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的音素信息；

29、計(jì)算模塊，用于通過(guò)預(yù)設(shè)概率算法計(jì)算所述每一幀語(yǔ)音對(duì)應(yīng)的音素信息對(duì)應(yīng)的所述后驗(yàn)概率。

30、可選的，所述裝置還包括：

31、訓(xùn)練單元，用于在所述確定單元調(diào)用預(yù)設(shè)實(shí)體詞提取算法，并根據(jù)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率確定所述待識(shí)別語(yǔ)音對(duì)應(yīng)的執(zhí)行屬性信息之前，對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練，以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型；

32、載入單元，用于將所述訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備。

33、可選的，所述訓(xùn)練單元包括：

34、獲取模塊，用于獲取預(yù)設(shè)數(shù)量的訓(xùn)練用語(yǔ)音數(shù)據(jù)；

35、輸入模塊，用于將所述訓(xùn)練用語(yǔ)音數(shù)據(jù)輸入所述預(yù)設(shè)實(shí)體詞提取模型，以得到所述訓(xùn)練用語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的訓(xùn)練用執(zhí)行屬性信息；

36、計(jì)算模塊，用于基于所述訓(xùn)練用執(zhí)行屬性信息，通過(guò)預(yù)設(shè)損失函數(shù)，計(jì)算所述預(yù)設(shè)實(shí)體詞提取模型的損失值，所述損失值為度量所述預(yù)設(shè)實(shí)體詞提取模型的預(yù)測(cè)執(zhí)行屬性信息與真實(shí)執(zhí)行屬性信息的差異程度的值；

37、優(yōu)化模塊，用于基于所述損失值，通過(guò)預(yù)設(shè)優(yōu)化算法對(duì)所述預(yù)設(shè)實(shí)體詞提取模型進(jìn)行優(yōu)化，以得到訓(xùn)練好的所述預(yù)設(shè)實(shí)體詞提取模型。

38、可選的，所述載入單元還用于，在所述識(shí)別單元對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別之前，將預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)，載入預(yù)設(shè)語(yǔ)音識(shí)別設(shè)備，所述預(yù)設(shè)聲學(xué)模型長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)待識(shí)別語(yǔ)音進(jìn)行編碼得到每一幀語(yǔ)音的音素向量，所述音素向量對(duì)應(yīng)語(yǔ)音的后驗(yàn)概率。

39、根據(jù)本公開(kāi)的第三方面，提供了一種車輛，其中，所述車輛包括如本公開(kāi)第二方面所述的語(yǔ)音控制的執(zhí)行裝置。

40、根據(jù)本公開(kāi)的第四方面，提供了一種電子設(shè)備，包括：

41、至少一個(gè)處理器；以及

42、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，

43、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行前述第一方面所述的方法。

44、根據(jù)本公開(kāi)的第五方面，提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其中，所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行前述第一方面所述的方法。

45、根據(jù)本公開(kāi)的第六方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)如前述第一方面所述的方法。

46、本公開(kāi)提供的語(yǔ)音控制的執(zhí)行方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)，通過(guò)基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種語(yǔ)音控制的執(zhí)行方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，在調(diào)用所述語(yǔ)音識(shí)別模型中的預(yù)設(shè)實(shí)體詞提取模型，對(duì)所述每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率進(jìn)行解碼之前，所述方法還包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)別語(yǔ)音進(jìn)行識(shí)別，得到所述待識(shí)別語(yǔ)音中每一幀語(yǔ)音對(duì)應(yīng)的后驗(yàn)概率之前，所述方法還包括：

6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法，其特征在于，所述執(zhí)行屬性信息包括：期望信息、領(lǐng)域信息及分類信息；其中，

7.一種語(yǔ)音控制的執(zhí)行裝置，其特征在于，包括：

8.一種車輛，其特征在于，所述車輛包括如權(quán)利要求7所述的語(yǔ)音控制的執(zhí)行裝置。

9.一種電子設(shè)備，其特征在于，包括：

10.一種

...

【技術(shù)特征摘要】

1.一種語(yǔ)音控制的執(zhí)行方法，其特征在于，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述對(duì)預(yù)設(shè)實(shí)體詞提取模型進(jìn)行訓(xùn)練包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，在基于語(yǔ)音識(shí)別模型中的預(yù)設(shè)聲學(xué)模型對(duì)待識(shí)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：劉明，
申請(qǐng)(專利權(quán))人：北京羅克維爾斯科技有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)