童聲檢測模型訓練方法、兒童模式啟動方法及相關裝置制造方法及圖紙

技術編號：44330061 閱讀：6 留言：0更新日期：2025-02-18 20:37

本申請公開了童聲檢測模型訓練方法、兒童模式啟動方法及相關裝置，該童聲檢測模型訓練方法包括：將訓練語音幀輸入至童聲檢測模型中，得到童聲檢測模型輸出的預測類別和預測概率，預測類別包括成年男性、成年女性和兒童；利用預測類別和訓練語音幀對應的實際類別，確定分類損失；以及，在預測類別為兒童，實際類別非兒童時，利用預測類別對應的預測概率，確定誤報損失；利用分類損失和誤報損失，對童聲檢測模型進行參數調整。利用上述方案訓練得到的童聲檢測模型，具備更高的識別準確性，以及減少誤檢測的發生。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及語音處理，特別是涉及童聲檢測模型訓練方法、兒童模式啟動方法及相關裝置。

技術介紹

1、隨著技術的進步，語音處理技術得到了廣泛的應用，用于檢測語音中是否包含兒童的童聲檢測模型也得到了一定的應用，童聲檢測模型通過確定采集的聲音中是否存在兒童，以判斷是否進行后續針對兒童的相關操作。相關技術所采用的童聲檢測模型，存在識別準確率較低的不足，影響用戶的使用體驗。

技術實現思路

1、本申請提供童聲檢測模型訓練方法、兒童模式啟動方法及相關裝置。

2、本申請采用的一個技術方案是提供一種童聲檢測模型的訓練方法，該方法包括：

3、將訓練語音幀輸入至童聲檢測模型中，得到童聲檢測模型輸出的預測類別和預測概率，預測類別包括成年男性、成年女性和兒童；

4、利用預測類別和訓練語音幀對應的實際類別，確定分類損失；以及，在預測類別為兒童，實際類別非兒童時，利用預測類別對應的預測概率，確定目標誤報損失；

5、利用分類損失和目標誤報損失，對童聲檢測模型進行參數調整。

6、可選地，在預測類別為兒童，實際類別非兒童時，利用預測類別對應的預測概率，確定目標誤報損失，包括：

7、在預測類別為兒童，且實際類別為非兒童時，獲取類別為成年男性對應的第一預測概率、類別為成年女性對應的第二預測概率和類別為兒童對應的第三預測概率；

8、利用第一預測概率、第二預測概率、第三預測概率與實際類別，確定目標誤報損失。

9、可選地，利用第一預測概

10、利用交叉熵函數，對第一預測概率、第二預測概率、第三預測概率、實際類別進行計算，得到所述目標誤報損失。

11、可選地，利用分類損失和目標誤報損失，對童聲檢測模型進行參數調整，包括：

12、利用分類損失和目標誤報損失進行加權處理，得到總損失；

13、利用總損失，對童聲檢測模型進行參數調整。

14、本申請采用的另一個技術方案是提供一種兒童模式的啟動方法，該方法應用于車輛，該方法包括：

15、獲取車輛內的語音幀；

16、將語音幀輸入至童聲檢測模型，得到語音幀對應的童聲檢測結果，其中，童聲檢測模型如上述的童聲檢測模型的訓練方法訓練得到；

17、響應于童聲檢測結果表示語音幀含有童聲，將車輛的工作模式切換為兒童模式。

18、可選地，獲取車輛內的語音幀，包括：

19、對采集得到的車輛內的原始語音信號進行預處理操作，得到預處理語音信號；

20、對預處理語音信號進行特征提取，得到音頻特征；

21、利用若干音頻特征，構建語音幀。

22、可選地，響應于童聲檢測結果表示語音幀含有童聲，將車輛的工作模式切換為兒童模式，包括：

23、獲取第一數量的連續語音幀中，目標語音幀的目標數量，其中，目標語音幀表示含有童聲的語音幀；

24、響應于目標數量大于第二數量，將車輛的工作模式切換為兒童模式，其中，第一數量大于或等于第二數量。

25、可選地，獲取車輛內的語音幀，包括：

26、響應于當前時刻與上一次關門時刻的時間間隔小于或等于預設間隔，按照第一預設頻率獲取車輛內的語音幀；

27、或，響應于當前時刻與上一次關門時刻的時間間隔大于預設間隔，按照第二預設頻率獲取車輛內的語音幀，第一預設頻率大于第二預設頻率。

28、本申請采用的另一個技術方案是提供一種終端設備，所述終端設備包括存儲器以及與所述存儲器連接的處理器；

29、其中，所述存儲器用于存儲程序數據，所述處理器用于執行所述程序數據以實現如上述的童聲檢測模型的訓練方法和/或兒童模式的啟動方法。

30、本申請采用的另一個技術方案是提供一種計算機存儲介質，所述計算機存儲介質用于存儲程序數據，所述程序數據在被計算機執行時，用以實現如上述的童聲檢測模型的訓練方法和/或兒童模式的啟動方法。

31、本申請的有益效果是：在訓練童聲檢測模型過程時，在分類損失的基礎上，加入預測類別為兒童，實際類別為非兒童的誤報情況所對應的誤報損失，利用誤報損失約束分類損失，使得童聲檢測模型能夠更加準確地檢測出兒童語音，減少誤報情況的發生，提升兒童模式的檢測準確性，以及訓練后的童聲檢測模型可以直接準確地通過語音進行兒童語音的識別，無需其他傳感設備的輔助，減少語音識別的檢測流程，提升識別效率。進一步地，本申請提供的兒童模式的啟動方法，將采集到的語音幀輸入至采用本申請提供的童聲檢測模型的訓練方法訓練得到的童聲檢測模型中，在童聲檢測模型的輸出結果為包含童聲的情況下，自動進入兒童模式，減少人工操作，提升用戶的使用體驗。

本文檔來自技高網...

【技術保護點】

1.一種童聲檢測模型的訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，

3.根據權利要求2所述的方法，其特征在于，

4.根據權利要求1所述的方法，其特征在于，

5.一種兒童模式的啟動方法，所述方法應用于車輛，其特征在于，所述方法包括：

6.根據權利要求5所述的方法，其特征在于，

7.根據權利要求5所述的方法，其特征在于，

8.根據權利要求5所述的方法，其特征在于，

9.一種終端設備，其特征在于，所述終端設備包括處理器、與所述處理器連接的存儲器，其中，

10.一種計算機可讀存儲介質，其特征在于，所述存儲介質存儲有程序指令，所述程序指令被執行時實現如權利要求1至8任一項所述的方法。

【技術特征摘要】

1.一種童聲檢測模型的訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，

3.根據權利要求2所述的方法，其特征在于，

4.根據權利要求1所述的方法，其特征在于，

5.一種兒童模式的啟動方法，所述方法應用于車輛，其特征在于，所述方法包括：

6.根據權利要求5所述的方法，其特...

【專利技術屬性】
技術研發人員：佟秋碩，黃河，
申請(專利權)人：浙江零跑科技股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術