聲源定位方法及相關方法、裝置、設備和存儲介質制造方法及圖紙

技術編號：44482797 閱讀：3 留言：0更新日期：2025-03-04 17:49

本申請公開了一種聲源定位方法及相關方法、裝置、設備和存儲介質，其中，聲源定位方法包括：獲取包含雙麥克風的拾音陣列所采集到的待處理音頻；基于聲源定位模型處理待處理音頻，預測得到目標聲源至拾音陣列的相對位置；其中，聲源定位模型基于樣本音頻訓練得到，樣本音頻標注有樣本聲源所在的實際區域，樣本音頻至少包括仿真音頻，仿真音頻由在多個車內區域分別播放音頻時樣本陣列的采集音頻疊加得到，且在聲源定位模型訓練之前揚聲機構依次在各個車內區域播放音頻。上述方案，能夠在實現多音區的前提下，盡可能地降低硬件成本、運維難度和對車載音頻處理系統的性能要求，同時盡可能地減小硬件原因影響多音區分區效果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及音頻處理，特別是涉及一種聲源定位方法及相關方法、裝置、設備和存儲介質。

技術介紹

1、汽車行業正處于智能化變革的關鍵時期，語音技術作為一種直觀、自然的人機交互方式，成為汽車智能化發展的重要組成部分。在汽車智能化發展過程中，車內多音區交互成為提升用戶體驗的關鍵因素。

2、目前，現有技術要么采用雙麥克風滿足左右兩個音區，但無法實現多音區，即同側前后排音區之間無法相互隔離，要么采用四麥克風滿足主駕、副駕、左后排、右后排共計四個音區，但成本較高、運維困難，且由于多個麥克風分別采集的音頻信號需要進行復雜的處理和分析，對車載音頻處理系統的性能要求較高。同時，多個麥克風之間的頻響、相位一致性難以保證，由此可能會對多音區的分區效果帶來嚴重影響。有鑒于此，如何在實現多音區的前提下，盡可能地降低硬件成本、運維難度和對車載音頻處理系統的性能要求，同時盡可能地減小硬件原因影響多音區分區效果，成為亟待解決的問題。

技術實現思路

1、本申請主要解決的技術問題是提供一種聲源定位方法及相關方法、裝置、設備和存儲介質，能夠在實現多音區的前提下，盡可能地降低硬件成本、運維難度和對車載音頻處理系統的性能要求，同時盡可能地減小硬件原因影響多音區分區效果。

2、為了解決上述技術問題，本申請第一方面提供了一種聲源定位方法，包括：獲取包含雙麥克風的拾音陣列所采集到的待處理音頻；基于聲源定位模型處理待處理音頻，預測得到目標聲源至拾音陣列的相對位置；其中，相對位置包括相對方向和相對距離，聲源定位模

3、為了解決上述技術問題，本申請第二方面提供了一種聲音增強方法，包括：預測目標聲源至拾音陣列的相對位置；其中，相對位置基于上述第一方面中聲源定位方法確定得到；基于目標聲源至拾音陣列的相對位置，得到目標聲源所在的車內區域作為目標區域；基于波束形成調整拾音陣列的拾音區域以覆蓋目標區域，得到目標音頻。

4、為了解決上述技術問題，本申請第三方面提供了一種語音識別方法，包括：獲取目標音頻；其中，目標音頻基于上述第二方面中聲音增強方法得到；基于目標音頻進行語音識別，得到識別文本。

5、為了解決上述技術問題，本申請第四方面提供了一種聲源定位裝置，包括：音頻獲取模塊和位置預測模塊，音頻獲取模塊，用于獲取包含雙麥克風的拾音陣列所采集到的待處理音頻；位置預測模塊，用于基于聲源定位模型處理待處理音頻，預測得到目標聲源至拾音陣列的相對位置；其中，相對位置包括相對方向和相對距離，聲源定位模型基于樣本音頻訓練得到，樣本音頻標注有樣本聲源所在的實際區域，樣本音頻至少包括仿真音頻，仿真音頻由在多個車內區域分別播放音頻時樣本陣列的采集音頻疊加得到，且在聲源定位模型訓練之前揚聲機構依次在各個車內區域播放音頻。

6、為了解決上述技術問題，本申請第五方面提供了一種聲音增強裝置，包括：位置預測模塊、區域確定模塊和波束形成模塊，位置預測模塊，用于預測目標聲源至拾音陣列的相對位置；其中，相對位置基于上述第四方面中聲源定位裝置確定得到；區域確定模塊，用于基于目標聲源至拾音陣列的相對位置，得到目標聲源所在的車內區域作為目標區域；波束形成模塊，用于基于波束形成調整拾音陣列的拾音區域以覆蓋目標區域，得到目標音頻。

7、為了解決上述技術問題，本申請第六方面提供了一種語音識別裝置，包括：音頻獲取模塊和音頻識別模塊，音頻獲取模塊，用于獲取目標音頻；其中，目標音頻基于上述第五方面中聲音增強裝置得到；音頻識別模塊，用于基于目標音頻進行語音識別，得到識別文本。

8、為了解決上述技術問題，本申請第七方面提供了一種電子設備，至少包括相互耦接的存儲器和處理器，存儲器中至少存儲有程序指令，處理器用于執行程序指令以實現上述第一方面中的聲源定位方法，或實現上述第二方面中的聲音增強方法，或實現上述第三方面中的語音識別方法。

9、為了解決上述技術問題，本申請第八方面提供了一種計算機可讀存儲介質，存儲有能夠被處理器運行的程序指令，程序指令用于實現上述第一方面的聲源定位方法，或實現上述第二方面中的聲音增強方法，或實現上述第三方面中的語音識別方法。

10、上述方案，獲取包含雙麥克風的拾音陣列所采集到的待處理音頻，再基于聲源定位模塊處理待處理音頻，預測得到目標聲源相較于拾音陣列的相對位置，相對位置包括相對方向和相對距離，聲源定位模型基于樣本音頻訓練得到，樣本音頻標注有樣本聲源所在的實際區域，樣本音頻至少包含仿真音頻，仿真音頻由在多個車內區域分別播放音頻時樣本陣列的采集音頻疊加得到，且在聲源定位模型訓練之前揚聲機構依次在各個車內區域播放音頻，故一方面由于樣本音頻包含仿真音頻，而仿真音頻由在多個車內區域分別播放音頻時樣本陣列的采集音頻疊加得到，且在聲源定位模型訓練之前揚聲機構依次在各個車內區域播放音頻，故通過在各個車內區域依次播放音頻時的采集音頻，特別是疊加采集音頻所形成的仿真音頻，能夠盡可能地模擬真實環境中不同區域發生人機交互時音頻數據，再據此進行模型訓練，能夠使模型在訓練過程中建模并區分不同區域的聲音表征，即使在多人同時說話等復雜場景下也能夠實現精準的音區分離，另一方面無需四麥克風等多麥克風，而僅需雙麥克風即可支持多個區域，以滿足同側前后排不同區域之間相互隔離。故此，能夠在實現多音區的前提下，盡可能地降低硬件成本、運維難度和對車載音頻處理系統的性能要求，同時盡可能地減小硬件原因影響多音區分區效果。

本文檔來自技高網...

【技術保護點】

1.一種聲源定位方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述仿真音頻的獲取步驟包括：

3.根據權利要求2所述的方法，其特征在于，所述方法還包括：

4.根據權利要求3所述的方法，其特征在于，所述基于所述區域組合中各個所述車內區域，為所述仿真音頻標注所述實際區域，包括：

5.根據權利要求2所述的方法，其特征在于，在所述分別選擇各個所述車內區域作為當前區域之后，以及在所述控制所述揚聲機構在所述當前區域播放音頻之前，所述方法還包括：

6.根據權利要求1所述的方法，其特征在于，所述聲源定位模型的訓練步驟包括：

7.根據權利要求1所述的方法，其特征在于，所述待處理音頻中包含由所述雙麥克風分別所采集的第一音頻和第二音頻，在所述基于聲源定位模型處理所述待處理音頻，預測得到目標聲源至所述拾音陣列的相對位置之前，所述方法還包括：

8.根據權利要求1至7任一項所述的方法，其特征在于，所述拾音陣列布置于車內前排，所述多個車內區域至少包括后排區域；

9.一種聲音增強方法，其特征在于，包括：

10.一種語音識別方法，其特征在于，包括：

11.一種聲源定位裝置，其特征在于，包括：

12.一種聲音增強裝置，其特征在于，包括：

13.一種語音識別裝置，其特征在于，包括：

14.一種電子設備，其特征在于，至少包括相互耦接的存儲器和處理器，所述存儲器中至少存儲有程序指令，所述處理器用于執行所述程序指令以實現權利要求1至8任一項所述的聲源定位方法，或權利要求9所述的聲音增強方法，或實現權利要求10所述的語音識別方法。

15.一種計算機可讀存儲介質，其特征在于，存儲有能夠被處理器運行的程序指令，所述程序指令用于實現權利要求1至8任一項所述的聲源定位方法，或權利要求9所述的聲音增強方法，或實現權利要求10所述的語音識別方法。

...

【技術特征摘要】

1.一種聲源定位方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述仿真音頻的獲取步驟包括：

3.根據權利要求2所述的方法，其特征在于，所述方法還包括：

4.根據權利要求3所述的方法，其特征在于，所述基于所述區域組合中各個所述車內區域，為所述仿真音頻標注所述實際區域，包括：

6.根據權利要求1所述的方法，其特征在于，所述聲源定位模型的訓練步驟包括：

8.根據權利要求1至...

【專利技術屬性】
技術研發人員：汪穎，張子洋，馬峰，高建清，
申請(專利權)人：科大訊飛股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術