當(dāng)前位置: 首頁 > 專利查詢>阿里巴巴集團(tuán)控股有限公司專利>正文

一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：33092559 閱讀：29 留言：0更新日期：2022-04-16 23:22

本申請(qǐng)實(shí)施例提供一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)。所述方法包括：獲取麥克風(fēng)陣列在至少一個(gè)時(shí)間幀下采集到的聲學(xué)信號(hào)流；基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì)，以獲得包含所述至少一個(gè)時(shí)間幀下聲源方位信息的信息流；將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)；根據(jù)所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤。在本申請(qǐng)實(shí)施例中，將包含聲源方位信息的信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)，并基于可視化數(shù)據(jù)，進(jìn)行聲源追蹤。這顛覆了傳統(tǒng)的從聲學(xué)信號(hào)處理層面進(jìn)行聲源追蹤的方式，而是從可視化分析層面進(jìn)行聲源追蹤。據(jù)此，本申請(qǐng)實(shí)施例中，可有效提高聲源追蹤的準(zhǔn)確度，且可提高對(duì)各種復(fù)雜環(huán)境的適應(yīng)性。適應(yīng)性。適應(yīng)性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)

[0001]本申請(qǐng)涉及數(shù)據(jù)處理
，尤其涉及一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)。

技術(shù)介紹

[0002]基于麥克風(fēng)陣列進(jìn)行聲源追蹤是近年來的聲學(xué)信號(hào)處理領(lǐng)域的熱門技術(shù)。目前，聲源追蹤技術(shù)通常是對(duì)麥克風(fēng)陣列進(jìn)行濾波、取極值、計(jì)算基頻、計(jì)算方位角等信號(hào)層面的處理，以進(jìn)行聲源追蹤。
[0003]但是，這類處理方式的魯棒性較差，泛化能力不足，尤其是在多聲源或嘈雜的環(huán)境下，聲源追蹤的準(zhǔn)確度不足。

技術(shù)實(shí)現(xiàn)思路

[0004]本申請(qǐng)的多個(gè)方面提供一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)，用以提高聲源追蹤的準(zhǔn)確度。
[0005]本申請(qǐng)實(shí)施例提供一種聲源追蹤方法，包括：
[0006]獲取麥克風(fēng)陣列在至少一個(gè)時(shí)間幀下采集到的聲學(xué)信號(hào)流；
[0007]基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì)，以獲得包含所述至少一個(gè)時(shí)間幀下聲源方位信息的信息流；
[0008]將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)；
[0009]根據(jù)所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤。
[0010]本申請(qǐng)實(shí)施例還提供一種聲源追蹤方法，包括：
[0011]在目標(biāo)時(shí)段內(nèi)的至少一個(gè)時(shí)間幀下，分別確定聲源方位信息；
[0012]將所述至少一個(gè)時(shí)間幀下的聲源方位信息，轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的至少一組圖像數(shù)據(jù)，以形成圖像流；
[0013]利用圖像識(shí)別模型對(duì)所述圖像流進(jìn)行圖像識(shí)別，以在所述目標(biāo)時(shí)段內(nèi)進(jìn)行聲源追蹤。
...

【技術(shù)保護(hù)點(diǎn)】

【技術(shù)特征摘要】
1.一種聲源追蹤方法，其特征在于，包括：獲取麥克風(fēng)陣列在至少一個(gè)時(shí)間幀下采集到的聲學(xué)信號(hào)流；基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì)，以獲得包含所述至少一個(gè)時(shí)間幀下聲源方位信息的信息流；將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)；根據(jù)所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)，包括：將所述信息流轉(zhuǎn)換為所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖，所述方位分布熱力圖用于描述在所述至少一個(gè)時(shí)間幀下聲源在不同方位上的分布熱度。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述聲源方位信息中包含聲源處于各方位的置信度；所述將所述信息流轉(zhuǎn)換為在所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖，包括：基于置信度與顯示亮度之間的對(duì)應(yīng)關(guān)系，根據(jù)所述至少一個(gè)時(shí)間幀下的聲源處于各方位的置信度，在所述至少一個(gè)時(shí)間幀下分別確定各方位對(duì)應(yīng)的顯示亮度，不同顯示亮度表征不同的分布熱度；根據(jù)所述顯示亮度，生成所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖。4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述顯示亮度，生成所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖，包括：根據(jù)所述至少一個(gè)時(shí)間幀下各方位對(duì)應(yīng)的顯示亮度，分別確定所述至少一個(gè)時(shí)間幀各自對(duì)應(yīng)的圖像內(nèi)容；按照所述至少一個(gè)時(shí)間幀之間的時(shí)間順序，依次排列所述至少一個(gè)時(shí)間幀各自對(duì)應(yīng)的圖像內(nèi)容，以生成所述方位分布熱力圖。5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤，包括：利用機(jī)器學(xué)習(xí)模型以及所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤。6.根據(jù)權(quán)利要求5所述的方法，其特征在于，若所述可視化數(shù)據(jù)為所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖，則所述利用機(jī)器學(xué)習(xí)模型以及所述可視化數(shù)據(jù)，進(jìn)行聲源追蹤，包括：在所述機(jī)器學(xué)習(xí)模型中，提取所述方位分布熱力圖中的圖像特征；基于圖像特征與聲源屬性參數(shù)之間的映射關(guān)系以及從所述方位分布熱力圖中提取到的圖像特征，確定所述至少一個(gè)時(shí)間幀下的目標(biāo)聲源屬性參數(shù)，以進(jìn)行聲源追蹤。7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述聲源屬性參數(shù)包括方位、數(shù)量、發(fā)聲時(shí)長(zhǎng)和所覆蓋時(shí)間幀中的一個(gè)或多個(gè)。8.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括：獲取若干樣本時(shí)間幀組各自對(duì)應(yīng)的樣本熱力圖，所述樣本熱力圖用于描述在樣本時(shí)間幀下聲源在不同方位上的分布熱度；為各樣本熱力圖標(biāo)注聲源屬性參數(shù)，以獲得各樣本熱力圖對(duì)應(yīng)的標(biāo)注信息；將所述各樣本熱力圖及其對(duì)應(yīng)的標(biāo)注信息輸入所述機(jī)器學(xué)習(xí)模型，以供所述機(jī)器學(xué)習(xí)
模型學(xué)習(xí)所述圖像特征與聲源屬性參數(shù)之間的映射關(guān)系。9.根據(jù)權(quán)利要求6所述的方法，其特征在于，還包括：獲取若樣本時(shí)間幀組各自對(duì)應(yīng)的樣本信息流；為各樣本信息流標(biāo)注聲源屬性參數(shù)，以獲得各樣本信息流對(duì)應(yīng)的標(biāo)注信息；將所述各樣本信息流及其對(duì)應(yīng)的標(biāo)注信息輸入所述機(jī)器學(xué)習(xí)模型，以供所述機(jī)器學(xué)習(xí)模型將各樣本信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)并學(xué)習(xí)所述圖像特征與聲源屬性參數(shù)之間的映射關(guān)系。10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)，包括：將所述信息流輸入機(jī)器學(xué)習(xí)模型；在所述機(jī)器學(xué)習(xí)模型中，將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)。11.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述聲學(xué)信號(hào)流包含所述麥克風(fēng)陣列中各陣元采集到的時(shí)域信號(hào)流，所述基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì)，以獲得包含所述至少一個(gè)時(shí)間幀下的聲源方位信息的信息流，包括：將各陣元采集到的時(shí)域信號(hào)流分別轉(zhuǎn)換時(shí)頻域信號(hào)；采用聲源方位估計(jì)技術(shù)，根據(jù)所述各陣元下的時(shí)頻域信號(hào)，確...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：黃偉隆，李威，馮津偉，
申請(qǐng)(專利權(quán))人：阿里巴巴集團(tuán)控股有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)