【技術(shù)實(shí)現(xiàn)步驟摘要】
一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
[0001]本申請(qǐng)涉及數(shù)據(jù)處理
,尤其涉及一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)。
技術(shù)介紹
[0002]基于麥克風(fēng)陣列進(jìn)行聲源追蹤是近年來的聲學(xué)信號(hào)處理領(lǐng)域的熱門技術(shù)。目前,聲源追蹤技術(shù)通常是對(duì)麥克風(fēng)陣列進(jìn)行濾波、取極值、計(jì)算基頻、計(jì)算方位角等信號(hào)層面的處理,以進(jìn)行聲源追蹤。
[0003]但是,這類處理方式的魯棒性較差,泛化能力不足,尤其是在多聲源或嘈雜的環(huán)境下,聲源追蹤的準(zhǔn)確度不足。
技術(shù)實(shí)現(xiàn)思路
[0004]本申請(qǐng)的多個(gè)方面提供一種聲源追蹤方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì),用以提高聲源追蹤的準(zhǔn)確度。
[0005]本申請(qǐng)實(shí)施例提供一種聲源追蹤方法,包括:
[0006]獲取麥克風(fēng)陣列在至少一個(gè)時(shí)間幀下采集到的聲學(xué)信號(hào)流;
[0007]基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì),以獲得包含所述至少一個(gè)時(shí)間幀下聲源方位信息的信息流;
[0008]將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù);
[0009]根據(jù)所述可視化數(shù)據(jù),進(jìn)行聲源追蹤。
[0010]本申請(qǐng)實(shí)施例還提供一種聲源追蹤方法,包括:
[0011]在目標(biāo)時(shí)段內(nèi)的至少一個(gè)時(shí)間幀下,分別確定聲源方位信息;
[0012]將所述至少一個(gè)時(shí)間幀下的聲源方位信息,轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的至少一組圖像數(shù)據(jù),以形成圖像流;
[0013]利用圖像識(shí)別模型對(duì)所述圖像流進(jìn)行圖像識(shí)別,以在所述目標(biāo)時(shí)段內(nèi)進(jìn)行聲源追蹤。
...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種聲源追蹤方法,其特征在于,包括:獲取麥克風(fēng)陣列在至少一個(gè)時(shí)間幀下采集到的聲學(xué)信號(hào)流;基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì),以獲得包含所述至少一個(gè)時(shí)間幀下聲源方位信息的信息流;將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù);根據(jù)所述可視化數(shù)據(jù),進(jìn)行聲源追蹤。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù),包括:將所述信息流轉(zhuǎn)換為所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖,所述方位分布熱力圖用于描述在所述至少一個(gè)時(shí)間幀下聲源在不同方位上的分布熱度。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述聲源方位信息中包含聲源處于各方位的置信度;所述將所述信息流轉(zhuǎn)換為在所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖,包括:基于置信度與顯示亮度之間的對(duì)應(yīng)關(guān)系,根據(jù)所述至少一個(gè)時(shí)間幀下的聲源處于各方位的置信度,在所述至少一個(gè)時(shí)間幀下分別確定各方位對(duì)應(yīng)的顯示亮度,不同顯示亮度表征不同的分布熱度;根據(jù)所述顯示亮度,生成所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述顯示亮度,生成所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖,包括:根據(jù)所述至少一個(gè)時(shí)間幀下各方位對(duì)應(yīng)的顯示亮度,分別確定所述至少一個(gè)時(shí)間幀各自對(duì)應(yīng)的圖像內(nèi)容;按照所述至少一個(gè)時(shí)間幀之間的時(shí)間順序,依次排列所述至少一個(gè)時(shí)間幀各自對(duì)應(yīng)的圖像內(nèi)容,以生成所述方位分布熱力圖。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述可視化數(shù)據(jù),進(jìn)行聲源追蹤,包括:利用機(jī)器學(xué)習(xí)模型以及所述可視化數(shù)據(jù),進(jìn)行聲源追蹤。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,若所述可視化數(shù)據(jù)為所述至少一個(gè)時(shí)間幀下聲源的方位分布熱力圖,則所述利用機(jī)器學(xué)習(xí)模型以及所述可視化數(shù)據(jù),進(jìn)行聲源追蹤,包括:在所述機(jī)器學(xué)習(xí)模型中,提取所述方位分布熱力圖中的圖像特征;基于圖像特征與聲源屬性參數(shù)之間的映射關(guān)系以及從所述方位分布熱力圖中提取到的圖像特征,確定所述至少一個(gè)時(shí)間幀下的目標(biāo)聲源屬性參數(shù),以進(jìn)行聲源追蹤。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述聲源屬性參數(shù)包括方位、數(shù)量、發(fā)聲時(shí)長(zhǎng)和所覆蓋時(shí)間幀中的一個(gè)或多個(gè)。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:獲取若干樣本時(shí)間幀組各自對(duì)應(yīng)的樣本熱力圖,所述樣本熱力圖用于描述在樣本時(shí)間幀下聲源在不同方位上的分布熱度;為各樣本熱力圖標(biāo)注聲源屬性參數(shù),以獲得各樣本熱力圖對(duì)應(yīng)的標(biāo)注信息;將所述各樣本熱力圖及其對(duì)應(yīng)的標(biāo)注信息輸入所述機(jī)器學(xué)習(xí)模型,以供所述機(jī)器學(xué)習(xí)
模型學(xué)習(xí)所述圖像特征與聲源屬性參數(shù)之間的映射關(guān)系。9.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括:獲取若樣本時(shí)間幀組各自對(duì)應(yīng)的樣本信息流;為各樣本信息流標(biāo)注聲源屬性參數(shù),以獲得各樣本信息流對(duì)應(yīng)的標(biāo)注信息;將所述各樣本信息流及其對(duì)應(yīng)的標(biāo)注信息輸入所述機(jī)器學(xué)習(xí)模型,以供所述機(jī)器學(xué)習(xí)模型將各樣本信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)并學(xué)習(xí)所述圖像特征與聲源屬性參數(shù)之間的映射關(guān)系。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù),包括:將所述信息流輸入機(jī)器學(xué)習(xí)模型;在所述機(jī)器學(xué)習(xí)模型中,將所述信息流轉(zhuǎn)換為描述聲源的方位分布狀態(tài)的可視化數(shù)據(jù)。11.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聲學(xué)信號(hào)流包含所述麥克風(fēng)陣列中各陣元采集到的時(shí)域信號(hào)流,所述基于所述聲學(xué)信號(hào)流進(jìn)行聲源方位估計(jì),以獲得包含所述至少一個(gè)時(shí)間幀下的聲源方位信息的信息流,包括:將各陣元采集到的時(shí)域信號(hào)流分別轉(zhuǎn)換時(shí)頻域信號(hào);采用聲源方位估計(jì)技術(shù),根據(jù)所述各陣元下的時(shí)頻域信號(hào),確...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:黃偉隆,李威,馮津偉,
申請(qǐng)(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。