• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語音和群智感知的人群數量監測方法技術

    技術編號:15507830 閱讀:88 留言:0更新日期:2017-06-04 02:21
    本發明專利技術公開了一種基于語音和群智感知的人群數量監測方法,通過對收集的語音片段取MFCC和Pitch等語音特征參數,再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計,最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足,實現了人群規模監測,也提高了人群規模統計的快速性、準確性。

    A method for monitoring population size based on speech and swarm intelligence

    The invention discloses a voice and crowd sensing monitoring method based on the number of people, through the collection of speech segments from MFCC and Pitch speech feature parameters, and then combined with the features of Pitch and MFCC parameters based on gender recognition, individual discrimination and a number of statistics, the number of statistics is visualized by thermodynamic diagram form. This makes up for the shortcomings of simply using Pitch to linearly distinguish between men and women, and realize the monitoring of population size, and also improve the rapidity and accuracy of population scale statistics.

    【技術實現步驟摘要】
    一種基于語音和群智感知的人群數量監測方法
    本專利技術屬于群智感知
    ,更為具體地講,涉及一種基于語音和群智感知的人群數量監測方法。
    技術介紹
    智能移動設備的快速發展為群智感知的應用奠定了基礎。群智感知是指普通用戶的移動設備(手機、平板電腦等)作為基本感知單元,通過移動互聯網進行有意識或無意識的協作,實現感知任務分發與感知數據收集,完成大規模的、復雜的社會感知任務。群智感知在社會感知的應用方面有很多。例如,Ubigreen項目跟蹤用戶活動對環境帶來的影響,鼓勵用戶綠色出行;BikeNet項目采集自行車用戶的騎行數據,讓參與者分享最喜愛的騎行路線與環境狀況;im2GPS項目利用互聯網數百萬計的GPS標記圖片,估計用戶的地理位置信息。以語音為載體的群智感知,可廣泛應用于城市熱點感知、人群監測等。例如:通過人群監測,可以判斷:一家餐館是否顧客盈門?演講中演講者與聽眾的互動是否熱烈?某個人在日常生活中是否社交活動非常活躍?該應用是利用用戶手機自帶的錄音功能收集周邊講話人的語音數據,對其分析處理后計算出說話人數。然而,目前語音群智感知應用的人群統計準確率不高,其主要原因在于性別誤判和相同性別下不同個體的區分度不夠。以典型的Crowd++系統為例,它在性別識別中只是使用基頻(Pitch)閾值法區分男女,忽略了中性人群Pitch重疊區域的處理,性別誤判導致了統計誤差累加。更重要的是,在相同性別下,它采用的基于MFCC的距離度量方法根本不能有效區分不同個體。
    技術實現思路
    本專利技術的目的在于克服現有技術的不足,提供一種基于語音和群智感知的人群數量監測方法,通過Pitch和MFCC聯合特征參數進行性別識別,完成人數統計,實現了人群規模統計的快速性和準確性。為實現上述專利技術目的,本發一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};(1.2)、MFCC向量處理設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1),將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;(1.3)、Pitch向量處理設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;將保留的K'(K'≤K)幀語音的K'個p求均值再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+1維的聯合均值向量(2)、基于MFCC和Pitch特征參數的性別識別(2.1)、定義一個人數監測集合R,并初始R為1;以第一個語音片段S1為基準,在語音S中依次挑選兩個語音片段S1、S2,并按照步驟(1)所述方法進行處理;(2.2)、將MFCC和Pitch特征參數歸一化到同一量級,再對這兩個歸一化值加權求和,如下:其中,Smfcc表示MFCC向量均值的n維系數的和,Fpitch表示Pitch向量均值表示Smfcc的均值;λmfcc表示男女Smfcc調節參數;λpitch表示男女Pitch分界值;α表示權重調節系數,用于調節MFCC和Pitch歸一化值在加權和中所占的比例;(2.3)、根據S大小分別識別這兩段語音的性別,如果S>0時,則識別為男性;否則為女性;(2.4)、判斷這兩語音片段的性別是否相同,如果性別不同,則R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果性別相同,則進行進入步驟(3);(3)、相同性別下基于聯合均值向量的不同個體區分(3.1)、在相同性別下,利用余弦相似法計算兩語音片段的聯合均值向量的余弦相似度dcs其中,P、Q分別代表兩個語音片段的聯合均值向量||表示取模;(3.2)、相同性別下的不同個體區分若余弦相似度dcs大于預設的上限閾值θd,即dcs>θd,則判斷這兩段語音片段來自不同的個體,則將R+1,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;若余弦相似度dcs小于預設的下限閾值θs,即dcs<θs,則這兩段語音片段來自同一個體,再進入步驟(4);若相似度dcs介于θd和θs之間,即θs≤dcs≤θd,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;(4)、相同個體的正向聚類(4.1)、利用Pitch的K-L散度方法計算兩語音片段的K-L散度dkl其中,p、q表示兩個語音片段特征參數Pitch的均值向量;σ表示兩個語音片段特征參數Pitch方差;I表示單位矩陣;(4.2)、判斷散度dkl是否小于預設的閾值T,如果dkl小于T,將兩語音片段的特征參數進行合并;如果dkl大于等T,則R不變,并返回步驟(2.1),重新挑選下一個語音片段與S1比較;(5)、判斷以語音片段S1為基準時,所有語音片段是否都與S1比較完成,如果未比較完成,則返回步驟(2.1),重新挑選下一個語音片段與S1比較;如果比較完成,則以語音片段S2為基準,進入一下輪語音片段的比較,并依次類推,直到所有的語音片段兩兩比對結束。本專利技術的專利技術目的是這樣實現的:本專利技術一種基于語音和群智感知的人群數量監測方法,通過對收集的語音片段取MFCC和Pitch等語音特征參數,再基于Pitch和MFCC聯合特征參數進行性別識別、個體區分和人數統計,最后將人數統計的結果以熱力圖形式進行可視化顯示。這樣彌補了簡單利用Pitch線性區分男女的不足,實現了人群規模監測,也提高了人群規模統計的快速性、準確性。同時,本專利技術一種基于語音和群智感知的人群數量監測方法還具有以下有益效果:(1)、采用基于Pitch和MFCC聯合特征的性別識別方法,解決了中性人群Pitch重疊區域處理問題;(2)、基于MFCC和Pitch聯合特征參數重新定義了余弦相似度,并基于該定義提出了不同個體區分方法,不同特征結合能取得更好的識別性能,這樣解決了針對影響數統計準確率的性別誤判和相同性別下不同個體的區分度不夠的問題;(3)、本專利技術提出了一種基于Pitch的K-L散度正向聚類方法,以無需性別判別即可實現同一個體不同語音幀間的特征歸并,彌補了基于性別的正向聚類方法的不足,減少統計誤差積累。附圖說明圖1是本專利技術基于語音和群智感知的人群數量監測方法流程圖;圖2是本專利技術中不同個體區分示意圖;圖3是本專利技術系統部署示意圖。具體實施方式下面結合附圖對本專利技術的具體實施方式進行描述,以便本領域的技術人員更好地理解本專利技術。需要特別提醒注意的是,在以下的描述中,當已知功能和設計的詳細描述也許會淡化本專利技術的主要內容時,這些描述在這里將被忽略。實施例為了方便描述,先對具體實施方式中出現的相關專業術語進行說明:MFCC(MelFrequencyCepstrumCoefficient):Mel頻率倒譜系數;Pit本文檔來自技高網...
    一種基于語音和群智感知的人群數量監測方法

    【技術保護點】
    一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S

    【技術特征摘要】
    1.一種基于語音和群智感知的人群數量監測方法,其特征在于,包括以下步驟:(1)、提取MFCC和Pitch特征參數,并將這兩個特征參數融合成聯合均值(1.1)、將收集的語音S切分為t秒的若干個片段,S={S1,S2,...};(1.2)、MFCC向量處理設第k個語音片段Sk中包含K幀語音,從每幀語音中提取n維的MFCC向量(m0,m1,...,mn-1),將K個MFCC向量求均值再將作為語音片段Sk的MFCC特征參數;其中,mij表示語音片段Sk的第i幀MFCC向量的第j維MFCC系數;(1.3)、Pitch向量處理設每幀語音中提取的Pitch值為p,語音片段Sk中共計提取出K個p,比較每個p值是否在50~450Hz之間,如果在則保留該幀語音,如果不在則刪除該幀語音;將保留的K'(K'≤K)幀語音的K'個p求均值再比較是否在50~450Hz之間,如果在,則保留該語音片段Sk,并將作為語音片段Sk的Pitch特征參數;如果不在,則刪除該語音片段Sk;(1.4)、將MFCC和Pitch特征參數融合成聯合均值向量在n維MFCC向量均值的第n+1維位置處增加Pitch向量均值的對數組成n+維的聯合均值向量(2)、基于MFCC和Pitch特征參數的性別識別(2.1)、定義一個人數統計集合R,并初始R為1;以第一個語音片段S1為基準,在語音S中依次挑選兩個語音片段S1、S2,并按照步驟(1)所述方法進行處理;(2.2)、將MFCC和Pitch特征參數歸一化到同一量級,再對這兩個歸一化值加權求和,如下:其中,Smfcc表示MFCC向量均值的n維系數的和,Fpitch表示Pitch向量均值表示Smfcc的均值;λmfcc表示男女Smfcc調節參數;λpitch表示男女Pitch分界值;α表示權重調節系數,用于調節MFCC和Pitch歸一化值在加權和中所占的比例;(2.3)、根據S大小分別識別這兩段語音的性別,如果S>0時,則識別為男性;否則為女性;(2.4)、判斷這兩語音片段的性別是否相同,如果性別不同,則R+1,并返回步驟...

    【專利技術屬性】
    技術研發人員:陽小龍洪鷺燕孫奇福
    申請(專利權)人:北京科技大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码乱肉视频免费大全合集| 亚洲AV无码专区在线亚| 亚洲成av人片天堂网无码】| 亚洲日韩精品A∨片无码| 四虎国产精品永久在线无码| 无码办公室丝袜OL中文字幕| 无码人妻熟妇AV又粗又大| 国产精品无码久久av| 亚洲熟妇av午夜无码不卡| 精品视频无码一区二区三区 | 亚洲国产精品无码专区影院| 日韩久久无码免费毛片软件| 99热门精品一区二区三区无码| 人妻丰满?V无码久久不卡| 精品欧洲av无码一区二区三区| 中文无码人妻有码人妻中文字幕| 69成人免费视频无码专区| 无码少妇一区二区三区浪潮AV| 无码人妻少妇久久中文字幕| 国产精品无码一区二区在线观 | 中文无码伦av中文字幕| 中文无码人妻有码人妻中文字幕| 亚洲国产精品无码久久九九大片 | 人妻丰满熟妇无码区免费| 中文字幕乱妇无码AV在线| 国产成人无码aa精品一区| 无码丰满熟妇juliaann与黑人| 无码日韩精品一区二区三区免费 | 无码少妇一区二区性色AV| 亚洲欧洲日产国码无码网站| 中文字幕无码免费久久9一区9| 人妻无码一区二区三区四区| 精品久久久久久无码中文字幕| 国产日韩精品中文字无码| 日本爆乳j罩杯无码视频| 国产在线观看无码免费视频 | 国产成人A亚洲精V品无码| 在线精品自拍无码| 亚洲AV综合色区无码一区爱AV| 亚洲av无码精品网站| 久久亚洲精品成人av无码网站|