【技術實現步驟摘要】
本專利技術涉及音視頻處理
,特別涉及一種對話沖突檢測方法及裝置。
技術介紹
隨著我國經濟的飛速發展,民眾對衣食住行體驗的要求越來越高,而先進的語音檢測系統是提高民眾體驗的一種有效途徑。對話沖突檢測系統更是語音檢測系統中的關鍵,而且對話沖突檢測系統不僅可以提取語音中的對話沖突片段,減少語音剪切中的工作量和提高準確性,還可以根據對話沖突檢測識別出情緒的變化,在情感識別,智能監控等領域有廣闊的應用前景。目前語音檢測領域在進行對話沖突檢測時,將待檢測的語音信號劃分為多個語音信號片段,對待檢測的語音信號片段中的每個語音幀提取基因頻率和多維語音特征參數,得到動輒成千上萬維的參數,在對語音信號片段進行判斷時,根據對話沖突檢測模型,確定每個語音信號片段的沖突等級時,需要對成千上萬維的參數進行運算,造成計算量過大,效率低、反應速度慢的問題。
技術實現思路
本專利技術提供一種對話沖突檢測方法及裝置,用以解決現有技術中對話沖突檢測時,運算的參數量過多,造成計算量過大,效率低、反應速度慢的問題。為達到上述目的,本專利技術實施例公開了一種對話沖突檢測方法,該方法包括:針對待檢測語音信號,將所述待檢測語音信號劃分為多個時長不大于設定時長閾值的第一語音信號片段;針對每個第一語音信號片段,提取該第一語音信號片段中每個語音幀的基因頻率、梅爾頻率倒譜系數MFCC及一階二階差分特征參數;確定提取的該第一語音信號片段中每個語音幀的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差,并識別該第一語音信號片段的無聲段持續時間;根據預先訓練完成的對話沖突檢測模型,和該第一語音信 ...
【技術保護點】
一種對話沖突檢測方法,其特征在于,應用于電子設備,所述方法包括:針對待檢測語音信號,將所述待檢測語音信號劃分為多個時長不大于設定時長閾值的第一語音信號片段;針對每個第一語音信號片段,提取該第一語音信號片段中每個語音幀的基因頻率、梅爾頻率倒譜系數MFCC及一階二階差分特征參數;確定提取的該第一語音信號片段中每個語音幀的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差,并識別該第一語音信號片段的無聲段持續時間;根據預先訓練完成的對話沖突檢測模型,和該第一語音信號片段對應的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差和該第一語音信號片段的無聲段持續時間,確定該第一語音信號片段的對話沖突等級;根據所述對話沖突等級是否大于設定閾值,判斷該第一語音信號片段是否為對話沖突語音信號片段。
【技術特征摘要】
1.一種對話沖突檢測方法,其特征在于,應用于電子設備,所述方法包括:針對待檢測語音信號,將所述待檢測語音信號劃分為多個時長不大于設定時長閾值的第一語音信號片段;針對每個第一語音信號片段,提取該第一語音信號片段中每個語音幀的基因頻率、梅爾頻率倒譜系數MFCC及一階二階差分特征參數;確定提取的該第一語音信號片段中每個語音幀的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差,并識別該第一語音信號片段的無聲段持續時間;根據預先訓練完成的對話沖突檢測模型,和該第一語音信號片段對應的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差和該第一語音信號片段的無聲段持續時間,確定該第一語音信號片段的對話沖突等級;根據所述對話沖突等級是否大于設定閾值,判斷該第一語音信號片段是否為對話沖突語音信號片段。2.如權利要求1所述的方法,其特征在于,預先對所述對話沖突檢測模型的訓練過程包括:針對訓練集中每個第二語音信號片段,提取該第二語音信號片段中每個語音幀的基因頻率、MFCC及一階二階差分特征參數;確定提取的該第二語音信號片段中每個語音幀的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差,并識別該第二語音信號片段的無聲段持續時間;根據每個第二語音信號片段的對話沖突等級,為每個第二語音信號片段添加對應的沖突等級標簽;將所述添加標簽后的第二語音信號片段對應的基因頻率的均值、方差及極值,MFCC及一階二階差分特征參數的均值及方差和該第二語音信號片段的無聲段持續時間輸入對話沖突檢測模型,對對話沖突檢測模型進行訓練。3.如權利要求2所述的方法,其特征在于,所述對所述對話沖突檢測模型進行訓練包括:采用支持向量機SVM方法,對所述對話沖突檢測模型進行訓練;或,采用極限學習機ELM方法,對所述對話沖突檢測模型進行訓練。4.如權利要求1或2所述的方法,其特征在于,所述根據所述對話沖突等級是否大于設定閾值,判斷該第一語音信號片段是否為對話沖突語音信號片段包括:識別該第一語音信號片段的對話沖突等級,判斷所述對話沖突等級是否大于設定閾值;如果是,確定該第一語音信號片段為對話沖突語音信號片段;如果否,確定該第一語音信號片段不為對話沖突語音信號片段。5.如權利要求1所述的方法,其特征在于,所述確定提取的該第一語音信號片段中每個語音幀的基因頻率的極值包括:確定提取的該第一語音信號片段中每個語音幀的基因頻率的最大值、最小值;并根據所述最大值和最小值,確定該第一語音信號片段的極差。6.如權利要求1所述的方法,其特征在于,提取該第一語音信號片段中每個語音幀的基因頻率、MFCC及一階二階差分特征參數之前,所述方法還包括:針對每個第一語音信號片段,將該第一語音信號片段劃分為多個語音幀。7.如權利要求6所述的方法,其特征在于,所述針對每個第一語音信號片段,將該第一語音信號片段劃分為多個語音幀包括:針對每個第一語音信號片段進行預加...
【專利技術屬性】
技術研發人員:謝湘,肖艷紅,徐利強,
申請(專利權)人:北京理工大學,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。