本發明專利技術涉及對音頻、視頻內容附加標簽的方法和系統,本發明專利技術涉及對人聲的檢測。本發明專利技術提供一種對音頻或視頻內容附加標簽的系統,包括檢測模塊和標簽模塊,其檢測模塊進一步包括:分割模塊,用于將所述音頻或視頻的聲音信號按預定時間長度A分割為幀;元音分析模塊,用于分析每幀聲音信號是否包含元音;人聲判斷模塊,用于依據預定時間長度B內包含元音的聲音信號的幀的數量判斷人聲。所述元音判斷模塊進一步包括:傅里葉變換模塊,用于將每幀聲音信號從時域由傅里葉變換變換到頻域;元音比對模塊,用于將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音。
【技術實現步驟摘要】
本專利技術涉及一種對音頻或視頻內容檢測并附加標簽的方法和系統。本專利技術主要涉及語音模式檢測領域,具體內容為語音標簽的創建、嵌入、存儲、回放、定位等。本專利技術涉及對人的聲音的檢測,本專利技術涉及在訊問、詢問環境下的聲音檢測。本專利技術的方法和系統主要應用在公安、檢察院、法院對犯罪嫌疑人、被告人進行訊問,對證人進行詢問,以及庭審的全程同步錄音錄像內容審查,也可用于其它音視頻文件的審查。
技術介紹
語音檢測技術,主要是指在音頻數據中檢測到特定對象的聲音,區別于其他對象。語音檢測領域所涉及到的技術有信號處理、模式識別、概率論、信息論、人工智能。語音檢測技術包括:特征提取技術,模式匹配準則以及模型訓練技術三個方面。隨著信息
的科技發展,預計未來幾年語音檢測技術將進入軍事、審訊、庭審、通信、電子醫療、家庭服務、消費電子產品等各個領域。語音檢測領域前景廣闊,通過與其他技術的結合,可以應用于更加復雜的場景。隨著社會經濟發展,犯罪形式愈發朝著多樣化、復雜化、科技化、隱秘化的方向發展,使得查辦案件難度加大,需要辦案人員反復進行案情分析。其中訊問全程的同步錄音錄像,可以回溯再現訊問當時的情境,能夠重現犯
罪嫌疑人在訊問中陳述的內容以及說話時的面部表情和精神狀態,是偵查部門進行事后案情分析重要的線索來源。此外,偵監和公訴部門進行案件監督審查時,需要全程回放案件的錄音錄像進行審查是否有刑訊逼供、指供、誘供等非法行為發生。但是,由于辦案審訊時間通常較長,很大部分錄像是沒有審訊聲音的無用錄像,實際案件的全程同步錄音錄像往往持續數個小時,若全程回放案件的錄音錄像以進行調查、搜集關鍵線索和監督審查,會降低案件調查取證和監督審查的效率,增加工作強度,甚至由于觀看人員的疲勞錯失關鍵的畫面或聲音等內容。因此可知,現有技術存在著對音頻或視頻內容無法做到有效的甄別,存在辦案人員觀看音頻或視頻內容時效率低,工作強度大的問題。此外,現有技術中對人聲進行檢測的技術也存在種種問題,首先,存在檢測準確性不高的問題;其次,目前的檢測算法復雜,導致運算成本過高,導致運行速度慢、對設備要求高等問題;現有檢測算法也無法針對訊問、詢問、庭審這種典型的環境,現有檢測算法存在沒有針對性,效率不高、檢測速度慢,或對設備要求較高等問題。
技術實現思路
本專利技術針對現有技術的不足,提供了一種對音頻或視頻內容附加標簽的方法。本專利技術所采用的技術方案如下:本專利技術提供一種對音頻或視頻內容附加標簽的方法,其特征在于,包括以下步驟:對音頻或視頻進行人聲檢測并獲得檢測結果;依據檢測結果對音頻或視頻附加標簽,所述附加標簽包括對判斷為人聲的音頻或視頻的部分附加人聲標簽,或對判斷為一個或多個自然人的音頻或視頻的部分附加與所述
一個或多個自然人對應的標簽,所述附加標簽為自動附加或依據人的操作附加相應標簽。優選的,所述一種對音頻或視頻內容附加標簽的方法中,所述對音頻或視頻進行人聲檢測并或得檢測結果的步驟進一步包括以下步驟:將所述音頻或視頻的聲音信號按預定時間長度A分割為幀;分析每幀聲音信號是否包含元音;依據預定時間長度B內包含元音的聲音信號的幀的數量判斷人聲。優選的,所述預定時間長度A為40毫秒。優選的,所述預定時間長度B為1秒;若所述預定時間長度內包含元音的聲音信號的幀的數量大于9幀,則判斷相應音頻或視頻包含人的語音。優選的,所述一種對音頻或視頻內容附加標簽的方法中,所述分析每幀聲音信號是否包含元音的步驟進一步包括以下步驟:將每幀聲音信號從時域由傅里葉變換變換到頻域,將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音。優選的,所述一種對音頻或視頻內容附加標簽的方法中,所述將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音,依據包括:元音的頻率范圍200HZ-8000HZ和/或元音有共振峰特性。優選的,所述一種對音頻或視頻內容附加標簽的方法中,所述對音頻或視頻進行人聲檢測并或得檢測結果的步驟進一步包括以下步驟:將所述音頻或視頻的聲音信號依據不同的頻譜特性區分為不同自然人的部分。本專利技術還提供一種對音頻或視頻內容進行處理的方法,其特征在于包括以下步驟:按照本專利技術前述任何一種對音頻或視頻內容附加標簽的方法對音頻或視頻內容附加標簽;對音頻或視頻內容的特定標簽進行顯示;或者對附加標簽后的音頻或視頻進行存儲;或者依據特定標簽,對相應音頻或視頻的部分進行播放;或者依據特定標簽,對相應音頻或視頻的部分進行提取,生成一個或多個可連續播放的文件。本專利技術還提供一種對音頻或視頻內容附加標簽的系統,其特征在于,包
括以下模塊:檢測模塊,用于對音頻或視頻進行人聲檢測并獲得檢測結果;標簽模塊,用于依據檢測結果對音頻或視頻附加標簽,所述附加標簽包括對判斷為人聲的音頻或視頻的部分附加人聲標簽,或對判斷為一個或多個自然人的音頻或視頻的部分附加與所述一個或多個自然人對應的標簽,所述附加標簽為自動附加或依據人的操作附加相應標簽。優選的,所述一種對音頻或視頻內容附加標簽的系統中,其檢測模塊進一步包括:分割模塊、元音分析模塊、人聲判斷模塊。所述分割模塊,用于將所述音頻或視頻的聲音信號按預定時間長度A分割為幀。所述元音分析模塊,用于分析每幀聲音信號是否包含元音;所述元音判斷模塊進一步包括:傅里葉變換模塊,用于將每幀聲音信號從時域由傅里葉變換變換到頻域;元音比對模塊,用于將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音。所述人聲判斷模塊,用于依據預定時間長度B內包含元音的聲音信號的幀的數量判斷人聲。本專利技術還提供一種對音頻或視頻內容進行處理的裝置,其特征在于,包括:本專利技術前述對音頻或視頻內容附加標簽的系統;以及處理模塊,用于對音頻或視頻內容的特定標簽進行顯示;或者對附加標簽后的音頻或視頻進行存儲;或者依據特定標簽,對相應音頻或視頻的部分進行播放;或者依據特定標簽,對相應音頻或視頻的部分進行提取,生成一個或多個可連續播放的文件。本專利技術相對現有技術具有突出的實質性特點和顯著地進步,具體地說,其使得偵查人員或監督人員無需全程播放問訊聲頻或視頻文件,自動播放有人聲的有效內容,提高了偵查和監督的效率,減少了工作量。本專利技術涉及的人聲檢測算法識別準確率高,能特別針對訊問、詢問、庭審這種典型的環境,算法高效,運行成本較低,減輕了設備成本或負擔。此外,為有助于本專利技術的實施,本申請還提供以下信息,以下信息并不構成對本專利技術的任何限制:(1)目前在行業應用中使用率最高的音頻編碼格式有AAC、G.711A、G.711U,這些音頻編碼格式的特點都是壓縮率較高且音質損失小,可以滿足行業應用,在對這些音頻格式進行分析前,可將其統一轉換為PCM格式。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于各行業的數字音頻編碼中。PCM格式的音頻數據進行每40ms為1幀的分割,基于經驗推算40毫秒為一個較優的合理的時間段,40毫秒大致為正常語速元音的持續時間。(2)將經過數據分割的數據進行傅里葉變換,轉換到頻域,傅里葉變換的公式為:其中N表示語音數據的長度,x(n)為語音數據的值。X(k)為對應的頻率值。(3)對音頻數據進行頻域分析:對變換后的頻譜圖進本文檔來自技高網...
【技術保護點】
一種對音頻或視頻內容附加標簽的方法,其特征在于,包括以下步驟:對音頻或視頻進行人聲檢測并獲得檢測結果;依據檢測結果對音頻或視頻附加標簽,所述附加標簽包括對判斷為人聲的音頻或視頻的部分附加人聲標簽,或對判斷為一個或多個自然人的音頻或視頻的部分附加與所述一個或多個自然人對應的標簽,所述附加標簽為自動附加或依據人的操作附加相應標簽。
【技術特征摘要】
1.一種對音頻或視頻內容附加標簽的方法,其特征在于,包括以下步驟:對音頻或視頻進行人聲檢測并獲得檢測結果;依據檢測結果對音頻或視頻附加標簽,所述附加標簽包括對判斷為人聲的音頻或視頻的部分附加人聲標簽,或對判斷為一個或多個自然人的音頻或視頻的部分附加與所述一個或多個自然人對應的標簽,所述附加標簽為自動附加或依據人的操作附加相應標簽。2.如權利要求1所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述對音頻或視頻進行人聲檢測并或得檢測結果的步驟進一步包括以下步驟:將所述音頻或視頻的聲音信號按預定時間長度A分割為幀;分析每幀聲音信號是否包含元音;依據預定時間長度B內包含元音的聲音信號的幀的數量判斷人聲。3.如權利要求2所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述預定時間長度A為40毫秒。4.如權利要求2-3所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述預定時間長度B為1秒;若所述預定時間長度內包含元音的聲音信號的幀的數量大于9幀,則判斷相應音頻或視頻包含人的語音。5.如權利要求2-4所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述分析每幀聲音信號是否包含元音的步驟進一步包括以下步驟:將每幀聲音信號從時域由傅里葉變換變換到頻域;將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音。6.如權利要求5所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述將每幀聲音信號變換到頻域后的頻譜特性與元音的頻譜特性進行比對,判斷其是否包含元音,依據包括:元音的頻率范圍200HZ-8000HZ和/或元音有共振峰特性。7.如權利要求1所述一種對音頻或視頻內容附加標簽的方法,其特征在于,所述對音頻或視頻進行人聲檢測并或得檢測結果的步驟進一步包括以下步驟:將所述音頻或視頻的聲音信...
【專利技術屬性】
技術研發人員:王磊,
申請(專利權)人:王磊,
類型:發明
國別省市:天津;12
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。