當前位置: 首頁 > 專利查詢>北京科來數(shù)據(jù)分析有限公司專利>正文

一種音視頻目標流識別相互補充驗證系統(tǒng)及方法技術方案

技術編號：43893432 閱讀：10 留言：0更新日期：2025-01-03 13:07

本發(fā)明專利技術涉及流量分析目標檢測領域，具體涉及一種音視頻目標流識別相互補充驗證系統(tǒng)及方法，包括網(wǎng)口采集模塊、全流量分析模塊等，通過流式的方式對音頻，視頻逐幀檢測推理評估，達成與目標設定的閾值時，動態(tài)產(chǎn)生結果以達到目標檢測相互補充的效果。利用聲紋識別模塊、圖像目標檢測模塊雙模型推理，整合以增加目標的準確度，提高目標檢測精度，并且可通過深度學習減少誤報率。在流量分析的場景下引入自定義訓練的音頻以及視頻模型，準確識別自己關心的目標。較之單模型的基礎目標識別、事后結果集處理識別，可以更精確，更實時的對關注的目標進行校對，多模型推理提高識別的效率，增加實際場景的應變能力，減少人力成本。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及流量分析目標檢測領域，具體涉及一種音視頻目標流識別相互補充驗證系統(tǒng)及方法。

技術介紹

1、現(xiàn)有的媒體目標識別方案，總結下來有兩種：

2、（1）、單模型目標識別，指的是給出一套視頻或者音頻的目標。例如：攝像頭等實時產(chǎn)生圖像目標識別結果，然后輸出到界面，此方式的特點是流量分析場景下可以讓系統(tǒng)擁有單模型指標識別能力，數(shù)據(jù)分段后置處理，能篩選出一部分關心的指標，但是如果圖像模糊或者雜音嚴重，分數(shù)就會很低，或許就會丟掉目標，需要后續(xù)人工處理。

3、（2）、事后結果集處理識別，指的是將對應系統(tǒng)生成的結果集，例如：音頻，視頻等結果文件進行再次分析，識別關鍵字，特征值等，此方式的特點利用工具或者人工對結果集進行再次篩選、分析。能一定程度提高結果的準確性，但效率相對較低，人工成本相對較高，需要存儲結果集。

4、公布號為cn114565636a的中國專利公開了一種基于多攝像頭的目標關聯(lián)方法，通過對每個攝像頭的流式數(shù)據(jù)進行目標關聯(lián)，并根據(jù)相應的閾值條件分別進行整合，提高了目標識別的準確性，但是其模型單一，出現(xiàn)緊急情況，則無法判斷目標到底處于何狀態(tài)，人物一旦脫離掉攝像頭，則會失去目標。

5、同時，公布號為cn118485628a的中國專利公開了一種yolov7花色布瑕疵檢測方法、系統(tǒng)及設備，其提前準備數(shù)據(jù)集，圖像，后續(xù)在根據(jù)yolo模型進行目標識別，但是其對數(shù)據(jù)結果集進行分析，需要存儲數(shù)據(jù)，存在時間換空間等問題。

技術實現(xiàn)思路

1、本專利技術針

2、采用的技術方案是，一種音視頻目標流識別相互補充驗證系統(tǒng)，包括網(wǎng)口采集模塊、全流量分析模塊、聲紋識別模塊、圖像目標檢測模塊和計算模塊；

3、所述網(wǎng)口采集模塊用于實時采集網(wǎng)口流量，并轉發(fā)至數(shù)據(jù)總線供后續(xù)模塊使用；

4、所述全流量分析模塊，用于分析網(wǎng)口采集模塊采集的流量，并生成通信日志和還原音視頻文件；

5、所述聲紋識別模塊，用于對全流量分析模塊產(chǎn)生的音頻文件中說話人識別，并對說話人識別權重評估，得到音頻的分數(shù)權重；

6、所述圖像目標檢測模塊，用于對全流量分析模塊產(chǎn)生的視頻文件進行輸入圖像特征提取，得到視頻的分數(shù)權重；

7、所述計算模塊基于聲紋識別模塊和圖像目標檢測模塊得到的音頻分數(shù)權重和視頻分數(shù)權重，生成整體分數(shù)，并通過擬合函數(shù)得到最終分數(shù)，基于最終分數(shù)生成結果集。

8、可選的，所述全流量分析模塊通過協(xié)議的識別，區(qū)分出voip協(xié)議族協(xié)議，包含sip信令流與實際傳輸音視頻流的rtp媒體流。

9、可選的，所述全流量分析模塊通過sip中攜帶的編碼格式對對應匹配的媒體流進行解碼，所述編碼格式包括aac、amr、evs、g711、g7221、g722、g723、g726、g728、g729、ilbc、opus、silk、speex、vp8、h261、h263、h264、h265。

10、可選的，所述聲紋識別模塊基于ecapatdnn模型，音頻文件通過ecapatdnn模型得到實時推理audio_score分數(shù)。

11、可選的，所述圖像目標檢測模塊基于yolov7目標檢測模型，通過一次前向傳播即可實現(xiàn)對圖像中多個目標的檢測和分類，視頻文件通過yolov7目標檢測模型得到實施推理video_score分數(shù)。

12、可選的，所述計算模塊對audio_score分數(shù)和video_score分數(shù)進行加權處理得到media_score，且media_score算式如下：

13、media_score?=(a*audio_score+v*video_score)/2；

14、其中a為audio_score分數(shù)的加權系數(shù)，v為video_score分數(shù)的加權系數(shù)，且通過media_score根據(jù)非線程擬合公式計算出最后得分final_score，且final_score算式如下：

15、f(media_score)?=?1/(1+e-5*(media_score*2-1)?)。

16、可選的，當final_score超過閾值時，產(chǎn)生結果集。

17、本申請還提供了一種音視頻目標流識別相互補充驗證方法，其基于音視頻目標流識別相互補充驗證系統(tǒng)實現(xiàn)，包括以下步驟：

18、s1.網(wǎng)口采集模塊采集網(wǎng)口流量，并輸送至全流量分析模塊；

19、s2.全流量分析模塊分析網(wǎng)口采集模塊采集的流量，并生成通信日志和還原音視頻文件；

20、s3.?ecapatdnn模型的訓練與預測，將音頻文件生成audio_score分數(shù)；

21、s4.?yolov7模型的訓練與預測，將視頻文件生成video_score分數(shù)；

22、s5.計算模塊將audio_score分數(shù)和video_score分數(shù)進行加權處理得到media_score，并根據(jù)非線程擬合公式計算出最后得分final_score；

23、s6.基于最后得分final_score產(chǎn)生目標識別告警處理。

24、本專利技術的有益包括：

25、1.?通過流式的方式對音頻（聲紋），視頻（圖像）逐幀檢測推理評估，達成與目標設定的閾值時，動態(tài)產(chǎn)生結果以達到目標檢測相互補充的效果。利用yolov7、ecapatdnn雙模型推理，整合以增加目標的準確度，提高目標檢測精度，并且可通過深度學習減少誤報率。簡單來說就是流量分析的場景下引入自定義訓練的音頻以及視頻模型，準確識別自己關心的目標。相比于單模型的基礎目標識別、事后結果集處理識別，可以更精確，更實時的對關注的目標進行校對，多模型推理提高識別的效率，增加實際場景的應變能力，減少人力成本。

26、2.?可以解決目前流量分析下還原結果集后置的問題以及人工效率的問題，結合音頻、視頻，提高了目標告警的精度，減少誤判。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，包括網(wǎng)口采集模塊、全流量分析模塊、聲紋識別模塊、圖像目標檢測模塊和計算模塊；

2.根據(jù)權利要求1所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述全流量分析模塊通過協(xié)議的識別，區(qū)分出VOIP協(xié)議族協(xié)議，包含SIP信令流與實際傳輸音視頻流的RTP媒體流。

3.根據(jù)權利要求2所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述全流量分析模塊通過SIP中攜帶的編碼格式對對應匹配的媒體流進行解碼，所述編碼格式包括AAC、AMR、EVS、G711、G7221、G722、G723、G726、G728、G729、ILBC、OPUS、SILK、SPEEX、VP8、H261、H263、H264、H265。

4.根據(jù)權利要求1所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述聲紋識別模塊基于EcapaTdnn模型，音頻文件通過EcapaTdnn模型得到實時推理audio_score分數(shù)。

5.根據(jù)權利要求4所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述圖像目

6.根據(jù)權利要求5所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述計算模塊對audio_score分數(shù)和video_score分數(shù)進行加權處理得到Media_score，且Media_score算式如下：

7.根據(jù)權利要求6所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，當Final_score超過閾值時，產(chǎn)生結果集。

8.一種音視頻目標流識別相互補充驗證方法，基于權利要求5至7中任一項所述的音視頻目標流識別相互補充驗證系統(tǒng)實現(xiàn)，其特征在于，包括以下步驟：

...

【技術特征摘要】

2.根據(jù)權利要求1所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述全流量分析模塊通過協(xié)議的識別，區(qū)分出voip協(xié)議族協(xié)議，包含sip信令流與實際傳輸音視頻流的rtp媒體流。

3.根據(jù)權利要求2所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述全流量分析模塊通過sip中攜帶的編碼格式對對應匹配的媒體流進行解碼，所述編碼格式包括aac、amr、evs、g711、g7221、g722、g723、g726、g728、g729、ilbc、opus、silk、speex、vp8、h261、h263、h264、h265。

4.根據(jù)權利要求1所述的一種音視頻目標流識別相互補充驗證系統(tǒng)，其特征在于，所述聲紋識別模塊基于ecapatdnn模型，音頻文件通過ecap...

【專利技術屬性】
技術研發(fā)人員：孟召瑞，羅剛，王騰飛，岳興，
申請(專利權)人：北京科來數(shù)據(jù)分析有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術