基于人工智能技術的媒體多模態(tài)內容審核方法及系統(tǒng)技術方案

技術編號：43571184 閱讀：14 留言：0更新日期：2024-12-06 17:40

本發(fā)明專利技術涉及一種基于人工智能技術的媒體多模態(tài)內容審核方法及系統(tǒng)，包括接收待審核媒體內容并判斷媒體類型，當判斷媒體內容為視頻時，將音頻與視頻分離，并采用基于梯度變化檢測的算法抽取視頻的關鍵幀；采用目標檢測模型對視頻的關鍵幀進行目標檢測，采用人臉識別模型對視頻的關鍵幀進行人臉識別，以及采用語音識別模型對音頻進行轉文本處理；基于目標檢測結果、人臉識別結果和轉文本處理結果，通過預設的違規(guī)信息庫和自然語言處理算法，分析違規(guī)信息并輸出審核結果。本發(fā)明專利技術通過結合目標檢測、人臉識別和語音識別技術，實現對不同媒體內容的全面分析，能夠高效、準確地檢測和識別違規(guī)內容，提升審核效率和準確性，適用于多種媒體內容審核場景。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及智能媒體的，尤其涉及一種基于人工智能技術的媒體多模態(tài)內容審核方法及系統(tǒng)。

技術介紹

1、隨著技術的發(fā)展，媒體內容的形式更加多樣化，不僅包括文本，還涵蓋圖像、音頻和視頻等多種形式。這些內容涵蓋從教育科普到娛樂休閑的各個領域，呈現出多元化和海量化的特點。然而，在這豐富多樣的媒體內容背后，對媒體多模態(tài)內容的審核與管理卻面臨著巨大挑戰(zhàn)。

2、現有方法大多針對單一類型數據審核，如基于關鍵詞過濾等規(guī)則匹配的文本內容審核方法，通過建立包含敏感詞、違規(guī)詞等的關鍵詞庫，對文本進行匹配檢查?；谏疃葘W習的圖像內容審核方法，通過大量的訓練數據學習到不同類型圖像的特征，從而能夠進行準確的識別。但這些方法在面對日益復雜的數據形式時，無法全面捕捉和分析媒體多模態(tài)內容的豐富信息，限制了審核的深度和廣度。

3、視頻是作為融合了圖像、音頻和文字的多模態(tài)內容媒介，具有直觀性、敘事性等特點，已成為信息傳播的主要形式之一。傳統(tǒng)的視頻內容審核方式主要依賴于人工校對。人工審核方法要求審核人員基于既定標準進行判斷，易受主觀情緒與精力限制，審核結果不穩(wěn)定，且耗費大量人力與時間成本。這種方法在處理日益增長的數據量和多模態(tài)的內容類型時顯得力不從心。目前，一些視頻審核模型雖然在處理單一數據類型的審核時取得了一定成果，但在面對視頻中的多模態(tài)信息時，仍存在顯著局限。這些模型往往只能處理視頻中的靜態(tài)圖像，無法有效識別視頻中的文字、人物、語音內容中的違規(guī)詞或綜合分析多種信息類型。這種局限性使得審核精度降低，無法全面保障內容的安全性和質量。

技術實現思路

1、本專利技術的目的在于提供一種基于人工智能技術的媒體多模態(tài)內容審核方法及系統(tǒng)，以解決現有技術中審核精度差以及審核結果不一致的問題。

2、為實現上述專利技術目的之一，本專利技術一實施方式提供一種基于人工智能技術的媒體多模態(tài)內容審核方法，所述方法包括，

3、接收待審核媒體內容并判斷媒體類型，當判斷媒體內容為視頻時，將音頻與視頻分離，并采用基于梯度變化檢測的算法抽取視頻的關鍵幀；

4、采用目標檢測模型對視頻的關鍵幀進行目標檢測，采用人臉識別模型對視頻的關鍵幀進行人臉識別，以及采用語音識別模型對音頻進行轉文本處理；

5、基于目標檢測結果、人臉識別結果和轉文本處理結果，通過預設的違規(guī)信息庫和自然語言處理算法，分析違規(guī)信息并輸出審核結果。

6、作為本專利技術一實施方式的進一步改進，所述方法還包括，當媒體內容為圖片時，進行目標檢測和人臉識別，并對目標檢測結果和人臉識別結果進行審核；

7、當媒體內容為音頻時，進行音頻轉文字處理，并對轉文本結果進行審核。

8、作為本專利技術一實施方式的進一步改進，所述方法還包括，所述抽取視頻的關鍵幀包括，

9、采用圖像處理技術，通過幀間差分和梯度變化檢測算法，依據預設的時間間隔，從視頻內容中抽取關鍵幀。

10、作為本專利技術一實施方式的進一步改進，所述方法還包括，所述采用目標檢測模型對視頻的關鍵幀進行目標檢測包括，

11、通過多尺度特征金字塔將關鍵幀圖像分解為多個尺度層，捕捉不同尺度的目標信息；

12、使用動態(tài)卷積網絡將所述不同尺度的目標信息輸出為多尺度特征圖；

13、利用時序卷積網絡從視頻幀序列中提取時序特征；

14、將所述多尺度特征圖與所述時序特征進行融合，生成包含時序信息的綜合特征圖；

15、基于所述綜合特征圖，使用檢測頭進行目標檢測，輸出每個候選框的位置、尺寸、置信度和類別標簽；

16、使用預設的違規(guī)信息庫，輸出每個候選框中的場景和物品中存在的違規(guī)信息。

17、作為本專利技術一實施方式的進一步改進，所述方法還包括，所述采用人臉識別模型對視頻的關鍵幀進行人臉識別包括，

18、采用retinaface和facenet模型對所述關鍵幀中的人臉進行檢測，具體步驟包括：

19、基于retinaface模型提取關鍵幀圖像中的多尺度特征，得到多個特征圖；

20、對每個特征圖中的每個位置進行檢測框回歸，預測人臉檢測框；

21、采用回歸網絡預測人臉的關鍵點位置，確定人臉區(qū)域；

22、采用非極大值抑制算法去除重復的檢測框，保留置信度最高的檢測框，并發(fā)送人臉區(qū)域圖像至facenet模型；

23、基于facenet模型提取人臉區(qū)域圖像的高維特征，生成特征向量；

24、通過比較特征向量與預存的特征向量，確定人臉的身份，并輸出人臉的身份信息。

25、作為本專利技術一實施方式的進一步改進，所述方法還包括，所述采用人臉識別模型對視頻的關鍵幀進行人臉識別還包括，

26、對于同一人物的多個人臉圖像，對人臉圖像的場景進行分類，分別對不同場景下人臉圖像的特征向量進行平均加權，生成該人臉的最終特征向量。

27、作為本專利技術一實施方式的進一步改進，所述方法還包括，所述采用語音識別模型對音頻進行轉文本處理包括，

28、采用whisper模型對音頻進行轉文本處理，具體步驟包括：

29、將音頻通過濾波器進行濾波生成頻譜圖，從頻譜圖中提取特征；

30、通過編碼器提取高層次音頻特征；

31、由解碼器將高層次音頻特征轉換為文本，并進行文本糾錯，優(yōu)化音頻轉換文本的結果；

32、識別經轉換文本違規(guī)信息的步驟包括：

33、采用lac工具對轉換得到的文本進行分詞處理，將文本拆分為詞匯和詞性標注；

34、使用預設的違規(guī)信息庫和自然語言處理算法遍歷分詞結果，輸出違規(guī)詞的出現頻率以及所在文本的位置信息。

35、為實現上述專利技術目的之一，本專利技術一實施方式提供一種基于人工智能技術的媒體多模態(tài)內容審核系統(tǒng)，所述系統(tǒng)包括判斷單元、檢測模塊和審核模塊；

36、所述判斷模塊用于接收待審核媒體內容并判斷媒體類型，當判斷媒體內容為視頻時，將音頻與視頻分離，并采用基于梯度變化檢測的算法抽取視頻的關鍵幀；

37、所述檢測模塊用于采用目標檢測模型對視頻的關鍵幀進行目標檢測，采用人臉識別模型對視頻的關鍵幀進行人臉識別，以及采用語音識別模型對音頻進行轉文本處理；

38、所述審核模塊用于基于目標檢測結果、人臉識別結果和轉文本處理結果，通過預設的違規(guī)信息庫和自然語言處理算法，分析違規(guī)信息并輸出審核結果。

39、為實現上述專利技術目的之一，本專利技術一實施例還提供一種電子設備，包括存儲器以及處理器，其特征在于，所述存儲器中存儲可在所述處理器上運行的計算機程序，所述處理器上執(zhí)行程序時實現如上所述基于人工智能技術的媒體多模態(tài)內容審核方法中的步驟。

40、為實現上述專利技術目的之一，本文檔來自技高網...

【技術保護點】

1.一種基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：包括，

2.根據權利要求1所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：還包括，

3.根據權利要求1所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述抽取視頻的關鍵幀包括，

4.根據權利要求3所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用目標檢測模型對視頻的關鍵幀進行目標檢測包括，

5.根據權利要求3所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用人臉識別模型對視頻的關鍵幀進行人臉識別包括，

6.根據權利要求5所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用人臉識別模型對視頻的關鍵幀進行人臉識別還包括，

7.根據權利要求1所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用語音識別模型對音頻進行轉文本處理包括，

8.一種基于人工智能技術的媒體多模態(tài)內容審核系統(tǒng)，其特征在于：包括判斷模塊、檢測模塊和審核模塊；

9.一種電子

10.一種存儲介質，所述存儲介質存儲有計算機程序，其特征在于：所述計算機程序被處理器執(zhí)行時實現如權利要求1-7任意一項所述基于人工智能技術的媒體多模態(tài)內容審核方法中的步驟。

...

【技術特征摘要】

1.一種基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：包括，

2.根據權利要求1所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：還包括，

3.根據權利要求1所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述抽取視頻的關鍵幀包括，

4.根據權利要求3所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用目標檢測模型對視頻的關鍵幀進行目標檢測包括，

5.根據權利要求3所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用人臉識別模型對視頻的關鍵幀進行人臉識別包括，

6.根據權利要求5所述的基于人工智能技術的媒體多模態(tài)內容審核方法，其特征在于：所述采用人臉識別模型對...

【專利技術屬性】
技術研發(fā)人員：麥淼，羅小龍，王夢環(huán)，
申請(專利權)人：廣東南方智媒科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術