本發明專利技術涉及一種基于深度學習技術的企業云盤文件內容審核方法及系統,根據文件類型觸發相應的審核程序,對提取的文件內容進行分析,以判斷是否含有敏感詞庫中的數據。若內容中包含敏感詞,則進一步判斷是否含有關聯詞庫中的數據。若內容不含有關聯詞庫的數據,或含有且類型為封禁,則對文件執行封禁操作,并向用戶發送通知。若內容含有且類型為通過,則不采取任何處理措施。本發明專利技術致力于從文件中提取并分析內容,以審核文件內容。其旨在防止企業云盤中出現涉及色情、暴力、政治等敏感信息的文件,從而避免引發的法律風險和安全問題;減少人工審核文件內容所需的時間,降低人力成本;防止信息泄露,確保文檔安全;提高文件內容審核的準確性。
【技術實現步驟摘要】
本專利技術屬于人工智能領域,具體涉及一種基于深度學習的企業云盤用的文件內容審核方法及系統。
技術介紹
1、隨著云計算和大數據技術的迅猛發展,越來越多的企業開始依賴云盤來存儲和管理海量的文件資料。然而,在這些云盤中存儲的文件中,往往包含著一些敏感信息或不當內容,這些內容的存在可能會給企業帶來法律風險和安全隱患。傳統的文件內容審核方法主要依賴于人工審核,但這種方法存在審核速度緩慢、效率低下、容易出錯以及人工成本高昂等諸多問題。盡管部分云盤已經開始使用內容審核工具進行自動化審核,但目前市場上的文件內容審核工具大多基于規則匹配或簡單的機器學習算法,這些方法在準確性和適應性方面存在一定的局限性。因此,企業迫切需要一種更加智能、高效且準確的文件內容審核方法,以幫助企業有效管理和控制云盤中的文件內容,確保信息安全。
2、隨著人工智能技術的不斷進步,目前已經有能力通過程序讀取圖片中的特征信息,通過程序提取各種文件(如pdf、word、excel等)中的文字信息,以及通過程序對視頻和音頻文件進行處理,提取每一幀的信息進行分析和處理。這些技術為創建更加先進和高效的文件內容審核方法提供了堅實的技術基礎。
3、目前市面上已經出現了一些文件內容審核工具,但這些工具大多采用基于規則匹配或簡單的機器學習方法,存在準確率不高、適應性差等問題。因此,為了滿足企業對文件內容審核的更高要求,迫切需要一種更加智能、準確的文件內容審核方法,以幫助企業有效管理和控制云盤中的文件內容,確保信息安全。
技術實現思路</p>1、鑒于現有技術存在缺陷,本專利技術提出了一種基于深度學習的企業云盤文件內容審核方法及系統。該專利技術屬于人工智能領域,涵蓋了圖片信息分析技術、文檔內容提取技術以及視頻/音頻分解分析計算技術。本專利技術是一種深度學習方法,專注于從文件中提取內容并進行分析,以審核文件內容。該方法旨在防止企業云盤中出現涉及色情、暴力、政治等敏感信息的文件,從而避免由此引發的法律風險和安全問題;減少人工審核文件內容所需的時間,降低人力成本;防止信息泄露,確保文檔安全;提高文件內容審核的準確性,增強學習效果,并總結人工審核中的錯誤,以防止未來重復相同的錯誤。
2、為實現上述目的,本專利技術提供第一方面提供一種基于深度學習的企業云盤用的文件內容審核方法,至少包括如下步驟:
3、步驟s1、將用戶上傳文件的文件先上傳到隔離區,然后通過文件查殺程序進行查殺,若是文件有病毒或者木馬,會將文件刪除,并通知用戶;
4、步驟s2、查殺通過后,將根據文件類型,分別觸發對應的程序進行文件內容審核;
5、步驟s3、提取的文件內容分別去判斷是否包含了敏感詞庫的數據;若是包含,則判斷是否包含了關聯詞庫的數據,若是不包含關聯詞庫或者包含且類型為封禁,則直接對文件進行封禁處理,并發消息通知用戶;若是包含且類型為通過,則不處理。
6、進一步的,在步驟s2中文件類型包括圖片類型、文本類型、音頻類型和視頻類型中的一種或者多種;判斷文件的類型之后,不同類型的文件觸發不同的程序進行機器審核,審核通過后,將文件移到存儲區。
7、進一步的,通過敏感詞庫、關聯詞庫和白名單詞庫的管理調整審核內容的封禁條件;
8、將敏感詞庫和管理詞庫相結合,來判斷敏感詞出現的語句是否涉黃、涉暴、涉政,從而提供文件內容的準確性。
9、進一步的,文件類型為圖片類型的內容審核步驟如下:
10、圖片接收:接收用戶上傳的待審核的圖片;
11、圖片預處理:對上傳的圖片進行預處理操作,以便后續處理;
12、內容識別:對圖片進行內容識別和分析;識別出圖片中的人物、場景、物體元素,以及可能存在的敏感內容;若是識別出敏感內容,則直接對文件進行封禁處理,對文件進行攔截,進入文件封禁庫,并發消息通知用戶;
13、安全檢測:對圖片進行安全性檢測,包括檢測是否存在色情、暴力、恐怖主義敏感內容;若是識別出敏感內容,則直接對文件進行封禁處理,并發消息通知用戶;
14、通過了內容識別和安全檢測,則圖片審核成功。
15、進一步的,文件類型為文本類型的內容審核步驟如下:
16、文件接收:接收用戶上傳的文件;
17、文件提取:將文件的內容進行提取;
18、文件預處理:對文本內容進行預處理,包括去除格式、分詞、去除停用詞;
19、文本審核:判斷文本內容是否包含了敏感詞庫的數據,若是包含,則判斷是否包含了關聯詞庫的數據,若是不包含關聯詞庫或者包含且類型為封禁,則直接對文件進行封禁處理,對文件進行攔截,進入文件封禁庫,并發消息通知用戶;若是包含且類型為通過,則不處理;
20、通過了文本識別和安全檢測,則文本文件審核成功。
21、進一步的,文件類型為音頻類型的內容審核步驟如下:
22、音頻接收:接收用戶上傳的待審核的音頻;
23、音頻預處理:對音頻進行預處理,通過程序,提取聲音特征、語義分析和情感識別,自動分析音頻內容,并識別出可能的違規內容;
24、音頻轉義:利用語言識別技術,將音頻轉換為文本,再使用文本審核方法進行檢測;
25、音頻審核:審核通過,則音頻文件審核成功。
26、進一步的,文件類型為視頻類型的內容審核步驟如下:
27、視頻接收:接收用戶上傳的待審核的視頻;
28、視頻預處理:對接收的視頻進行預處理,進行視頻轉碼,以適應后續的分析和審核過程;
29、視頻分解:對預處理后的視頻進行分解,分解成圖像、聲音和字幕;
30、視頻內容分析:圖像提取關鍵幀,再將關鍵幀使用圖片審核方法進行檢測;字幕信息使用文本審核方法進行檢測;音頻使用音頻審核方法進行檢測;
31、視頻審核:圖片、聲音和字幕都審核通過后,則視頻文件審核通過。
32、進一步的,還包括糾錯處理機制,其具體方法如下:
33、文檔內容審核出現誤報,可以對誤報的文件進行申訴,管理員審核,可以進行處理:方式一:只放行該文件,后續涉及相同敏感詞的文件仍會進行攔截;方式二:對該文件涉及的敏感詞進行處理,將其從敏感詞庫中挪出且加入到白名單詞庫中或者增加其關聯詞庫,避免其他涉及到該詞匯的文件被誤攔。
34、進一步的,通過實施文件攔截清單的管理,能夠查看并匯總被攔截文件中所包含的敏感詞匯;對這些敏感詞匯進行深入分析,有助于及時發現并糾正錯誤攔截的情況,并將錯誤的敏感詞匯從敏感詞庫中移除。
35、本專利技術第二方面提供一種基于深度學習的企業云盤用的文件內容審核系統,所述系統用于上述的方法,所述系統至少包括
36、文件存儲模塊,用于存儲用戶上傳的各種類型的文件;
37、文件病毒木馬查殺模塊,利用所述文件病毒木馬查殺模塊對用戶上傳文件進行查殺,識別上傳文件是否有病毒或者木馬;
38、視頻審核模塊,用于對用本文檔來自技高網
...
【技術保護點】
1.一種基于深度學習的企業云盤用的文件內容審核方法,其特征在于:至少包括如下步驟:
2.根據權利要求1所述的方法,其特征在于:在步驟S2中文件類型包括圖片類型、文本類型、音頻類型和視頻類型中的一種或者多種;判斷文件的類型之后,不同類型的文件觸發不同的程序進行機器審核,審核通過后,將文件移到存儲區。
3.根據權利要求2所述的方法,其特征在于:通過敏感詞庫、關聯詞庫和白名單詞庫的管理調整審核內容的封禁條件;
4.根據權利要求3所述的方法,其特征在于:文件類型為圖片類型的內容審核步驟如下:
5.根據權利要求4所述的方法,其特征在于:文件類型為文本類型的內容審核步驟如下:
6.根據權利要求5所述的方法,其特征在于:文件類型為音頻類型的內容審核步驟如下:
7.根據權利要求1所述的方法,其特征在于:文件類型為視頻類型的內容審核步驟如下:
8.根據權利要求1至7所述的方法,其特征在于:還包括糾錯處理機制,其具體方法如下:
9.根據權利要求8所述的方法,其特征在于:通過實施文件攔截清單的管理,能夠查看并匯總被攔截文件中所包含的敏感詞匯;對這些敏感詞匯進行深入分析,有助于及時發現并糾正錯誤攔截的情況,并將錯誤的敏感詞匯從敏感詞庫中移除。
10.一種基于深度學習的企業云盤用的文件內容審核系統,其特征在于:所述系統用于上述權利要求1至9任一項所述的方法,所述系統至少包括
...
【技術特征摘要】
1.一種基于深度學習的企業云盤用的文件內容審核方法,其特征在于:至少包括如下步驟:
2.根據權利要求1所述的方法,其特征在于:在步驟s2中文件類型包括圖片類型、文本類型、音頻類型和視頻類型中的一種或者多種;判斷文件的類型之后,不同類型的文件觸發不同的程序進行機器審核,審核通過后,將文件移到存儲區。
3.根據權利要求2所述的方法,其特征在于:通過敏感詞庫、關聯詞庫和白名單詞庫的管理調整審核內容的封禁條件;
4.根據權利要求3所述的方法,其特征在于:文件類型為圖片類型的內容審核步驟如下:
5.根據權利要求4所述的方法,其特征在于:文件類型為文本類型的內容審核步驟如下:
6.根...
【專利技術屬性】
技術研發人員:周景峰,范榮木,張志超,王毅銘,
申請(專利權)人:中電福富信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。