System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及檔案開放鑒定,具體是一種檔案的開放控制檢測的方法及系統。
技術介紹
1、隨著社會的發展與進步,社會對檔案資源的利用需求日益增長。推動檔案開放率提升是檔案事業高質量發展的重要一環。檔案開放鑒定工作是檔案開放的前提。現階段,檔案開放鑒定工作陷入困境。在工作負擔加重、鑒定難度加大、時間期限縮短的背景下,檔案開放鑒定工作迫切需要引入新的技術方法、構建新的處理范式以提升鑒定質量與效率,滿足現實工作需求的同時為未來長遠發展提供理論與實踐基礎。綜合國內外在檔案開放鑒定或其他相關任務上的理論與實踐研究可見,目前針對檔案開放鑒定這一具體情境下的自動化方法研究還尚有不足,但是以機器學習為代表的前沿技術在其他檔案工作領域已經成為向智慧化轉型、深入發展的重要技術手段和主要嘗試路徑,其中的思路可以遷移、借鑒到檔案開放鑒定任務中。
技術實現思路
1、本專利技術的目的是,從ai智慧賦能檔案管理業務流程的視角出發,基于前沿的神經網絡預訓練語言模型,使用檔案開放檢測分類模型和開放檢測回歸模型獲得檔案的分類和檢測結果,使用開放證據相似度匹配模型及敏感詞模糊匹配模型最終判定檔案開放或控制,以此為檔案鑒定人員提供參考,提升檔案的鑒定效率。
2、為實現上述目的,本申請的第一方面提供了一種基于深度學習模型的檔案鑒定與開放審控的檢測方法,該方法包括:
3、對獲取的原始檔案數據進行預處理,得到融合有檔案正文信息和檔案著錄項信息的文本數據;
4、對所述文本數據進行編碼,得到固定維度
5、對所述詞向量進行特征提取,得到詞向量的特征表示;
6、將所述特征表示輸入到分類模型和回歸模型中,分別得到包含當前檔案鑒定狀態的分類結果及檢測結果;
7、將所述檔案正文信息輸入構建的語義相似度模型中,得到包含當前檔案鑒定狀態的相似度分數最高的事實描述字符串;
8、將所述檔案正文信息輸入構建的敏感詞匹配模型中,得到匹配結果;
9、根據所述匹配結果確定當前的檔案數據為開放或控制。
10、進一步地,所述對所述文本數據進行編碼,得到固定維度的詞向量,包括:
11、將所述文本數據以字符串形式拆分為單個字符組成的列表,使用訓練的語言模型對輸入的字符一一進行編碼,每一個字符對應有一個固定維度的詞向量。
12、進一步地,將所述特征表示輸入到分類模型中,得到檔案鑒定狀態的分類結果包括:
13、架構一個線性層,輸出包含開放/控制的類別概率的二維向量,選取概率最大的類別作為該特征表示的分類結果,其中,
14、輸入的特征詞向量用表示:參數m代表特征詞向量的維度大小,權重矩陣w為:
15、
16、類別yj對應的權重向量為:類別向量為:類別對應的softmax函數分類輸出概率為:
17、
18、進一步地,將所述特征表示輸入到回歸模型中,得到檔案鑒定狀態的檢測結果包括:
19、架構一個線性層,根據輸出得到數值是否超過預設的閾值大小來判定是否對檔案進行開放/控制的檢測結果,其中,
20、輸入的特征詞向量用表示:參數m代表特征詞向量的維度大小,權重矩陣w′為:
21、
22、輸出值y為:
23、進一步地,所述對獲取的原始檔案數據進行預處理包括:
24、基于ocr識別模型對原始檔案的掃描格式文件進行識別,得到正文文本輸出的檔案正文信息,以及,基于xml文件解析程序對原始檔案的元數據文件進行解析和提取,得到敏感的著錄項信息;
25、加入預定義的特殊標記融合所述檔案正文信息和著錄項信息,并對檔案的控制標識做編碼,將文本標簽轉換為數值表示。
26、進一步地,所述將檔案正文信息輸入構建的語義相似度模型中,得到包含檔案鑒定標簽的相似度分數最高的事實描述字符串,包括:
27、通過所述語義相似度模型將所述檔案正文信息和開放/控制證據庫中的事實描述字符串進行相似度對比,獲取相似度分數最高的事實描述語句及其對應的檔案開放/控制的標簽。
28、進一步地,所述將檔案正文信息輸入構建的敏感詞匹配模型中,得到匹配結果,包括:
29、通過所述敏感詞匹配模型,對所述檔案正文信息和開放/控制證據庫中的敏感詞進行對比和匹配,并返回是否匹配成功的結果。
30、進一步地,所述根據匹配結果確定當前的檔案數據為開放或控制,包括:
31、若基于所述分類結果確定所述檔案鑒定狀態為控制,或者,基于所述檢測結果確定所述檔案鑒定狀態為控制,或者基于相似度分數最高的事實描述語句對應的檔案鑒定標簽為控制,或者匹配結果成功,則確定當前的檔案數據為控制;
32、若基于所述分類結果及檢測結果確定的所述檔案鑒定狀態為開發,且基于所述相似度分數最高的事實描述語句對應的檔案鑒定標簽為,以及匹配結果失敗時,則確定當前的檔案數據為開放。
33、本專利技術的第二方面,還提供了一種基于深度學習模型的檔案鑒定與開放審控的檢測系統,其包括:
34、文本數據轉換模塊,對獲取的原始檔案數據進行預處理,得到融合有檔案正文信息和檔案著錄項信息的文本數據;
35、編碼模塊,對所述文本數據進行編碼,得到固定維度的詞向量;
36、特征提取模塊,對所述詞向量進行特征提取,得到詞向量的特征表示;
37、檔案狀態鑒定檢測模塊,將所述特征表示輸入到分類模型和回歸模型中,分別得到包含當前檔案鑒定狀態的分類結果及檢測結果;
38、檔案相似度檢測模塊,將所述檔案正文信息輸入構建的語義相似度模型中,得到包含當前檔案鑒定狀態的相似度分數最高的事實描述字符串;
39、敏感詞匹配模塊,將所述檔案正文信息輸入構建的敏感詞匹配模型中,得到匹配結果;
40、結果判斷模塊,根據所述匹配結果確定當前的檔案數據為開放或控制。
41、與現有技術相比,本申請所提供的一種基于深度學習模型的檔案鑒定與開放審控的檢測及系統,具有如下技術效果:
42、本申請從ai智慧賦能檔案管理業務流程的視角出發,基于前沿的神經網絡預訓練語言模型,使用檔案開放檢測分類模型和開放檢測回歸模型獲得檔案的分類和檢測結果,同時,使用預先構建的開放證據相似度匹配模型及敏感詞模糊匹配模型最終判定檔案是否能夠開放或應當被控制不開放,以此為檔案鑒定人員提供參考,該種方法極大相比傳統的人工審核方式,大大提升了當前檔案開放鑒定的質量與效率,在滿足現實工作需求的同時為未來長遠發展提供了理論與實踐基礎。
本文檔來自技高網...【技術保護點】
1.一種基于深度學習模型的檔案鑒定與開放審控的檢測方法,其特征在于,所述檢測方法包括:
2.如權利要求1所述的檢測方法,其特征在于,所述對所述文本數據進行編碼,得到固定維度的詞向量,包括:
3.如權利要求1或2所述的檢測方法,其特征在于,將所述特征表示輸入到分類模型中,得到檔案鑒定狀態的分類結果包括:
4.如權利要求3所述的檢測方法,其特征在于,將所述特征表示輸入到回歸模型中,得到檔案鑒定狀態的檢測結果包括:
5.如權利要求1所述的檢測方法,其特征在于,所述對獲取的原始檔案數據進行預處理包括:
6.如權利要求4所述的檢測方法,其特征在于,所述將檔案正文信息輸入構建的語義相似度模型中,得到包含檔案鑒定標簽的相似度分數最高的事實描述字符串,包括:
7.如權利要求6所述的檢測方法,其特征在于,所述將檔案正文信息輸入構建的敏感詞匹配模型中,得到匹配結果,包括:
8.如權利要求7所述的檢測方法,其特征在于,所述根據匹配結果確定當前的檔案數據為開放或控制,包括:
9.一種基于深度學習模型的檔案鑒定
10.一種計算機可讀存儲介質,其具有存儲在其上的計算機可讀程序指令,所述計算機可讀程序指令用于執行根據權利要求1至8中任一項所述的方法。
...【技術特征摘要】
1.一種基于深度學習模型的檔案鑒定與開放審控的檢測方法,其特征在于,所述檢測方法包括:
2.如權利要求1所述的檢測方法,其特征在于,所述對所述文本數據進行編碼,得到固定維度的詞向量,包括:
3.如權利要求1或2所述的檢測方法,其特征在于,將所述特征表示輸入到分類模型中,得到檔案鑒定狀態的分類結果包括:
4.如權利要求3所述的檢測方法,其特征在于,將所述特征表示輸入到回歸模型中,得到檔案鑒定狀態的檢測結果包括:
5.如權利要求1所述的檢測方法,其特征在于,所述對獲取的原始檔案數據進行預處理包括:
6.如權利要求4所述的檢測方法,其特征...
【專利技術屬性】
技術研發人員:王平,李祖超,張石頭,端文卓,侯景瑞,
申請(專利權)人:王平,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。