System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及分布式檔案管理領域,尤其涉及一種基于大數據的分布式預算檔案協同管理系統。
技術介紹
1、隨著計算機技術以及互聯網技術的發展,計算機辦公已經深入各行各業,例如,在辦公過程中需要采用計算機處理各類檔案文件,這類文件多以表格形式體現,但是,在實際情況中,多方匯總的檔案文件常存在格式不統一以及模板不一致等問題,為檔案整理帶來了困難和挑戰,因此,針對檔案文件進行處理的相關技術被人們所重視。
2、例如,中國專利公開號:cn114817676a,公開了一種檔案管理系統,其包括電子檔案集中管理系統,電子檔案集中管理系統包括電子文件預歸檔系統、檔案電子文件管理系統和電子檔案長久保存系統;電子文件預歸檔系統包括數據接收模塊、電子文件轉換模塊、元數據抓取模塊、元數據轉換模塊、元數據補錄模塊、電子文件補掃模塊、歸檔數據比對模塊、接收清單生成模塊和歸檔數據提交模塊;檔案電子文件管理系統包括用戶管理模塊、檔案接收模塊、接收檢測模塊、在線歸檔模塊、數據利用模塊和數據共享模塊;電子檔案長久保存系統包括檔案存儲模塊、管理模塊、檔案共享模塊和檔案檢索模塊。
3、但是,現有技術中還存在以下問題,
4、在實際情況中,檔案文件可能存在內容錯誤、格式不統一、模板不一致等問題需要進行優化處理,但是在針對海量檔案文件時,對檔案文件進行分析處理算力消耗較高,效率較低。
技術實現思路
1、為此,本專利技術提供一種基于大數據的分布式預算檔案協同管理系統,用以克服現有技術中檔案文件可能存
2、為實現上述目的,本專利技術提供一種基于大數據的分布式預算檔案協同管理系統,包括:
3、檔案獲取模塊,其用以獲取用戶端上傳的檔案文件;
4、特征解析模塊,其與所述檔案獲取模塊連接,用以調用若干所述檔案文件,針對檔案文件進行圖像解析以及文本解析,獲取檔案文件的數據表現形式特征,包括,紋理分布特征以及文本結構特征;
5、標簽設置模塊,其與所述特征解析模塊連接,用以將檔案文件的數據表現形式特征與標準檔案模板的數據表現形式特征進行對比,確定數據表現差異表征值,依據所述數據表現差異表征值為各所述檔案文件設置表現標簽;
6、檔案優化模塊,其分別與檔案獲取模塊以及所述標簽設置模塊連接,用以依據各檔案文件的標簽對檔案文件進行處理,包括,
7、提取檔案文件中的信息進行聚類,逐個構建各類信息與標準檔案模板中各類標準信息的關聯關系,依據所述關聯關系將所提取信息填充至標準檔案模板得到優化檔案文件;
8、或,對檔案文件中的信息進行內容驗證,標記所述檔案文件中未通過驗證的信息;
9、其中,所述內容驗證包括驗證各類信息的數據結構與標準檔案模板數據結構的差異,所述標準檔案模板為預先構建所得。
10、進一步地,所述特征解析模塊針對檔案文件進行圖像解析以及文本解析包括,
11、用以獲取檔案文件所轉換的圖像數據,提取圖像數據中的關鍵紋理;
12、用以提取關鍵紋理在不同參考方向的間隔特征以及關鍵紋理形成的封閉區域面積,得到紋理分布特征;
13、用以獲取檔案文件的文本數據,提取文本數據的數據結構以及詞性類別,得到文本結構特征;
14、其中,參考方向包括橫向參考方向以及豎向參考方向,關鍵紋理包括檔案文件中非文字部分呈現的全部紋理。
15、進一步地,所述標簽設置模塊將檔案文件的數據表現形式特征與標準檔案模板的數據表現形式特征進行對比,包括,
16、用以在相同二維坐標系下對比各坐標區域內所述檔案文件與所述標準檔案模板的紋理分布特征以及文本結構特征;
17、用以記錄對比所得各坐標區域內的橫向間隔均值差異比、縱向間隔均值差異比以及封閉區域面積均值差異比;
18、用以依據針對文本結構特征的對比結果確定一致性參數;
19、其中,所述對比結果包括,數據結構是否相同以及詞性類別是否相同。
20、進一步地,所述標簽設置模塊確定數據表現差異表征值包括,
21、用以將各坐標區域的橫向間隔均值差異比、縱向間隔均值差異比、封閉區域面積均值差異比以及一致性參數加權求和,得到區域數據表現差異表征值;
22、用以將各坐標區域對應的數據表現差異表征值求均值,得到所述數據表現差異表征值。
23、進一步地,所述標簽設置模塊為各所述檔案文件設置表現標簽包括,
24、若所述檔案文件對應的數據表現差異表征值大于或等于預設的數據表現差異表征閾值,則為所述檔案文件設置差異表現標簽;
25、若所述檔案文件對應的數據表現差異表征值小于預設的數據表現差異表征閾值,則為所述檔案文件設置非差異表現標簽。
26、進一步地,所述檔案優化模塊依據各檔案文件的標簽對檔案文件進行處理,包括,
27、若所述檔案文件為差異表現標簽,則所述檔案優化模塊提取檔案文件中的信息進行聚類,逐個構建各類信息與標準檔案模板中各類標準信息的關聯關系,依據所述關聯關系將所提取信息填充至標準檔案模板得到優化檔案文件;
28、若所述檔案文件為非差異表現標簽,則所述檔案優化模塊對檔案文件中的信息進行內容驗證,判定是否更改所述檔案文件的表現標簽。
29、進一步地,所述檔案優化模塊提取檔案文件中的信息進行聚類,包括,
30、用以提取檔案文件中的若干信息,依據聚類條件對各所述信息進行聚類;
31、其中,所述聚類條件包括,單類信息的數據結構與詞性類別均相同且各信息位于同一參考方向上。
32、進一步地,所述檔案優化模塊逐個構建各類信息與標準檔案模板中各類標準信息的關聯關系,包括,
33、用以逐個調用檔案文件的單類信息與標準檔案模板的各類標準信息進行對比,求解關聯度排序;
34、將最大關聯度對應單類標準信息與所述檔案文件的單類信息構建關聯關系。
35、進一步地,所述檔案優化模塊依據關聯關系將所提取信息填充至標準檔案模板得到優化檔案文件包括,
36、用以確定所述檔案文件中各類信息所關聯的單類標準信息;
37、用以確定單類標準信息在所述標準檔案模板的位置區域,將所述檔案文件的各所述單類信息填充至對應位置區域,得到優化檔案文件。
38、進一步地,所述檔案優化模塊進行內容驗證包括,
39、以預定提取方式提取檔案文件以及標準檔案模板中的信息進行對比,計算信息之間的關聯度;
40、若信息對應的所述關聯度大于或等于預定的關聯度閾值,則判定所述信息驗證通過;
41、若所述關聯度小于預定的關聯度閾值,則判定所述信息驗證不通過。
42、與現有技術相比,本專利技術設置檔案獲取模塊、特征解析模塊、標簽本文檔來自技高網...
【技術保護點】
1.一種基于大數據的分布式預算檔案協同管理系統,其特征在于,包括:
2.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述特征解析模塊針對檔案文件進行圖像解析以及文本解析包括,
3.根據權利要求2所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊將檔案文件的數據表現形式特征與標準檔案模板的數據表現形式特征進行對比,包括,
4.根據權利要求3所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊確定數據表現差異表征值包括,
5.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊為各所述檔案文件設置表現標簽包括,
6.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述檔案優化模塊依據各檔案文件的標簽對檔案文件進行處理,包括,
7.根據權利要求3所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述檔案優化模塊提取檔案文件中的信息進行聚類,包括,
8.根據權利要求
9.根據權利要求8所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述檔案優化模塊依據關聯關系將所提取信息填充至標準檔案模板得到優化檔案文件包括,
10.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述檔案優化模塊進行內容驗證包括,
...【技術特征摘要】
1.一種基于大數據的分布式預算檔案協同管理系統,其特征在于,包括:
2.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述特征解析模塊針對檔案文件進行圖像解析以及文本解析包括,
3.根據權利要求2所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊將檔案文件的數據表現形式特征與標準檔案模板的數據表現形式特征進行對比,包括,
4.根據權利要求3所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊確定數據表現差異表征值包括,
5.根據權利要求1所述的基于大數據的分布式預算檔案協同管理系統,其特征在于,所述標簽設置模塊為各所述檔案文件設置表現標簽包括,
6.根據權利要求1所述的基于大...
【專利技術屬性】
技術研發人員:方流,李文哲,莊鑫,李岳群,方圓,蔣建勇,唐寶,
申請(專利權)人:眾合云科信息技術集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。