System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據處理,具體涉及一種基于大數據的數據自動化清洗系統。
技術介紹
1、在大數據時代,企業和組織積累了大量的文本數據,這些數據中包含有價值的信息,但對于決策支持和數據分析而言,數據的質量至關重要。然而,由于數據來源的多樣性以及數據錄入、傳輸等過程中的誤差,原始數據通常存在各種問題,如不一致、重復、錯誤或不完整等信息。因此,在進行有效數據分析前,必須對這些數據進行清洗和預處理。
2、傳統的數據清洗主要依靠人工審核,不僅耗時耗力,而且容易受到主觀判斷的影響,難以保證數據清洗的一致性和準確性。隨著數據量的激增,人工清洗已無法滿足業務需求,自動化的數據清洗工具和技術成為解決這一問題的關鍵途徑。
3、目前市場上存在的數據清洗工具或系統,多采用自動化腳本、數據轉換工具、數據庫內置功能等方式實現數據的自動化清洗。這些工具可以在一定程度上提高數據清洗的準確率,但是對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。
技術實現思路
1、本專利技術的目的在于提供一種基于大數據的數據自動化清洗系統,解決以下技術問題:
2、對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。
3、本專利技術的目的可以通過以下技術方案實現:
4、一種基于大數據的數據自動化清洗系統,包括:
5、數據采集模塊,用于根據預設的格式選取計算機中的文本文件,并根據文本文件的大小進行分組;
6
7、文圖轉換模塊,用于將文本中的每個漢字根據國標碼轉換為對應的數字,將數字映射為14位色深下的灰度值,將轉換后的漢字根據設定的行列格式進行排列,將文本轉換為對應的灰度圖像,獲取灰度圖像的灰度直方圖,將占比低于預設比例的灰度梯級的灰度值轉為白色,獲取剩余的灰度梯級對應的灰度圖像,標記為優化圖像;
8、文本清洗模塊,用于分別將同組內的優化圖像兩兩進行相似度比對,將相似度大于95%的優化圖像標記為重復圖像,將其中較小字節的文本剔除。
9、目前市場上存在的數據清洗工具或系統,多采用自動化腳本、數據轉換工具、數據庫內置功能等方式實現數據的自動化清洗。這些工具可以在一定程度上提高數據清洗的準確率,但是對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。
10、作為本專利技術進一步的方案:所述數據采集模塊中,分組的過程為:
11、提取所有的文本文件中最小文件的字符量a和最大文件的字符量b,設置區間[a,b],將區間均勻劃分為若干個子區間,將所有的文本文件根據字符量分配至對應的子區間中,即完成了分組。
12、作為本專利技術進一步的方案:所述文本處理模塊中,過濾具體為:
13、所述標點符號去除包括將文本中的特殊符號、標點符號,所述停用詞去除基于選取的停用詞表對文本進行篩選,所述拼寫校正包括檢測文本中是否存在詞庫以外的單詞,標記為拼寫錯誤單詞,查找詞庫中與錯誤單詞編輯距離最小的詞作為改正項,替換錯誤單詞。
14、作為本專利技術進一步的方案:所述文圖轉換模塊中,灰度圖像的具體生成過程為:
15、對于任一文本,獲取該文本中所有漢字在國標碼中對應的代碼數字,所述國標碼的漢字數量為6763,14位色深的灰度梯級為16384,將每個漢字轉換為一個像素點,像素點的灰度值即為該漢字的國標碼代碼數字在14位色深下對應的灰度梯級,并將文本中的漢字序列以最小字號并根據a4格式進行排列,所有像素點排列組合為灰度圖像。
16、作為本專利技術進一步的方案:所述文圖轉換模塊中將數字和字母的灰度值映射為16384,即為白色。
17、作為本專利技術進一步的方案:所述文圖轉換模塊中,生成優化圖像的過程為:
18、獲取每個灰度梯級對應的像素數量,將灰度梯級根據像素數量由大到小進行排序,生成灰度梯級序列,從頭開始依次選取灰度梯級,并將所選的灰度梯級的像素數量進行相加獲得數量m,n為所有像素的數量,當m/n首次大于90%時,停止選取,將未被選取的灰度梯級的灰度值映射為16384,即為白色。
19、作為本專利技術進一步的方案:所述文本清洗模塊中,相似度p的計算公式為:
20、;
21、其中n為優化圖像中的像素數量,其中p(i)和p'(i)分別表示相似度比對中的兩張優化圖像中排序為i的灰度值。
22、作為本專利技術進一步的方案:當文本的字符量大于預設閾值時,則將文本根據預設閾值劃分為若干個分段,分別進行比對。
23、本專利技術的有益效果:
24、本專利技術通過自動化的數據采集、處理、轉換和清洗流程,大幅度減少了人工操作的需要,提高了數據清洗的總體效率,尤其是對于大規模數據集的處理,并通過創新地將文本信息轉換為圖像,該系統能夠以獨特的方式識別和優化數據,有效剔除重復或相似的文本,減少數據冗余。這一轉換不僅提升了數據清洗的可靠性,而且保證了清洗后數據的高質量,為后續的數據分析和決策提供了更強大、可靠且經濟高效的支持。
本文檔來自技高網...【技術保護點】
1.一種基于大數據的數據自動化清洗系統,其特征在于,包括:
2.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述數據采集模塊中,分組的過程為:
3.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本處理模塊中,過濾具體為:
4.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,灰度圖像的具體生成過程為:
5.根據權利要求4所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中將數字和字母的灰度值映射為16384,即為白色。
6.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,生成優化圖像的過程為:
7.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本清洗模塊中,相似度P的計算公式為:
8.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,當文本的字符量大于預設閾值時,則將文本根據預設閾值劃分為若干個分段,分別
...【技術特征摘要】
1.一種基于大數據的數據自動化清洗系統,其特征在于,包括:
2.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述數據采集模塊中,分組的過程為:
3.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本處理模塊中,過濾具體為:
4.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,灰度圖像的具體生成過程為:
5.根據權利要求4所述的一種基于大數據的數據自動化清洗系統,...
【專利技術屬性】
技術研發人員:于洪方,
申請(專利權)人:北京遠景視點科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。