System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码第一区二区三区 ,亚洲av午夜国产精品无码中文字,无码高潮爽到爆的喷水视频app
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大數據的數據自動化清洗系統技術方案

    技術編號:43141431 閱讀:10 留言:0更新日期:2024-10-29 17:44
    本發明專利技術公開了一種基于大數據的數據自動化清洗系統,屬于數據處理技術領域,具體包括:根據預設的格式選取計算機中的文本文件,并根據文本文件的大小進行分組;對文本文件進行過濾,將文本中的每個漢字根據國標碼轉換為對應的數字,將數字映射為14位色深下的灰度值,將文本轉換為對應的灰度圖像,獲取灰度圖像的灰度直方圖,將占比低于預設比例的灰度梯級的灰度值轉為白色,獲取剩余的灰度梯級對應的灰度圖像,標記為優化圖像;分別將同組內的優化圖像兩兩進行相似度比對,將相似度大于95%的優化圖像標記為重復圖像,將其中較小字節的文本剔除;本發明專利技術實現了文本數據的高效清洗。

    【技術實現步驟摘要】

    本專利技術涉及數據處理,具體涉及一種基于大數據的數據自動化清洗系統


    技術介紹

    1、在大數據時代,企業和組織積累了大量的文本數據,這些數據中包含有價值的信息,但對于決策支持和數據分析而言,數據的質量至關重要。然而,由于數據來源的多樣性以及數據錄入、傳輸等過程中的誤差,原始數據通常存在各種問題,如不一致、重復、錯誤或不完整等信息。因此,在進行有效數據分析前,必須對這些數據進行清洗和預處理。

    2、傳統的數據清洗主要依靠人工審核,不僅耗時耗力,而且容易受到主觀判斷的影響,難以保證數據清洗的一致性和準確性。隨著數據量的激增,人工清洗已無法滿足業務需求,自動化的數據清洗工具和技術成為解決這一問題的關鍵途徑。

    3、目前市場上存在的數據清洗工具或系統,多采用自動化腳本、數據轉換工具、數據庫內置功能等方式實現數據的自動化清洗。這些工具可以在一定程度上提高數據清洗的準確率,但是對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。


    技術實現思路

    1、本專利技術的目的在于提供一種基于大數據的數據自動化清洗系統,解決以下技術問題:

    2、對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。

    3、本專利技術的目的可以通過以下技術方案實現:

    4、一種基于大數據的數據自動化清洗系統,包括:

    5、數據采集模塊,用于根據預設的格式選取計算機中的文本文件,并根據文本文件的大小進行分組;

    6、文本處理模塊,用于對文本文件進行過濾,所述過濾包括標點符號去除、停用詞去除和拼寫校正;

    7、文圖轉換模塊,用于將文本中的每個漢字根據國標碼轉換為對應的數字,將數字映射為14位色深下的灰度值,將轉換后的漢字根據設定的行列格式進行排列,將文本轉換為對應的灰度圖像,獲取灰度圖像的灰度直方圖,將占比低于預設比例的灰度梯級的灰度值轉為白色,獲取剩余的灰度梯級對應的灰度圖像,標記為優化圖像;

    8、文本清洗模塊,用于分別將同組內的優化圖像兩兩進行相似度比對,將相似度大于95%的優化圖像標記為重復圖像,將其中較小字節的文本剔除。

    9、目前市場上存在的數據清洗工具或系統,多采用自動化腳本、數據轉換工具、數據庫內置功能等方式實現數據的自動化清洗。這些工具可以在一定程度上提高數據清洗的準確率,但是對于個人電腦的數據清洗存在使用門檻,需要一定的算力支持,清洗的效率存在局限。

    10、作為本專利技術進一步的方案:所述數據采集模塊中,分組的過程為:

    11、提取所有的文本文件中最小文件的字符量a和最大文件的字符量b,設置區間[a,b],將區間均勻劃分為若干個子區間,將所有的文本文件根據字符量分配至對應的子區間中,即完成了分組。

    12、作為本專利技術進一步的方案:所述文本處理模塊中,過濾具體為:

    13、所述標點符號去除包括將文本中的特殊符號、標點符號,所述停用詞去除基于選取的停用詞表對文本進行篩選,所述拼寫校正包括檢測文本中是否存在詞庫以外的單詞,標記為拼寫錯誤單詞,查找詞庫中與錯誤單詞編輯距離最小的詞作為改正項,替換錯誤單詞。

    14、作為本專利技術進一步的方案:所述文圖轉換模塊中,灰度圖像的具體生成過程為:

    15、對于任一文本,獲取該文本中所有漢字在國標碼中對應的代碼數字,所述國標碼的漢字數量為6763,14位色深的灰度梯級為16384,將每個漢字轉換為一個像素點,像素點的灰度值即為該漢字的國標碼代碼數字在14位色深下對應的灰度梯級,并將文本中的漢字序列以最小字號并根據a4格式進行排列,所有像素點排列組合為灰度圖像。

    16、作為本專利技術進一步的方案:所述文圖轉換模塊中將數字和字母的灰度值映射為16384,即為白色。

    17、作為本專利技術進一步的方案:所述文圖轉換模塊中,生成優化圖像的過程為:

    18、獲取每個灰度梯級對應的像素數量,將灰度梯級根據像素數量由大到小進行排序,生成灰度梯級序列,從頭開始依次選取灰度梯級,并將所選的灰度梯級的像素數量進行相加獲得數量m,n為所有像素的數量,當m/n首次大于90%時,停止選取,將未被選取的灰度梯級的灰度值映射為16384,即為白色。

    19、作為本專利技術進一步的方案:所述文本清洗模塊中,相似度p的計算公式為:

    20、;

    21、其中n為優化圖像中的像素數量,其中p(i)和p'(i)分別表示相似度比對中的兩張優化圖像中排序為i的灰度值。

    22、作為本專利技術進一步的方案:當文本的字符量大于預設閾值時,則將文本根據預設閾值劃分為若干個分段,分別進行比對。

    23、本專利技術的有益效果:

    24、本專利技術通過自動化的數據采集、處理、轉換和清洗流程,大幅度減少了人工操作的需要,提高了數據清洗的總體效率,尤其是對于大規模數據集的處理,并通過創新地將文本信息轉換為圖像,該系統能夠以獨特的方式識別和優化數據,有效剔除重復或相似的文本,減少數據冗余。這一轉換不僅提升了數據清洗的可靠性,而且保證了清洗后數據的高質量,為后續的數據分析和決策提供了更強大、可靠且經濟高效的支持。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于大數據的數據自動化清洗系統,其特征在于,包括:

    2.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述數據采集模塊中,分組的過程為:

    3.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本處理模塊中,過濾具體為:

    4.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,灰度圖像的具體生成過程為:

    5.根據權利要求4所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中將數字和字母的灰度值映射為16384,即為白色。

    6.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,生成優化圖像的過程為:

    7.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本清洗模塊中,相似度P的計算公式為:

    8.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,當文本的字符量大于預設閾值時,則將文本根據預設閾值劃分為若干個分段,分別進行比對。

    ...

    【技術特征摘要】

    1.一種基于大數據的數據自動化清洗系統,其特征在于,包括:

    2.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述數據采集模塊中,分組的過程為:

    3.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文本處理模塊中,過濾具體為:

    4.根據權利要求1所述的一種基于大數據的數據自動化清洗系統,其特征在于,所述文圖轉換模塊中,灰度圖像的具體生成過程為:

    5.根據權利要求4所述的一種基于大數據的數據自動化清洗系統,...

    【專利技術屬性】
    技術研發人員:于洪方
    申請(專利權)人:北京遠景視點科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码精品人妻一区二区三区影院| 特级无码a级毛片特黄| 潮喷无码正在播放| 亚洲AV无码成人精品区大在线| 人妻av无码专区| 亚洲国产精品成人精品无码区| 久久无码av亚洲精品色午夜| 亚洲日韩精品A∨片无码| 无码毛片一区二区三区中文字幕 | 五月天无码在线观看| 无码人妻一区二区三区免费n鬼沢| heyzo专区无码综合| 日韩成人无码影院| 亚洲人片在线观看天堂无码| 久久亚洲AV成人出白浆无码国产| 亚洲国产a∨无码中文777| 内射无码专区久久亚洲| 亚洲av无码有乱码在线观看| 亚洲AV无码专区在线电影成人| 亚洲av永久无码精品网站| 亚洲无码精品浪潮| 色欲香天天综合网无码| 国产精品无码av片在线观看播| 无码任你躁久久久久久| 精品亚洲AV无码一区二区三区| 无码乱码av天堂一区二区| 日韩免费a级毛片无码a∨| 蜜桃无码AV一区二区| 久久久久久国产精品无码超碰 | 无码日韩精品一区二区免费暖暖| 精品人妻无码专区中文字幕| 免费A级毛片无码久久版| 国产成人无码免费视频97| 无码专区6080yy国产电影| 狠狠躁狠狠爱免费视频无码| 亚洲一级特黄大片无码毛片| 国产无码一区二区在线| 丰满日韩放荡少妇无码视频| 精品深夜AV无码一区二区| 亚洲av无码不卡久久| 人妻在线无码一区二区三区|