System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费无码一区二区三区,免费一区二区无码视频在线播放,丰满少妇人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種文本數據分類后的數據預處理方法技術

    技術編號:44499837 閱讀:5 留言:0更新日期:2025-03-04 18:08
    本發明專利技術涉及一種文本數據分類后的數據預處理方法,屬于數據處理技術領域,包括如下步驟:步驟S1):收集各類文本數據,得到各類文本數據的集合,構建文本數據模型;步驟S2):找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類;步驟S3):基于步驟S2)分類后的各類文本數據進行文本過濾;其中,采用線過濾法對分類后的各類文本數據進行文本過濾;步驟S4):將過濾后的文本進行數據聚類;本發明專利技術的有益效果:將分類后的各類文本數據線采用過濾法進行文本過濾,實現自動分類后的大數據再進行的預處理。

    【技術實現步驟摘要】

    本專利技術屬于數據處理,特別涉及一種文本數據分類后的數據預處理方法。


    技術介紹

    1、數據預處理是指在對主要的數據處理以前對數據進行的一些處理。如對獲取的觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算。

    2、數據預處理就是清洗和變換原始數據以使其適合分析和建模。原始數據通常包括缺失數據、離群值和其他不一致之處,如格式問題。預處理步驟包括數據清洗、數據歸一化和數據變換。數據預處理的目標是提高下游分析和建模的準確度和效率。

    3、隨著現代社會的不斷進步,尤其是互聯網的快速發展,各類網絡資源數量呈現出數量巨大、種類繁多、變化迅速等特點?;ヂ摼W已進入大數據時代。目前互聯網應用環境中大數據除了數量龐大外,非結構化數據占的比重越來越大,資源數量線性增量增長??焖?、準確地實現互聯網應用環境中大數據的自動分類,已經成為當前數據技術研究的熱點。而自動分類后的大數據再進行預處理是解決大數據分類問題的基礎。


    技術實現思路

    1、本專利技術所要解決的技術問題是自動分類后的大數據如何再進行預處理,本專利技術提供一種文本數據分類后的數據預處理方法,將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾,實現自動分類后的大數據再進行的預處理。

    2、為了達到上述目的,本專利技術通過下述技術方案實現:

    3、一種文本數據分類后的數據預處理方法,包括如下步驟:

    4、步驟s1):收集各類文本數據,得到各類文本數據的集合,構建文本數據模型;

    5、步驟s2):找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類;其中,采用關鍵詞串簽法對各類文本數據進行分類;

    6、步驟s3):基于步驟s2)分類后的各類文本數據進行文本過濾;其中,采用線過濾法對分類后的各類文本數據進行文本過濾;

    7、步驟s4):將過濾后的文本進行數據聚類。

    8、可選的,在步驟s1)中,構建文本數據模型,采用如下步驟:

    9、步驟1):構建立體的文本數據模型;其中,所述立體的文本數據模型為圓柱形的數據模型;

    10、步驟2):在文本數據模型上,將收集的所述各類文本數據各自隔開,將各類文本數據各自對應的放置在所述圓柱形的數據模型各條輪廓線上。

    11、可選的,在步驟s2)中,各類文本數據的關鍵詞的找出,采用如下步驟:

    12、步驟r1):將各類文本數據各自出現次數最多的詞,作為各類文本數據各自的關鍵詞;

    13、步驟r2):標定各類文本數據各自的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標;

    14、步驟r3):對各類文本數據各自的關鍵詞進行分類,確定各類文本數據的類型。

    15、可選的,在步驟s2)中,所述關鍵詞串簽法,為如下步驟:

    16、步驟q1):在圓柱形的數據模型上分出多條輪廓線;

    17、步驟q2):在各條所述輪廓線上串上各自對應的關鍵詞,將各個關鍵詞通過各條輪廓線進行串聯連接。

    18、可選的,在步驟s2)中,所述關鍵詞串簽法,采用如下公式(1):

    19、(1);

    20、其中,為第i條輪廓線,第i條輪廓線上的關鍵詞,為第i條輪廓線上對應的關鍵詞是,為輪廓線的總條數,為連接線,將各條輪廓線進行連接,代表圓柱形的數據模型;

    21、或代表在圓柱形的數據模型中,各條輪廓線上各自對應的關鍵詞通過連接線串聯連接。

    22、可選的,在步驟s3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:

    23、步驟00):將各條輪廓線上各自對應的各類文本數據進行文本過濾;

    24、步驟11):對每條輪廓線上的文本數據沿線性方向進行掃描并過濾。

    25、可選的,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):

    26、(2);

    27、其中,為不同類別文本數據中選取的一個文本數據,代表不同類別,為文本過濾函數,為不同類別文本數據中選取的一個文本數據進行過濾,為不同輪廓線中選取的一條輪廓線,且選取的輪廓線的線性方向沿著一個方向的,代表不同的輪廓線;

    28、或為選取的輪廓線上的文本數據沿一個方向進行過濾。

    29、可選的,在步驟s4)中,將所述各類文本數據進行合并。

    30、本專利技術的有益效果:

    31、本專利技術是構建文本數據模型,找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾。

    本文檔來自技高網...

    【技術保護點】

    1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:

    2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S1)中,構建所述文本數據模型,采用如下步驟:

    3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:

    4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,為如下步驟:

    5.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,采用如下公式(1):

    6.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:

    7.根據權利要求1或6任意一項所述的一種文本數據分類后的數據預處理方法,其特征在于,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):

    >8.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S4)中,將所述各類文本數據進行合并。

    ...

    【技術特征摘要】

    1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:

    2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s1)中,構建所述文本數據模型,采用如下步驟:

    3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:

    4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述關鍵詞串簽法,為如下步驟:

    5.根據權利要求1所述的一種文本數據分類后的數據...

    【專利技術屬性】
    技術研發人員:歐智堅,劉巖,趙賢宇孫磊許小丹,
    申請(專利權)人:它思科技天津有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 未满小14洗澡无码视频网站| 亚洲AⅤ永久无码精品AA| 国产高新无码在线观看| 成年免费a级毛片免费看无码| 亚洲欧洲日产国码无码久久99| 无码AV中文字幕久久专区| 亚洲日韩精品无码AV海量| 亚洲精品一级无码鲁丝片 | 亚洲综合无码一区二区三区| 中文无码不卡的岛国片| 中文字幕无码一区二区免费| 亚洲精品av无码喷奶水糖心| 久久久久亚洲AV成人无码网站| 亚洲AV无码专区亚洲AV桃| 国产在线拍偷自揄拍无码| 久久精品无码中文字幕| 亚洲av无码一区二区三区天堂古代| 亚洲成?Ⅴ人在线观看无码| 久久精品日韩av无码| 无码国内精品人妻少妇| 中文字幕人妻三级中文无码视频| 无码丰满熟妇一区二区| 精品无码一区二区三区亚洲桃色| 中文字幕无码免费久久9一区9| 成人麻豆日韩在无码视频| 中文字幕无码不卡免费视频| 四虎成人精品无码| 亚洲av无码av制服另类专区| 久久中文精品无码中文字幕| 亚洲AV无码成人精品区大在线| 亚洲heyzo专区无码综合| 色欲狠狠躁天天躁无码中文字幕 | 日韩av无码中文无码电影| 精品人妻无码一区二区色欲产成人| 精品无码一区二区三区在线| 亚洲日韩乱码中文无码蜜桃| 精品无码AV无码免费专区| 亚洲午夜无码毛片av久久京东热 | 国产亚洲美日韩AV中文字幕无码成人| 性色av无码免费一区二区三区 | 国产午夜激无码av毛片|