System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于數據處理,特別涉及一種文本數據分類后的數據預處理方法。
技術介紹
1、數據預處理是指在對主要的數據處理以前對數據進行的一些處理。如對獲取的觀測數據在進行轉換或增強處理之前,首先將不規則分布的測網經過插值轉換為規則網的處理,以利于計算機的運算。
2、數據預處理就是清洗和變換原始數據以使其適合分析和建模。原始數據通常包括缺失數據、離群值和其他不一致之處,如格式問題。預處理步驟包括數據清洗、數據歸一化和數據變換。數據預處理的目標是提高下游分析和建模的準確度和效率。
3、隨著現代社會的不斷進步,尤其是互聯網的快速發展,各類網絡資源數量呈現出數量巨大、種類繁多、變化迅速等特點?;ヂ摼W已進入大數據時代。目前互聯網應用環境中大數據除了數量龐大外,非結構化數據占的比重越來越大,資源數量線性增量增長??焖?、準確地實現互聯網應用環境中大數據的自動分類,已經成為當前數據技術研究的熱點。而自動分類后的大數據再進行預處理是解決大數據分類問題的基礎。
技術實現思路
1、本專利技術所要解決的技術問題是自動分類后的大數據如何再進行預處理,本專利技術提供一種文本數據分類后的數據預處理方法,將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾,實現自動分類后的大數據再進行的預處理。
2、為了達到上述目的,本專利技術通過下述技術方案實現:
3、一種文本數據分類后的數據預處理方法,包括如下步驟:
4、步驟s1):收
5、步驟s2):找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類;其中,采用關鍵詞串簽法對各類文本數據進行分類;
6、步驟s3):基于步驟s2)分類后的各類文本數據進行文本過濾;其中,采用線過濾法對分類后的各類文本數據進行文本過濾;
7、步驟s4):將過濾后的文本進行數據聚類。
8、可選的,在步驟s1)中,構建文本數據模型,采用如下步驟:
9、步驟1):構建立體的文本數據模型;其中,所述立體的文本數據模型為圓柱形的數據模型;
10、步驟2):在文本數據模型上,將收集的所述各類文本數據各自隔開,將各類文本數據各自對應的放置在所述圓柱形的數據模型各條輪廓線上。
11、可選的,在步驟s2)中,各類文本數據的關鍵詞的找出,采用如下步驟:
12、步驟r1):將各類文本數據各自出現次數最多的詞,作為各類文本數據各自的關鍵詞;
13、步驟r2):標定各類文本數據各自的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標;
14、步驟r3):對各類文本數據各自的關鍵詞進行分類,確定各類文本數據的類型。
15、可選的,在步驟s2)中,所述關鍵詞串簽法,為如下步驟:
16、步驟q1):在圓柱形的數據模型上分出多條輪廓線;
17、步驟q2):在各條所述輪廓線上串上各自對應的關鍵詞,將各個關鍵詞通過各條輪廓線進行串聯連接。
18、可選的,在步驟s2)中,所述關鍵詞串簽法,采用如下公式(1):
19、(1);
20、其中,為第i條輪廓線,第i條輪廓線上的關鍵詞,為第i條輪廓線上對應的關鍵詞是,為輪廓線的總條數,為連接線,將各條輪廓線進行連接,代表圓柱形的數據模型;
21、或代表在圓柱形的數據模型中,各條輪廓線上各自對應的關鍵詞通過連接線串聯連接。
22、可選的,在步驟s3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:
23、步驟00):將各條輪廓線上各自對應的各類文本數據進行文本過濾;
24、步驟11):對每條輪廓線上的文本數據沿線性方向進行掃描并過濾。
25、可選的,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):
26、(2);
27、其中,為不同類別文本數據中選取的一個文本數據,代表不同類別,為文本過濾函數,為不同類別文本數據中選取的一個文本數據進行過濾,為不同輪廓線中選取的一條輪廓線,且選取的輪廓線的線性方向沿著一個方向的,代表不同的輪廓線;
28、或為選取的輪廓線上的文本數據沿一個方向進行過濾。
29、可選的,在步驟s4)中,將所述各類文本數據進行合并。
30、本專利技術的有益效果:
31、本專利技術是構建文本數據模型,找出文本數據模型中的各類文本數據的關鍵詞,以各類文本數據各自的關鍵詞作為各類文本數據各自的分類目標,再將文本數據模型中的各類文本數據進行分類,將分類后的各類文本數據線采用過濾法進行文本過濾。
本文檔來自技高網...【技術保護點】
1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S1)中,構建所述文本數據模型,采用如下步驟:
3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:
4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,為如下步驟:
5.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S2)中,所述關鍵詞串簽法,采用如下公式(1):
6.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟S3)中,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下步驟:
7.根據權利要求1或6任意一項所述的一種文本數據分類后的數據預處理方法,其特征在于,所述線過濾法對分類后的所述各類文本數據進行文本過濾,采用如下公式(2):
...【技術特征摘要】
1.一種文本數據分類后的數據預處理方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s1)中,構建所述文本數據模型,采用如下步驟:
3.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述各類文本數據的關鍵詞的找出,采用如下步驟:
4.根據權利要求1所述的一種文本數據分類后的數據預處理方法,其特征在于,在所述步驟s2)中,所述關鍵詞串簽法,為如下步驟:
5.根據權利要求1所述的一種文本數據分類后的數據...
【專利技術屬性】
技術研發人員:歐智堅,劉巖,趙賢宇,孫磊,許小丹,
申請(專利權)人:它思科技天津有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。