本發(fā)明專利技術公開了一種自適應文本特征簇的構建方法和系統(tǒng),能夠為高維文本數據進行降緯處理。其技術方案為:基于向量空間模型構造特征關系量化模型,形成特征詞關系矩陣;基于特征詞關系矩陣,通過K均值算法和高斯混合模型進行性能指標評估,得到最佳閾值;根據最佳閾值構建文本特征圖像,實現文本特征圖簇的表示。
An adaptive text feature cluster construction method and system
The invention discloses an adaptive text feature cluster construction method and system, which can reduce weft processing for high-dimensional text data. Its technical scheme is to construct feature relation quantization model based on vector space model and form characteristic word relation matrix. Based on characteristic word relation matrix, the performance index is evaluated by K mean algorithm and Gauss mixed model, and the best threshold is obtained. According to the best threshold Gou Jianwen characteristic image, the text feature cluster is realized. Express.
【技術實現步驟摘要】
一種自適應文本特征簇的構建方法和系統(tǒng)
本專利技術涉及與文本數據處理相關的計算機技術,尤其涉及一種高維文本數據降維領域的自適應文本特征簇的構建。
技術介紹
每一個文本數據都是由多個詞組成的。對于文本數據而言,這些詞就是文本數據的特征。以以往的文本數據特征。以往的文本挖掘技術也大都是建立在以詞為文本特征的基礎之上的。然而文本數據中的詞數量往往很大,尤其是在計算機和網絡技術飛速發(fā)展,人類進入云計算和大數據的環(huán)境,文本數據往往是多源的,數據格式也是多樣的,時間空間跨度可能都會比較大。直接使用文本數據的詞作為文本特征進行文本檢索、分類、聚類、挖掘等任務時,特征詞數遠遠大于文本樣本數,使得“大N小P”問題愈專利技術顯。同時使用傳統(tǒng)的數學降維方法,如線性和非線性降維方法,盡管在處理速度上比本體映射等語義方法更為高效快速,但在面對高維和海量文本數據時仍開始變的吃力。而且這些方法不能與用戶進行交互,在遇到需要抉擇和消除歧義的時候難以保證精確度,并且在語義層面上難以解釋,使得以上任務遇到了不少前所未有的難題,任務的完成也變得越來越困難。此外通過構建本體知識庫,對特征詞進行本體映射和本體計算來實現降維是一個較為精準的文本降維方法。但構建通用本體庫耗時費力,人工成本較高,對文本數據集建立專門的本體又屬于“一次性”工程,缺乏普適性,因此也不現實,并且這類方法在降維時往往速度較慢,效率比較低。其次,盡管本體庫包含了豐富的語義,但現有的文本降維方法都是以詞頻為度量對特征進行抽取或本體映射,將詞作為孤立的成分,破壞了文本里語義層面上的特質,脫離了詞語在文本中的語境。由于詞語存在“一詞多義”、“多詞同義”等現象,因此,在文本降維后對文本特征的解釋和消歧上也遇到了比以往更多的問題和更大的挑戰(zhàn)。最后,現有的方法沒有一套對文本降維的結果做定量分析以改進降維結果的方法,降維方法的框架中缺乏信息反饋和自學習機制,導致對于降維結果不論好壞只能全盤接受。
技術實現思路
以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構想到的方面的詳盡綜覽,并且既非旨在指認出所有方面的關鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細的描述之序。本專利技術的目的在于解決上述問題,提供了一種自適應文本特征簇的構建方法和系統(tǒng),能夠為高維文本數據進行降緯處理。本專利技術的技術方案為:本專利技術揭示了一種自適應文本特征簇的構建方法,包括:步驟1:基于向量空間模型構造特征關系量化模型,形成特征詞關系矩陣;步驟2:基于特征詞關系矩陣,通過K均值算法和高斯混合模型進行性能指標評估,得到最佳閾值;步驟3:根據最佳閾值構建文本特征圖像,實現文本特征圖簇的表示。根據本專利技術的自適應文本特征簇的構建方法的一實施例,步驟1中,基于向量空間模型,加入隱層變量,并以矩陣分解的方式構造特征關系量化模型,形成特征詞關系矩陣。根據本專利技術的自適應文本特征簇的構建方法的一實施例,步驟2進一步包括:設置初始閾值;基于K均值算法對特征詞聚類;根據聚類結果對聚簇中的特征詞以及特征詞關系數據計算高斯混合模型的參數;通過高斯混合模型EM過程對參數進行不斷更新,直到參數或者似然函數值收斂;通過對性能指標評估的反饋信息得到最佳閾值。根據本專利技術的自適應文本特征簇的構建方法的一實施例,步驟3進一步包括:將低于最佳閾值的特征詞關系刪除,對不屬于任何聚簇的每個特征詞關系估計其屬于兩個特征詞所屬的聚簇的后驗概率,將特征詞關系劃分到概率最高的聚簇中,實現特征詞關系的聚類;將每個聚簇內的特征詞關系用直線表示,實現文本特征圖簇的表示。本專利技術還揭示了一種自適應文本特征簇的構建系統(tǒng),包括:文本特征關系量化模塊,基于向量空間模型構造特征關系量化模型,形成特征詞關系矩陣;自適應閾值設定模塊,基于特征詞關系矩陣,通過K均值算法和高斯混合模型進行性能指標評估,得到最佳閾值;文本特征圖簇構建模塊,根據最佳閾值構建文本特征圖像,實現文本特征圖簇的表示。根據本專利技術的自適應文本特征簇的構建系統(tǒng)的一實施例,文本特征關系量化模塊基于向量空間模型,加入隱層變量,并以矩陣分解的方式構造特征關系量化模型,形成特征詞關系矩陣。根據本專利技術的自適應文本特征簇的構建系統(tǒng)的一實施例,自適應閾值設定模塊包括:初始閾值設置單元,設置初始閾值;聚簇識別單元,基于K均值算法對特征詞聚類;參數初始化單元,根據聚類結果對聚簇中的特征詞以及特征詞關系數據計算高斯混合模型的參數;參數更新單元,通過高斯混合模型EM過程對參數進行不斷更新,直到參數或者似然函數值收斂;性能指標評估單元,通過對性能指標評估的反饋信息得到最佳閾值。根據本專利技術的自適應文本特征簇的構建系統(tǒng)的一實施例,文本特征圖簇構建模塊包括:特征詞關系聚類單元,將低于最佳閾值的特征詞關系刪除,對不屬于任何聚簇的每個特征詞關系估計其屬于兩個特征詞所屬的聚簇的后驗概率,將特征詞關系劃分到概率最高的聚簇中,實現特征詞關系的聚類;文本特征圖簇單元,將每個聚簇內的特征詞關系用直線表示,實現文本特征圖簇的表示。本專利技術對比現有技術有如下的有益效果:本專利技術的自適應文本特征圖簇的構建方法相較于現有技術來說存在如下的七個優(yōu)點:1.本專利技術提出一種改進的向量空間模型,在向量空間模型中引入了隱層變量“歸屬”,將“特征詞-文本”模型轉變?yōu)椤疤卣髟~-歸屬”模型。2.本專利技術將“特征詞-歸屬”模型通過矩陣分解轉化為“特征詞-特征詞”模型,從而量化文本特征詞和特征詞之間的關系,展現了特征詞之間的關系和歸屬內部的語義結構,沒有將特征詞孤立的作為特征的理解單位。3.本專利技術提出基于高斯混合模型的閾值自適應設定方法。該方法將文本中的特征詞關系數據看作是服從高斯混合分布的。基于連通度和中心度,通過K-均值算法識別聚簇,從而獲得高斯混合模型的參數,然后通過EM算法不斷更新參數,獲得最佳的參數值,從而完成高斯混合模型構建。4.本專利技術提出根據動態(tài)性能反饋信息更新閾值的方法,使閾值的設定能使得模型達到最佳性能。5.本專利技術根據每個不屬于任何聚簇的特征詞關系屬于兩個特征詞所在的聚簇的概率,將特征詞關系劃分到聚簇中,并將所有特征詞關系通過文本特征圖的方式表示出來。以文本特征圖作為文本降維后的特征單位,展現了文本特征的語義特性和特征內部語義結構,又比利用本體降維的方法具有更高的效率,并且還有文本特征可視化的效果。另外,不同粒度的文本子集也可以通過簡單的操作方便的得到其文本特征圖簇。6.本專利技術的自適應文本特征圖簇的構建方法可以解決“一詞多義”的問題,一個特征詞根據其所處的語義環(huán)境將可能作為不同的文本特征內的元素。7.本專利技術的自適應文本特征圖簇的構建方法得到的文本特征數不固定,依賴于文本集內特征詞之間的連通性。附圖說明圖1示出了本專利技術的自適應文本特征簇的構建方法的一實施例的流程圖。圖2示出了向量空間模型示意圖。圖3示出了特征詞集、文本集和隱層歸屬集的關系圖。圖4示出了文本量化關系模型示意圖。圖5示出了基于高斯混合模型的閾值設定方法的總體框架圖。圖6示出了高斯混合分布示意圖。圖7示出了模型中的變量和參數之間的關系圖。圖8示出了本專利技術的自適應文本特征簇的構建系統(tǒng)的一實施例的原理圖。具體實施方式在結合以下附圖閱讀本文檔來自技高網...

【技術保護點】
1.一種自適應文本特征簇的構建方法,其特征在于,包括:步驟1:基于向量空間模型構造特征關系量化模型,形成特征詞關系矩陣;步驟2:基于特征詞關系矩陣,通過K均值算法和高斯混合模型進行性能指標評估,得到最佳閾值;步驟3:根據最佳閾值構建文本特征圖像,實現文本特征圖簇的表示。
【技術特征摘要】
1.一種自適應文本特征簇的構建方法,其特征在于,包括:步驟1:基于向量空間模型構造特征關系量化模型,形成特征詞關系矩陣;步驟2:基于特征詞關系矩陣,通過K均值算法和高斯混合模型進行性能指標評估,得到最佳閾值;步驟3:根據最佳閾值構建文本特征圖像,實現文本特征圖簇的表示。2.根據權利要求1所述的自適應文本特征簇的構建方法,其特征在于,步驟1中,基于向量空間模型,加入隱層變量,并以矩陣分解的方式構造特征關系量化模型,形成特征詞關系矩陣。3.根據權利要求1所述的自適應文本特征簇的構建方法,其特征在于,步驟2進一步包括:設置初始閾值;基于K均值算法對特征詞聚類;根據聚類結果對聚簇中的特征詞以及特征詞關系數據計算高斯混合模型的參數;通過高斯混合模型EM過程對參數進行不斷更新,直到參數或者似然函數值收斂;通過對性能指標評估的反饋信息得到最佳閾值。4.根據權利要求1所述的自適應文本特征簇的構建方法,其特征在于,步驟3進一步包括:將低于最佳閾值的特征詞關系刪除,對不屬于任何聚簇的每個特征詞關系估計其屬于兩個特征詞所屬的聚簇的后驗概率,將特征詞關系劃分到概率最高的聚簇中,實現特征詞關系的聚類;將每個聚簇內的特征詞關系用直線表示,實現文本特征圖簇的表示。5.一種自適應文本特征簇的構建系統(tǒng),其特征在于,包括:文本特征關系量化模塊,基于向量空間模...
【專利技術屬性】
技術研發(fā)人員:向陽,涂笑,郭鑫,姚莉萍,張默涵,
申請(專利權)人:上海神計信息系統(tǒng)工程有限公司,
類型:發(fā)明
國別省市:上海,31
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。