• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語義分析的文本聚類系統及方法技術方案

    技術編號:10724941 閱讀:125 留言:0更新日期:2014-12-04 01:52
    本發明專利技術提出了一種基于語義分析的文本聚類系統及方法,根據語義分析對文本進行聚類,簡化了聚類算法的工作量,提高工作效率,聚類的結果更加理想。本發明專利技術提出的一種基于語義分析的文本聚類系統,包括依次連接的預處理模塊、語義分析模塊、向量生成模塊和聚類模塊;其中,預處理模塊,用于對文本進行中文分詞和停用詞過濾;語義分析模塊,用于進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化,語義分析模塊內置本體和實體詞典,本體用于對文本進行語義分析,實體詞典用于對文本進行實體提取,本體的基本組成單元為概念,概念構成概念樹,概念樹組成本體;向量生成模塊,內置向量空間模型,用于對文本進行向量化。

    【技術實現步驟摘要】
    【專利摘要】本專利技術提出了,根據語義分析對文本進行聚類,簡化了聚類算法的工作量,提高工作效率,聚類的結果更加理想。本專利技術提出的一種基于語義分析的文本聚類系統,包括依次連接的預處理模塊、語義分析模塊、向量生成模塊和聚類模塊;其中,預處理模塊,用于對文本進行中文分詞和停用詞過濾;語義分析模塊,用于進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化,語義分析模塊內置本體和實體詞典,本體用于對文本進行語義分析,實體詞典用于對文本進行實體提取,本體的基本組成單元為概念,概念構成概念樹,概念樹組成本體;向量生成模塊,內置向量空間模型,用于對文本進行向量化。【專利說明】
    本專利技術涉及文本信息處理
    ,尤其涉及。
    技術介紹
    近年來,隨著網絡的大規模普及和企業信息化程度的提高,各種資源呈爆炸式增長,然而,大部分信息是存儲在文本數據庫中的,對于這種半結構或無結構化數據,能夠獲取特定內容信息的手段卻較弱,導致信息搜尋困難和信息利用率低下。由此,文本挖掘、信息過濾和信息檢索等方面的研究出現了前所未有的高潮。快速并高質量的文本聚類技術可以將大量文本信息組成少數有意義的簇,并使同一簇中的文本信息之間具有較高的相似度,而不同簇之間的文本差別較大,從而通過聚類驅動的降維或權值調整來改善檢索性能,方便人們對文本信息的利用。聚類技術已成為文本信息挖掘技術中的核心技術,其工作效率與效果直接關系到文本信息處理的理想程度。
    技術實現思路
    基于
    技術介紹
    存在的問題,本專利技術提出了,根據語義分析對文本進行聚類,簡化了聚類算法的工作量,提高工作效率,聚類的結果更加理想。 本專利技術提出的一種基于語義分析的文本聚類系統,包括依次連接的預處理模塊、語義分析模塊、向量生成模塊和聚類模塊;其中, 預處理模塊,用于對文本進行中文分詞和停用詞過濾; 語義分析模塊,用于進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化,語義分析模塊內置本體和實體詞典,本體用于對文本進行語義分析,實體詞典用于對文本進行實體提取,本體的基本組成單元為概念,概念構成概念樹,概念樹組成本體; 向量生成模塊,內置向量空間模型,用于對文本進行向量化,生成文本向量; 聚類模塊,根據文本向量對文本進行聚類。 優選地,語義相似度計算公式為: Sim(H) 二--- _」1 J Zfe(WpW2)+ a Dis (W1, W2)為詞語Wl、W2對應的概念在概念樹上的距離,概念樹為本體的組成單元,a為可調節的計算常數。 優選地,特征項權重計算公式為: γ\ w = tf X idf = tf X ln(— +1) m 其中,w為特征項t在文檔d中的權重值,tf表示t在d內出現的頻率,idf表示t的反比文本頻率,η表示訓練集的文檔總數,m表示訓練集中包含t的文檔數。 本專利技術提供的一種基于語義分析的文本聚類方法,根據本體對文本進行語義分析,并對文本內容進行歸一化,生成文本向量,具體包括以下步驟: S1、輸入文本,并進行預處理,對文本進行中文分詞和停用詞過濾; S2、根據本體,對文本進行語義分析,并根據實體詞典對文本進行實體分析,提取實體文本; S3、根據本體,進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化; S4、根據向量空間模型,對歸一化文本進行向量化,生成文本向量; S5、根據文本向量對文本進行聚類; 步驟SI中,需要判別文本是否為中文,當文本為中文時,對其進行中文分詞和停用詞過濾;當文本非中文時,對其進行詞形變換后直接進行停用詞過濾; 步驟S3中設置門限值n,關鍵詞特征項為權重值大于門限值η的特征項。 優選地,0.1〈η〈1。 優選地,η= 0.7。 優選地,語義相似度計算公式為: SimiSNl ,W2) =--- L 」1 2 Dw(W15W2)+ a Dis (W1, W2)為詞語Wl、W2對應的概念在概念樹上的距離,概念樹為本體的組成單元,a為可調節的計算常數。 優選地,特征項權重計算公式為:Yl W = tfx idf = tf X ln(— +1) m 其中,w為特征項t在文檔d中的權重值,tf表示t在d內出現的頻率,idf表示t的反比文本頻率,η表示訓練集的文檔總數,m表示訓練集中包含t的文檔數。 本專利技術對文本進行語義分析和實體提取,可有效去除無實際意義的文本內容,并對表達意義相同的詞匯進行歸納,避免后續處理中詞義相同的詞匯造成重復,即增加工作量又造成冗余。本專利技術提供的文本聚類系統及方法,根據語義分析對文本進行聚類,簡化了聚類算法的工作量,提高工作效率,同時文本聚類的結果也更加理想。 【專利附圖】【附圖說明】 圖1為本專利技術提出的一種基于語義分析的文本聚類系統的結構圖; 圖2為圖1所示系統的工作流程圖。 【具體實施方式】 參照圖1,本專利技術提出的一種基于語義分析的文本聚類系統,包括依次連接的預處理模塊、語義分析模塊、向量生成模塊和聚類模塊。 預處理模塊,用于對文本進行中文分詞和停用詞過濾。 語義分析模塊,用于進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化,文文本向量化奠定基礎。語義分析模塊內置本體和實體詞典。本體用于對文本進行語義分析,本體的基本組成單元為概念,概念構成概念樹,概念樹組成本體。文本概念化解決了一詞多義或多詞一義的問題。實體詞典用于對文本進行實體提取,以便摒棄文本中不具實際意義的內容,簡化后續文本處理的計算量。 向量生成模塊,內置向量空間模型,用于對文本進行向量化,生成文本向量。向量空間模型是現有并且相當成熟的一種文本處理技術,可保證本系統工作模式更加穩定。 聚類模塊,根據文本向量對文本進行聚類。聚類模塊內置聚類算法,文本經過預處理及語義分析后,大大縮減了聚類算法的工作量,提高了工作效率。 圖2所示為圖1所示系統工作方法的流程圖,該方法根據本體對文本進行語義分析,并對文本內容進行歸一化,生成文本向量,具體包括以下步驟: S1、輸入文本,并進行預處理,對文本進行中文分詞和停用詞過濾; S2、根據本體,對文本進行語義分析,并根據實體詞典對文本進行實體分析,提取實體文本; S3、根據本體,進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化; S4、根據向量空間模型,對歸一化文本進行向量化,生成文本向量; S5、根據文本向量對文本進行聚類。 步驟SI中,需要判別文本是否為中文,當文本為中文時,對其進行中文分詞和停用詞過濾;當文本非中文時,對其進行詞形變換后直接進行停用詞過濾。 步驟S3中設置門限值n,關鍵詞特征項為權重值大于門限值η的特征項,η可在區間(0.1,1)上取值,因為權重值小于0.1的項在文本中所占比例最大,而這部分內容對文本主題的確定并無多大影響,可以直接舍棄。本實施方式中,設定η = 0.7。根據計算沿著,權重值大于0.7的項已經可以滿足關鍵詞特征項提取的需要,同時還大大節儉了后續處理中的計算量,提高工作效率。 本實施方式中,語義相似度計算公式為: 師i’W2)=a(I) W2) + a Dis (W本文檔來自技高網...

    【技術保護點】
    一種基于語義分析的文本聚類系統,其特征在于,包括依次連接的預處理模塊、語義分析模塊、向量生成模塊和聚類模塊;其中,預處理模塊,用于對文本進行中文分詞和停用詞過濾;語義分析模塊,用于進行語義相似度分析以及特征項權重計算,提取關鍵詞特征項,對文本進行歸一化,語義分析模塊內置本體和實體詞典,本體用于對文本進行語義分析,實體詞典用于對文本進行實體提取,本體的基本組成單元為概念,概念構成概念樹,概念樹組成本體;向量生成模塊,內置向量空間模型,用于對文本進行向量化,生成文本向量;聚類模塊,根據文本向量對文本進行聚類。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:賈巖
    申請(專利權)人:安徽華貞信息科技有限公司
    類型:發明
    國別省市:安徽;34

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 韩日美无码精品无码| 无码一区二区三区在线| 亚洲AV中文无码字幕色三| 自慰无码一区二区三区| 少妇人妻偷人精品无码视频新浪| 亚洲AV成人片无码网站| 国产激情无码一区二区app| 久久精品无码中文字幕| 少妇人妻偷人精品无码视频新浪| 色综合久久久无码中文字幕波多| 无码少妇一区二区三区浪潮AV| 无码人妻精品丰满熟妇区| 日韩爆乳一区二区无码| 亚洲成av人片在线观看无码不卡 | 亚洲AV无码成人网站久久精品大 | 最新中文字幕AV无码不卡| 无码人妻久久一区二区三区免费丨 | 无码任你躁久久久久久| 无码人妻AV免费一区二区三区| 国产综合无码一区二区三区| 老司机无码精品A| 在线精品自偷自拍无码中文| 亚洲Aⅴ无码专区在线观看q| 久久久久亚洲AV无码专区网站| 免费无码精品黄AV电影| 亚洲国产成人精品无码区二本 | 日韩中文无码有码免费视频 | 无码人妻精品内射一二三AV| av区无码字幕中文色| 精品无码人妻一区二区三区| 少妇无码一区二区三区| 日韩欧精品无码视频无删节| 熟妇人妻无码中文字幕| 日韩欧精品无码视频无删节| 久久精品国产亚洲AV无码娇色 | 无码精品黑人一区二区三区| 国产V亚洲V天堂A无码| 无码精品国产一区二区三区免费 | 久久午夜夜伦鲁鲁片无码免费| 国产在线拍揄自揄拍无码| 亚洲自偷自偷偷色无码中文|