本發明專利技術是有關一種詞語聯想方法及裝置,涉及信息處理領域,方法包括:獲取文檔集合,所述文檔集合中包含至少一個文檔;將所述文檔中的語句進行分詞處理,得到至少一個詞語信息;對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,將所述詞語信息以及所述分析信息保存;從所述保存的詞語信息中選出目標詞語,計算所述目標詞語的TF-IDF;計算除所述目標詞語外其他詞語的TF-IDF;循環所述目標詞語外其他所有詞語,計算其他所有詞語與所述目標詞語的關聯度;依據所述關聯度,將排名前N的詞語作為與所述目標詞組相關的詞組。本發明專利技術公開基于TF-IDF的詞語聯想分析方法,可以從給定文檔集合中挖掘出與目標詞語最相關詞語。
【技術實現步驟摘要】
本專利技術涉及信息處理領域,特別是涉及一種詞語聯想方法及裝置。
技術介紹
通過詞語聯想可以挖掘發現不同的詞語在文本中的相關性,從而衍生出各式各樣的應用。因此,在文本分析中,給定一個文檔集合,挖掘出與目標詞最相關的詞是很有價值的。例如,在中國移動業務領域,對“流量”這個詞語進行聯想,可以對移動提供新業務提供參考價值,如用戶辦理最多的流量是“30M”,因此,當對“流量”這個詞語進行聯想后,可以將“流量30M”的業務推薦給用戶。又例如,在電子商務領域中,購買“牛奶”的同時,很多人會同時購買“面包”,因此對“牛奶”這個詞語聯想,可以給用戶推薦其它商品,比如“面包”。然而,現有的技術無法從給定文檔集合中提取與目標詞最相關的詞語。
技術實現思路
有鑒于上述現有技術所存在的缺陷,本專利技術的目的是要解決現有的技術無法從給定文檔集合中提取與目標詞最相關的詞語的問題,因此,本發明實施例提供一種詞語聯想方法,技術方案如下:一種詞語聯想方法,包括:獲取文檔集合,所述文檔集合中包含至少一個文檔;將所述文檔中的語句進行分詞處理,得到至少一個詞語信息;對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,將所述詞語信息以及所述分析信息保存;從所述保存的詞語信息中選出目標詞語,計算所述目標詞語的TF-IDF;計算除所述目標詞語外其他詞語的TF-IDF;循環所述目標詞語外其他所有詞語,計算其他所有詞語與所述目標詞語的關聯度;依據所述關聯度,將排名前N的詞語作為與所述目標詞組相關的詞組。優選的,在上述的詞語聯想方法中,所述對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,包括:對每個所述詞語信息進行統計,得到所述詞語信息在所述文檔集合中出現的總次數、所述詞語信息出現的文檔數、所述文檔集合中總的詞語數目、所述文檔集合中總的文檔的數目。優選的,在上述的詞語聯想方法中,所述計算所述目標詞語的TF-IDF,包括:根據公式TF-IDF=TF×IDF計算所述目標詞語的TF-IDF,其中:所述TF目標詞語的詞頻=所述目標詞語在所述文檔集合中出現的總次數/所述文檔集合中總的詞語數目;所述優選的,在上述的詞語聯想方法中,所述計算其他所有詞語與所述目標詞語的關聯度,包括:根據公式關聯度=1-︳所述目標詞語的TF-IDF-除所述目標詞語的其他詞語的TF-IDF︳。優選的,在上述的詞語聯想方法中,還包括:獲取停止詞列表;將得到的所述多個詞語信息與所述停止詞列表中的停止詞一一對比,在所述詞語信息中篩選出與所述停止詞列表中停止詞相同的詞語;刪除所述篩選出的詞語。本專利技術實施例還提供一種詞語聯想裝置,包括:獲取單元,用于獲取文檔集合,所述文檔集合中包含至少一個文檔;分詞處理單元,用于將所述文檔中的語句進行分詞處理,得到至少一個詞語信息;分析單元,用于對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,將所述詞語信息以及所述分析信息保存;第一TF-IDF處理單元,用于從所述保存的詞語信息中選出目標詞語,計算所述目標詞語的TF-IDF;第二TF-IDF處理單元,用于計算除所述目標詞語外其他詞語的TF-IDF;關聯度計算單元,用于循環所述目標詞語外其他所有詞語,計算其他所有詞語與所述目標詞語的關聯度;關聯單元,用于依據所述關聯度,將排名前N的詞語作為與所述目標詞組相關的詞組。優選的,在上述的詞語聯想裝置中,所述分析單元,包括:統計模塊,用于對每個所述詞語信息進行統計,得到所述詞語信息在所述文檔集合中出現的總次數、所述詞語信息出現的文檔數、所述文檔集合中總的詞語數目、所述文檔集合中總的文檔的數目。優選的,在上述的詞語聯想裝置中,所述第一TF-IDF處理單元,包括:第一計算子模塊,用于根據公式TF-IDF=TF×IDF計算所述目標詞語的TF-IDF,其中:所述TF目標詞語的詞頻=所述目標詞語在所述文檔集合中出現的總次數/所述文檔集合中總的詞語數目;所述優選的,在上述的詞語聯想裝置中,所述關聯度計算單元,包括:關聯度計算子模塊,用于公式關聯度=1-︳所述目標詞語的TF-IDF-除所述目標詞語的其他詞語的TF-IDF︳。優選的,在上述的詞語聯想裝置中,還包括:停止詞列表獲取單元,用于獲取停止詞列表;詞語篩選單元,用于將得到的所述多個詞語信息與所述停止詞列表中的停止詞一一對比,在所述詞語信息中篩選出與所述停止詞列表中停止詞相同的詞語;詞語刪除單元,用于刪除所述篩選出的詞語。本專利技術與現有技術相比具有明顯的優點和有益效果。借由上述技術方案,本專利技術的詞語聯想方法,至少具有下列優點:本專利技術實施例提供一種基于TF-IDF的詞語聯想分析方法,可以從給定文檔集合中挖掘出與目標詞語最相關詞語。附圖說明圖1為本專利技術實施例提供的詞語聯想方法的一種流程示意圖;圖2為本專利技術實施例提供的詞語聯想方法的另一流程示意圖;圖3為本專利技術實施例提供的詞語聯想方法的另一流程示意圖;圖4為本專利技術實施例提供的詞語聯想方法的另一流程示意圖;圖5為本專利技術實施例提供的詞語聯想裝置的一種結構示意圖。具體實施方式為更進一步闡述本專利技術為達成預定專利技術目的所采取的技術手段及功效,以下結合附圖及較佳實施例,對依據本專利技術提出的(名稱)其具體實施方式、步驟、結構、特征及其功效詳細說明。實施例一參見圖1,本專利技術實施例提供一種詞語聯想方法,包括:步驟110:獲取文檔集合,文檔集合中包含至少一個文檔。步驟120:將文檔中的語句進行分詞處理,得到至少一個詞語信息。循環上述文檔集合中所有的文檔,對每個文檔均進行分詞處理,如文檔集合中包含文檔“感謝您的來電”,則對該文檔進行分詞處理,分詞處理后得到的三個詞語信息,分別為“感謝”“您的”“來電”。可以選用分詞器對文檔進行分詞處理,分詞器可以選用庖丁解牛、imdict、mmseg4j、IK分詞器。優選的,本專利技術實施例使用IK分詞器。步驟130:對每個詞語信息進行分析,得到詞語信息的分析信息,將詞語信息以及分析信息保存。對各個文檔中的每個詞語進行處理和分析,將其中出現的各個詞語的信息保存。分析信息可以包括每個詞語在文檔集合中出現的總的次數,詞語出現的文檔數。步驟140:從保存的詞語信息中選出目標詞語,計算目標詞語的TF-IDF。其中,TF-IDF(termfre本文檔來自技高網...
【技術保護點】
一種詞語聯想方法,其特征在于,包括:獲取文檔集合,所述文檔集合中包含至少一個文檔;將所述文檔中的語句進行分詞處理,得到至少一個詞語信息;對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,將所述詞語信息以及所述分析信息保存;從所述保存的詞語信息中選出目標詞語,計算所述目標詞語的TF?IDF;計算除所述目標詞語外其他詞語的TF?IDF;循環所述目標詞語外其他所有詞語,計算其他所有詞語與所述目標詞語的關聯度;依據所述關聯度,將排名前N的詞語作為與所述目標詞組相關的詞組。
【技術特征摘要】
1.一種詞語聯想方法,其特征在于,包括:
獲取文檔集合,所述文檔集合中包含至少一個文檔;
將所述文檔中的語句進行分詞處理,得到至少一個詞語信息;
對每個所述詞語信息進行分析,得到所述詞語信息的分析信息,將所
述詞語信息以及所述分析信息保存;
從所述保存的詞語信息中選出目標詞語,計算所述目標詞語的TF-IDF;
計算除所述目標詞語外其他詞語的TF-IDF;
循環所述目標詞語外其他所有詞語,計算其他所有詞語與所述目標詞
語的關聯度;
依據所述關聯度,將排名前N的詞語作為與所述目標詞組相關的詞組。
2.根據權利要求1所述的方法,其特征在于,所述對每個所述詞語信
息進行分析,得到所述詞語信息的分析信息,包括:
對每個所述詞語信息進行統計,得到所述詞語信息在所述文檔集合中
出現的總次數、所述詞語信息出現的文檔數、所述文檔集合中總的詞語數
目、所述文檔集合中總的文檔的數目。
3.根據權利要求2所述的方法,其特征在于,所述計算所述目標詞語
的TF-IDF,包括:
根據公式TF-IDF=TF×IDF計算所述目標詞語的TF-IDF,其中:
所述TF目標詞語的詞頻=所述目標詞語在所述文檔集合中出現的總次
數/所述文檔集合中總的詞語數目;
4.根據權利要求3所述的方法,其特征在于,所述計算其他所有詞語
與所述目標詞語的關聯度,包括:
根據公式關聯度=1-︳所述目標詞語的TF-IDF-除所述目標詞語的其
他詞語的TF-IDF︳。
5.根據權利要求1-4任意一項所述的方法,其特征在于,還包括:
獲取停止詞列表;
將得到的所述多個詞語信息與所述停止詞列表中的停止詞一一對比,
在所述詞語信息中篩選出與所述停止詞列表中停止詞相同的詞語;
刪除所述篩選出的詞語。
6.一種詞語聯想裝置,其特征在于,包括:
獲取單元,用于獲取文檔集合,所述文檔集合中包含至少一個文...
【專利技術屬性】
技術研發人員:易中華,徐波,汪磊,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:安徽;34
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。