詞語聯想方法及裝置制造方法及圖紙

技術編號：14845561 閱讀：125 留言：0更新日期：2017-03-17 12:01

本發明專利技術是有關一種詞語聯想方法及裝置，涉及信息處理領域，方法包括：獲取文檔集合，所述文檔集合中包含至少一個文檔；將所述文檔中的語句進行分詞處理，得到至少一個詞語信息；對每個所述詞語信息進行分析，得到所述詞語信息的分析信息，將所述詞語信息以及所述分析信息保存；從所述保存的詞語信息中選出目標詞語，計算所述目標詞語的TF-IDF；計算除所述目標詞語外其他詞語的TF-IDF；循環所述目標詞語外其他所有詞語，計算其他所有詞語與所述目標詞語的關聯度；依據所述關聯度，將排名前N的詞語作為與所述目標詞組相關的詞組。本發明專利技術公開基于TF-IDF的詞語聯想分析方法，可以從給定文檔集合中挖掘出與目標詞語最相關詞語。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及信息處理領域，特別是涉及一種詞語聯想方法及裝置。
技術介紹
通過詞語聯想可以挖掘發現不同的詞語在文本中的相關性，從而衍生出各式各樣的應用。因此，在文本分析中，給定一個文檔集合，挖掘出與目標詞最相關的詞是很有價值的。例如，在中國移動業務領域，對“流量”這個詞語進行聯想，可以對移動提供新業務提供參考價值，如用戶辦理最多的流量是“30M”，因此，當對“流量”這個詞語進行聯想后，可以將“流量30M”的業務推薦給用戶。又例如，在電子商務領域中，購買“牛奶”的同時，很多人會同時購買“面包”，因此對“牛奶”這個詞語聯想，可以給用戶推薦其它商品，比如“面包”。然而，現有的技術無法從給定文檔集合中提取與目標詞最相關的詞語。
技術實現思路
有鑒于上述現有技術所存在的缺陷，本專利技術的目的是要解決現有的技術無法從給定文檔集合中提取與目標詞最相關的詞語的問題，因此，本發明實施例提供一種詞語聯想方法，技術方案如下：一種詞語聯想方法，包括：獲取文檔集合，所述文檔集合中包含至少一個文檔；將所述文檔中的語句進行分詞處理，得到至少一個詞語信息；對每個所述詞語信息進行分析，得到所述詞語信息的分析信息，將所述詞語信息以及所述分析信息保存；從所述保存的詞語信息中選出目標詞語，計算所述目標詞語的TF-IDF；計算除所述目標詞語外其他詞語的TF-IDF；循環所述目標詞語外其他所有詞語，計算其他所有詞...

【技術保護點】
一種詞語聯想方法，其特征在于，包括：獲取文檔集合，所述文檔集合中包含至少一個文檔；將所述文檔中的語句進行分詞處理，得到至少一個詞語信息；對每個所述詞語信息進行分析，得到所述詞語信息的分析信息，將所述詞語信息以及所述分析信息保存；從所述保存的詞語信息中選出目標詞語，計算所述目標詞語的TF?IDF；計算除所述目標詞語外其他詞語的TF?IDF；循環所述目標詞語外其他所有詞語，計算其他所有詞語與所述目標詞語的關聯度；依據所述關聯度，將排名前N的詞語作為與所述目標詞組相關的詞組。

【技術特征摘要】
1.一種詞語聯想方法，其特征在于，包括：
獲取文檔集合，所述文檔集合中包含至少一個文檔；
將所述文檔中的語句進行分詞處理，得到至少一個詞語信息；
對每個所述詞語信息進行分析，得到所述詞語信息的分析信息，將所
述詞語信息以及所述分析信息保存；
從所述保存的詞語信息中選出目標詞語，計算所述目標詞語的TF-IDF；
計算除所述目標詞語外其他詞語的TF-IDF；
循環所述目標詞語外其他所有詞語，計算其他所有詞語與所述目標詞
語的關聯度；
依據所述關聯度，將排名前N的詞語作為與所述目標詞組相關的詞組。
2.根據權利要求1所述的方法，其特征在于，所述對每個所述詞語信
息進行分析，得到所述詞語信息的分析信息，包括：
對每個所述詞語信息進行統計，得到所述詞語信息在所述文檔集合中
出現的總次數、所述詞語信息出現的文檔數、所述文檔集合中總的詞語數
目、所述文檔集合中總的文檔的數目。
3.根據權利要求2所述的方法，其特征在于，所述計算所述目標詞語
的TF-IDF，包括：
根據公式TF-IDF＝TF×IDF計算所述目標詞語的TF-IDF，其中：
所述TF目標詞語的詞頻＝所述目標詞語在所述文檔集合中出現的總次
數/所述文檔集合中總的詞語數目；
4.根據權利要求3所述的方法，其特征在于，所述計算其他所有詞語
與所述目標詞語的關聯度，包括：
根據公式關聯度＝1-︳所述目標詞語的TF-IDF-除所述目標詞語的其
他詞語的TF-IDF︳。
5.根據權利要求1-4任意一項所述的方法，其特征在于，還包括：
獲取停止詞列表；
將得到的所述多個詞語信息與所述停止詞列表中的停止詞一一對比，
在所述詞語信息中篩選出與所述停止詞列表中停止詞相同的詞語；
刪除所述篩選出的詞語。
6.一種詞語聯想裝置，其特征在于，包括：
獲取單元，用于獲取文檔集合，所述文檔集合中包含至少一個文...

【專利技術屬性】
技術研發人員：易中華，徐波，汪磊，
申請(專利權)人：科大訊飛股份有限公司，
類型：發明
國別省市：安徽;34

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術