基于語法的無監督分詞方法、設備及存儲介質技術

技術編號：39949201 閱讀：15 留言：0更新日期：2024-01-08 23:10

本申請涉及自然語言處理技術領域，尤其涉及一種基于語法的無監督分詞方法、設備及存儲介質。方法包括設置分詞器權重并構建詞向量模型，基于領域的數據集以及分詞器生成初始熱詞表以及搜索熱詞表；獲取用戶輸入的搜索字段并對搜索字段進行預處理；對預處理后的搜索字段進行重新整合并生成整合后的分詞組；基于整合后的分詞組進行意圖識別，進行詞語改寫和替換并附加上詞的權重，得到帶有詞權重的分詞組；基于帶有詞權重的分詞組逐個過濾僅保留關鍵詞；將關鍵詞封裝返回通過搜索引擎進行匹配搜索與模糊搜索，對于結果集進行重新排序。本申請能夠通過識別用戶搜索意圖能夠得到更多更準確的結果，從而有效提升反饋給用戶的搜索結果的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及自然語言處理，尤其涉及一種基于語法的無監督分詞方法、設備及存儲介質。

技術介紹

1、隨著國家政策不斷的推陳出新，企業需要借助政務服務系統及時地獲取到最新的政務信息，政務服務系統為用戶提供搜索功能，用戶在政務服務輸入搜索字段，隨后政務服務系統匹配包含該搜索字段的搜索結果，并顯示給用戶。

2、目前的政務服務系統主要是基于國家語料庫或者某些特定語料庫使用分詞器對用戶輸入的搜索字段進行拆分，再根據搜索字段的拆分結果挑選較為關鍵的搜索詞語匹配搜索結果。

3、但是對于用戶輸入的搜索字段進行匹配結果的過程中，基于國家語料庫或者某些特定語料庫進行分詞，當轉換到具體的某業務領域時，拆分結果并不是很理想，從而可能導致反饋給用戶的搜索結果的準確率較低。

技術實現思路

1、本申請提供了一種基于語法的無監督分詞方法、設備及存儲介質，能夠通過識別用戶搜索意圖能夠得到更多更準確的結果，從而有效提升反饋給用戶的搜索結果的準確率。本申請提供如下技術方案：

2、第一方面，本申請提供一種基于語法的無監督分詞方法，所述方法包括：

3、設置分詞器權重并構建詞向量模型，基于領域的數據集以及所述分詞器生成初始熱詞表以及搜索熱詞表；

4、獲取用戶輸入的搜索字段并對所述搜索字段進行預處理；

5、對預處理后的所述搜索字段進行重新整合并生成整合后的分詞組；

6、基于所述整合后的分詞組進行意圖識別，進行詞語改寫和替換并附加上詞的權重，得到帶有詞權重的分詞組；

7、基于所述帶有詞權重的分詞組進行逐個過濾，僅保留關鍵詞；

8、將所述關鍵詞封裝返回，通過搜索引擎進行多維度的匹配搜索與模糊搜索，并基于詞的權重對于結果集進行重新排序。

9、在一個具體的可實施方案中，所述設置分詞器權重并構建詞向量模型，基于領域的數據集以及所述分詞器生成初始熱詞表以及搜索熱詞表包括：

10、對于有限的分詞器，基于專家評估法和測試集，分別設置不同的權重，組合成一個分詞器，并基于該領域的數據集無監督構建詞向量模型；

11、隨后基于該領域的數據集以及多個分詞器生成初始熱詞表與手工配置的搜索熱詞表。

12、在一個具體的可實施方案中，所述對預處理后的搜索字段進行重新整合并生成整合后的分詞組包括：

13、基于多個分詞器對預處理后的搜索字段進行分詞，得到分詞組和對應的語義；

14、基于所述分詞組以及所述詞向量模型使用分詞器做二次詞語拆分與整合；

15、基于權重得到每一個分詞器的處理后的分詞組的權重概率，整合成新的分詞組。

16、在一個具體的可實施方案中，所述基于所述分詞組以及所述詞向量模型使用分詞器做二次詞語拆分與整合包括：

17、嘗試拼接多個以上拆分的詞語，并判斷拼接后的詞語是否存在于詞向量模型和搜索熱詞表中；

18、當新的拼接詞本身不存在初始熱詞表中也不存在詞向量模型中，此時將前后的詞做單個詞的拆分，再嘗試做逐個拼接并再次判斷是否存在于詞向量模型中；

19、如果得到新的拼接詞，基于原本詞的語義得到新詞的語義；

20、基于詞性禁止某些詞性進行組合；

21、根據拆分與整合的結果針對不同分詞器的缺點進行優化。

22、在一個具體的可實施方案中，所述基于所述整合后的分詞組進行意圖識別，進行詞語改寫和替換并附加上詞的權重，得到帶有詞權重的分詞組包括：

23、首先逐個解析整合后的分詞組，基于初始熱詞表和詞向量模型，計算前后詞的top-n關聯詞,如果出現拼音相似的關聯度更高的詞嘗試進行替換；

24、隨后逐個判斷整合后的詞語組的詞性，基于不同領域的語法規則，設置詞的不同權重，最后生成帶有詞權重的分詞組。

25、在一個具體的可實施方案中，所述語法規則為動態配置，包括：

26、在相關政策的領域中，定語的修飾詞權重設置為低；

27、出現動名次或者動詞+名次時，后續的名詞的重要度設置為高；

28、連續出現名次時，最后的名詞相比之前的名詞的重要度高。

29、在一個具體的可實施方案中，所述基于所述帶有詞權重的分詞組進行逐個過濾，僅保留關鍵詞包括：

30、當帶有詞權重的分詞組中詞為多的情況下，根據需要限制保留的關鍵詞的詞語數目；

31、基于詞性，將帶有詞權重的分詞組中的想要特殊處理與搜索的名詞，分別采用單獨的邏輯提取出來；

32、基于搜索熱詞表預設詞語視為引力詞，對于引力詞設置更高的權重。

33、在一個具體的可實施方案中，所述基于搜索熱詞表預設詞語視為引力詞，對于引力詞設置更高的權重包括：

34、基于詞向量模型計算詞向量的距離，詞語中與所述搜索詞的詞向量距離最小的詞即為該搜索詞的引力詞。

35、第二方面，本申請提供一種電子設備，所述設備包括處理器和存儲器；所述存儲器中存儲有程序，所述程序由所述處理器加載并執行以實現如權利要求1至8任一項所述的一種基于語法的無監督分詞方法。

36、第三方面，本申請提供一種計算機可讀存儲介質，所述存儲介質中存儲有程序，所述程序被處理器執行時用于實現如權利要求1至8任一項所述的一種基于語法的無監督分詞方法。

37、綜上所述，本申請的有益效果至少包括：

38、1)僅僅需要基于不同語料庫無監督預訓練好詞向量即可，需要的訓練資源少，此外算法流程不涉及復雜的矩陣運算，保證了數據的實時性。

39、2)將搜索拆分成多個子流程，流程之間耦合性低，不同流程處理不同的業務需求，方便進行擴展和搜索流程的定制，方便提取專門類型的詞。

40、3)識別用戶搜索意圖能夠得到更多更準確的結果，從而有效提升反饋給用戶的搜索結果的準確率。

41、通過首先對預處理后的搜索字段進行清洗分詞，并將搜索字段進行重組，隨后基于詞性做意圖識別，改寫詞語并賦予詞語不同的權重，整合多個分詞器與詞向量優化分詞。最后保留關鍵詞并使用es進行關鍵詞搜索。識別用戶搜索意圖能夠得到更多更準確的結果，從而有效提升反饋給用戶的搜索結果的準確率。

42、上述說明僅是本申請技術方案的概述，為了能夠更清楚了解本申請的技術手段，并可依照說明書的內容予以實施，以下以本申請的較佳實施例并配合附圖詳細說明如后。

本文檔來自技高網...

【技術保護點】

1.一種基于語法的無監督分詞方法，其特征在于，所述方法包括：設置分詞器權重并構建詞向量模型，基于領域的數據集以及所述分詞器生成初始熱詞表以及搜索熱詞表；

2.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述設置分詞器權重并構建詞向量模型，基于領域的數據集以及所述分詞器生成初始熱詞表以及搜索熱詞表包括：

3.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述對預處理后的搜索字段進行重新整合并生成整合后的分詞組包括：

4.根據權利要求3所述的基于語法的無監督分詞方法，其特征在于，所述基于所述分詞組以及所述詞向量模型使用分詞器做二次詞語拆分與整合包括：

5.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述基于所述整合后的分詞組進行意圖識別，進行詞語改寫和替換并附加上詞的權重，得到帶有詞權重的分詞組包括：

6.根據權利要求5所述的基于語法的無監督分詞方法，其特征在于，所述語法規則為動態配置，包括：

7.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述基于所述帶有詞

8.根據權利要求7所述的基于語法的無監督分詞方法，其特征在于，所述基于搜索熱詞表預設詞語視為引力詞，對于引力詞設置更高的權重包括：

9.一種電子設備，其特征在于，所述設備包括處理器和存儲器；所述存儲器中存儲有程序，所述程序由所述處理器加載并執行以實現如權利要求1至8任一項所述的一種基于語法的無監督分詞方法。

10.一種計算機可讀存儲介質，其特征在于，所述存儲介質中存儲有程序，所述程序被處理器執行時用于實現如權利要求1至8任一項所述的一種基于語法的無監督分詞方法。

...

【技術特征摘要】

3.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述對預處理后的搜索字段進行重新整合并生成整合后的分詞組包括：

4.根據權利要求3所述的基于語法的無監督分詞方法，其特征在于，所述基于所述分詞組以及所述詞向量模型使用分詞器做二次詞語拆分與整合包括：

5.根據權利要求1所述的基于語法的無監督分詞方法，其特征在于，所述基于所述整合后的分詞組進行意圖識別，進行詞語改寫和替換并附加上詞的權重，得到帶...

【專利技術屬性】
技術研發人員：戴曄，夏曉東，徐雪陽，嚴世振，儲建洲，
申請(專利權)人：江蘇風云科技服務有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術