The embodiment of the present disclosure discloses a method and device for determining an intent recognition model and identifying a search intent. The determination method of the intention recognition model includes: acquiring user logs related to training keywords; determining the expansion factor of the training keywords based on the user logs and existing system object information, which includes at least the probability distribution of the subject on the training keywords and the probability distribution of the existing system object information on the subject; and utilizing the training gateway. The keywords and the extended factor train the machine learning model to obtain the intention recognition model. The present disclosure can use a lightweight original training sample to obtain a more accurate classification model of intention recognition, save cost and improve the accuracy of retrieval.
【技術實現步驟摘要】
意圖識別模型的確定及檢索意圖識別方法、裝置本申請為分案申請,其母案申請的申請日為“2017年10月31日”、申請號為“2017110537100”、專利技術名稱為“檢索意圖識別方法、裝置、電子設備及可讀存儲介質”。
本公開涉及計算機
,具體涉及一種意圖識別模型的確定及檢索意圖識別方法、裝置。
技術介紹
傳統的搜索技術使用倒排索引構建數據索引關系,搜索過程往往是一個簡單的字符串匹配算法。而高階的搜索引擎,除了基本的性能優化以外,更多的考慮是如何提升用戶的點擊率,這就需要去挖掘用戶輸入關鍵字背后包含的更深層次的信息。例如:用戶搜索“附近高端的賓館”一詞,從搜索意圖角度看,包含了地理信息——“附近的”,需求信息——“賓館住宿”、價格信息——“高消費水平”,從而為搜索引擎描繪了一副用戶“搜索畫像”,因此在對召回結果排序時,就需要考慮價格、評價、距用戶的距離等信息。
技術實現思路
本公開實施例提供一種意圖識別模型的確定及檢索意圖識別方法、裝置、電子設備及計算機可讀存儲介質。第一方面,本公開實施例中提供了一種意圖識別模型的確定方法。具體的,所述意圖識別模型的確定方法,包括:獲取訓練關鍵詞相關的用戶日志;基于所述用戶日志以及已有系統對象信息確定所述訓練關鍵詞的擴展因子,所述擴展因子至少包括主題在所述訓練關鍵詞上的概率分布和已有系統對象信息在主題上的概率分布;利用所述訓練關鍵詞以及所述擴展因子訓練機器學習模型,得到意圖識別模型。結合第一方面,所述擴展因子還包括:所述訓練關鍵詞與已有關鍵詞在主題維度上的概率分布以及所述訓練關鍵詞與所述已有系統對象信息在主題維度上的概率分布 ...
【技術保護點】
1.一種意圖識別模型的確定方法,其特征在于,包括:獲取訓練關鍵詞相關的用戶日志;基于所述用戶日志以及已有系統對象信息確定所述訓練關鍵詞的擴展因子,所述擴展因子至少包括主題在所述訓練關鍵詞上的概率分布和已有系統對象信息在主題上的概率分布;利用所述訓練關鍵詞以及所述擴展因子訓練機器學習模型,得到意圖識別模型。
【技術特征摘要】
1.一種意圖識別模型的確定方法,其特征在于,包括:獲取訓練關鍵詞相關的用戶日志;基于所述用戶日志以及已有系統對象信息確定所述訓練關鍵詞的擴展因子,所述擴展因子至少包括主題在所述訓練關鍵詞上的概率分布和已有系統對象信息在主題上的概率分布;利用所述訓練關鍵詞以及所述擴展因子訓練機器學習模型,得到意圖識別模型。2.根據權利要求1所述的意圖識別模型的確定方法,其特征在于,所述擴展因子還包括:所述訓練關鍵詞與已有關鍵詞在主題維度上的概率分布以及所述訓練關鍵詞與所述已有系統對象信息在主題維度上的概率分布中的至少之一。3.根據權利要求1所述的意圖識別模型的確定方法,其特征在于,獲取訓練關鍵詞相關的用戶日志,包括:獲取預定時間段內以所述訓練關鍵詞作為輸入的搜索日志。4.根據權利要求1所述的意圖識別模型的確定方法,其特征在于,所述擴展因子包括主題在所述訓練關鍵詞上的概率分布,則基于所述用戶日志以及已有系統對象信息確定所述訓練關鍵詞的擴展因子,包括:基于所述用戶日志提取第一主題;計算所述第一主題與所述訓練關鍵詞之間的邊緣分布;根據所述第一主題與所述訓練關鍵詞之間的邊緣分布確定所述第一主題在所述訓練關鍵詞上的概率分布。5.一種檢索意圖識別方法,其特征在于,包括:接收用戶輸入的查詢關鍵詞;將所述查詢關鍵詞輸入至預先訓練好的意圖識別模型進行處理,并得到所述用戶的檢索意圖;其中,所述意圖識別模型根據權利要求1-4任一項所述的方法訓練得到。6.一種意圖識別模型的確定裝置,其特征在于,包括:獲取模塊,被配置為獲取訓練關鍵詞相關的用戶日志;擴展模塊,被配置為基于所述用...
【專利技術屬性】
技術研發人員:張瀟,李澤中,茍秋媛,梁東,
申請(專利權)人:北京小度信息科技有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。