【技術實現步驟摘要】
本專利技術涉及互聯網
,特別是涉及一種搜索意圖識別方法及裝置。
技術介紹
為提供更精確的搜索結果,現有各大通用搜索引擎均具備垂直搜索功能;與傳統的通用搜索方式不同,垂直搜索只針對某個專項類別搜索與用戶輸入的搜索語句(詞匯、短語等)相關的網頁,如音樂搜索、視頻搜索、小說搜索等。為使搜索引擎可以自動對目標搜索語句進行垂直搜索,搜索引擎需要同時具備搜索意圖識別功能,即根據目標搜索語句識別出用戶想要搜索的專項類別;例如,目標搜索語句為“天龍八部”,則可以通過搜索意圖識別得出對應的專項類別為視頻或小說,進而搜索引擎分別執行視頻搜索和小說搜索。現有意圖識別方法,通常采用以白名單為基礎,同時結合模糊匹配和模式匹配的方式。以小說這一專項類別的搜索為例,預先設置一個能覆蓋小說類別的盡可能多的搜索語句(詞匯、短語等)的白名單,在此基礎上還可以設置模糊查詢閾值,以及與該專項類別相關的模式匹配關鍵詞(如“免費閱讀”、“免費下載”、“txt下載”、“在線閱讀”等);在搜索時,通過以下至少一種方式確定用戶的搜索意圖,查詢各個專項類別對應的白名單中是否存在目標搜索語句,或者判斷目標搜索語句是否與白名單中某個搜索語句的相似度大于模糊查詢閾值,或者判斷目標搜索語句中是否包含某個專項類別對應的模式匹配關鍵詞。實際應用中,用戶輸入的搜索語句千變萬化,而上述意圖識別方法使用的白名單、模糊查詢閾值、模式匹配關鍵詞都是人工設置的,其所覆蓋的搜 ...
【技術保護點】
一種搜索意圖識別方法,其特征在于,包括:獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。
【技術特征摘要】
1.一種搜索意圖識別方法,其特征在于,包括:
獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的
歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;
根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別
對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;
根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。
2.根據權利要求1所述的方法,其特征在于,還包括:
獲取第二預設時間內的第二歷史搜索語句集合,并根據所述第二歷史搜索語句集合
訓練所述分類模型,以更新所述專項搜索詞庫。
3.根據權利要求1或2所述的方法,其特征在于,對所述第一歷史搜索語句集合中
的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫,包括:
獲取所述第一預設時間內所述第一歷史搜索語句集合中各個歷史搜索語句對應的點
擊網頁組合;
針對每個歷史搜索語句,確定其點擊網頁組合中各個點擊網頁所屬的預設專項類別,
計算各個預設專項類別對應的點擊網頁在所述點擊網頁組合中所占的點擊比例,將大于
預設閾值的點擊比例對應的預設專項類別作為相應歷史搜索語句的意圖類別,并將各個
歷史搜索語句分別記入其意圖類別對應的專項搜索詞庫。
4.根據權利要求3所述的方法,其特征在于,確定歷史搜索語句的點擊網頁組合中
各個點擊網頁所屬的預設專項類別,包括:
針對點擊網頁組合中的每個點擊網頁,獲取其URL;
根據所述URL確定相應的點擊網頁對應的主機名;
查詢各個預設專項類別對應的專項站點列表,確定所述主機名所在專項站點列表對
應的預設專項類別,并將其作為相應點擊網頁所屬的預設專項類別。
5.根據權利要求3所述的方法,其特征在于,根據所述專項搜索詞庫建立分類模型,
包括:
針對所述專項搜索詞庫中各個歷史搜索語句,分別獲取其點擊網頁對應的URL、網
頁標題;
將所述專項搜索詞庫中的各個歷史搜索語句及對應的網頁標題、URL分別進行分割
處理;
將分割歷史搜索詞語和網頁標題得到的各個詞元、以及分割URL得到的字符串分別
表示為基于特征空間的特征向量;
根據所述特征向量,并以所述點擊網頁所屬預設專項類別對應的點擊比例作為相關
特征向量的權重,建立基于最大熵模型的分類模型。
6.根據權利要求3所述的方法,其特征在于,在確定所述目標搜索語句的意圖類別
后,所述方法還包括:
根據所述目標搜索語句的意圖類別對所述目標搜索語句進行垂直搜索,得到與所述
目標搜索語句相關的目標網頁;
根據所述意圖類別對應的點擊比例確定所述意圖類別的搜索意圖等級;
根據所述搜索意圖等級確定各個意圖類別對應的目標網頁的展示順序,并生成阿拉
丁形式的搜索結果頁面。
7.一種搜索意圖識別裝置,其特征在于,包括:樣本獲取單元、模型控制單元和意
圖識別單元;
所述樣...
【專利技術屬性】
技術研發人員:康昭委,李亞楠,曾洪雷,
申請(專利權)人:廣州神馬移動信息科技有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。