• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種搜索意圖識別方法及裝置制造方法及圖紙

    技術編號:12389816 閱讀:135 留言:0更新日期:2015-11-25 22:51
    本申請公開了一種搜索意圖識別方法及裝置,其通過獲取歷史搜索記錄中的海量歷史搜索語句并對其進行分類,并依此建立分類模型,通過該分類模型挖掘得到與各歷史搜索語句相關的候補搜索語句,以同一預設專項類別對應的歷史搜索語句及其候補搜索語句來構成該預設專項類別的專項搜索詞庫;相對于現有技術人工設置的白名單、模糊查詢閾值、模式匹配關鍵詞等,所述專項搜索詞庫中的搜索語句更準確、更全面,泛化性強,因此,本申請依據該專項搜索詞庫進行搜索意圖識別,可以更準確地識別目標搜索語句的意圖類別,避免人工指定規則與用戶實際判斷標準不一致造成的錯誤識別。

    【技術實現步驟摘要】

    本專利技術涉及互聯網
    ,特別是涉及一種搜索意圖識別方法及裝置
    技術介紹
    為提供更精確的搜索結果,現有各大通用搜索引擎均具備垂直搜索功能;與傳統的通用搜索方式不同,垂直搜索只針對某個專項類別搜索與用戶輸入的搜索語句(詞匯、短語等)相關的網頁,如音樂搜索、視頻搜索、小說搜索等。為使搜索引擎可以自動對目標搜索語句進行垂直搜索,搜索引擎需要同時具備搜索意圖識別功能,即根據目標搜索語句識別出用戶想要搜索的專項類別;例如,目標搜索語句為“天龍八部”,則可以通過搜索意圖識別得出對應的專項類別為視頻或小說,進而搜索引擎分別執行視頻搜索和小說搜索。現有意圖識別方法,通常采用以白名單為基礎,同時結合模糊匹配和模式匹配的方式。以小說這一專項類別的搜索為例,預先設置一個能覆蓋小說類別的盡可能多的搜索語句(詞匯、短語等)的白名單,在此基礎上還可以設置模糊查詢閾值,以及與該專項類別相關的模式匹配關鍵詞(如“免費閱讀”、“免費下載”、“txt下載”、“在線閱讀”等);在搜索時,通過以下至少一種方式確定用戶的搜索意圖,查詢各個專項類別對應的白名單中是否存在目標搜索語句,或者判斷目標搜索語句是否與白名單中某個搜索語句的相似度大于模糊查詢閾值,或者判斷目標搜索語句中是否包含某個專項類別對應的模式匹配關鍵詞。實際應用中,用戶輸入的搜索語句千變萬化,而上述意圖識別方法使用的白名單、模糊查詢閾值、模式匹配關鍵詞都是人工設置的,其所覆蓋的搜索語句有限,泛化性較差,很難準確識別每個目標搜索語句對應的專項類別。
    技術實現思路
    本申請實施例提供了一種搜索意圖識別方法及裝置,以解決現有技術中的搜索意圖識別方式泛化性差、識別準確度低的問題。本申請第一方面提供了一種搜索意圖識別方法,所述方法包括:獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。結合第一方面,在第一方面第一種可行的實施方式中,所述方法還包括:獲取第二預設時間內的第二歷史搜索語句集合,并根據所述第二歷史搜索語句集合訓練所述分類模型,以更新所述專項搜索詞庫。結合第一方面,或者第一方面第一種可行的實施方式,在第一方面第二種可行的實施方式中,對所述第一歷史搜索語句集合中的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫,包括:獲取所述第一預設時間內所述第一歷史搜索語句集合中各個歷史搜索語句對應的點擊網頁組合;針對每個歷史搜索語句,確定其點擊網頁組合中各個點擊網頁所屬的預設專項類別,計算各個預設專項類別對應的點擊網頁在所述點擊網頁組合中所占的點擊比例,將大于預設閾值的點擊比例對應的預設專項類別作為相應歷史搜索語句的意圖類別,并將各個歷史搜索語句分別記入其意圖類別對應的專項搜索詞庫。結合第一方面第二種可行的實施方式,在第一方面第三種可行的實施方式中,確定歷史搜索語句的點擊網頁組合中各個點擊網頁所屬的預設專項類別,包括:針對點擊網頁組合中的每個點擊網頁,獲取其URL;根據所述URL確定相應的點擊網頁對應的主機名;查詢各個預設專項類別對應的專項站點列表,確定所述主機名所在專項站點列表對應的預設專項類別,并將其作為相應點擊網頁所屬的預設專項類別。結合第一方面第二種可行的實施方式,在第一方面第四種可行的實施方式中,根據所述專項搜索詞庫建立分類模型,包括:針對所述專項搜索詞庫中各個歷史搜索語句,分別獲取其點擊網頁對應的URL、網頁標題;將所述專項搜索詞庫中的各個歷史搜索語句及對應的網頁標題、URL分別進行分割處理;將分割歷史搜索詞語和網頁標題得到的各個詞元、以及分割URL得到的字符串分別表示為基于特征空間的特征向量;根據所述特征向量,并以所述點擊網頁所屬預設專項類別對應的點擊比例作為相關特征向量的權重,建立基于最大熵模型的分類模型。結合第一方面第二種可行的實施方式,在第一方面第五種可行的實施方式中,在確定所述目標搜索語句的意圖類別后,所述方法還包括:根據所述目標搜索語句的意圖類別對所述目標搜索語句進行垂直搜索,得到與所述目標搜索語句相關的目標網頁;根據所述意圖類別對應的點擊比例確定所述意圖類別的搜索意圖等級;根據所述搜索意圖等級確定各個意圖類別對應的目標網頁的展示順序,并生成阿拉丁形式的搜索結果頁面。本申請第二方面提供了一種搜索意圖識別裝置,所述裝置包括:樣本獲取單元、模型控制單元和意圖識別單元;所述樣本獲取單元用于,獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;所述模型控制單元用于,根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;所述意圖識別單元用于,根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。結合第二方面,在第二方面第一種可行的實施方式中,所述裝置還包括:更新單元,用于獲取第二預設時間內的第二歷史搜索語句集合,并根據所述第二歷史搜索語句集合訓練所述分類模型,以更新所述專項搜索詞庫。結合第二方面,或者第二方面第一種可行的實施方式,在第二方面第二種可行的實施方式中,所述樣本獲取單元包括:點擊網頁獲取單元,用于獲取所述第一預設時間內所述第一歷史搜索語句集合中各個歷史搜索語句對應的點擊網頁組合;點擊網頁分析單元,用于針對每個歷史搜索語句,確定其點擊網頁組合中各個點擊網頁所屬的預設專項類別,計算各個預設專項類別對應的點擊網頁在所述點擊網頁組合中所占的點擊比例,將大于預設閾值的點擊比例對應的預設專項類別作為相應歷史搜索語句的意圖類別,并將各個歷史搜索語句分別記入其意圖類別對應的專項搜索詞庫。結合第二方面第二種可行的實施方式,在第二方面第三種可行的實施方式中,所述點擊網頁分析單元包括:點擊網頁分類模塊;所述點擊網頁分類模塊被配置為:針對點擊網頁組合中的每個點擊網頁,獲取其URL,根據所述URL確定相應的點擊網頁對應的主機名,查詢各個預設專項類別對應的專項站點列表,確定所述主機名所在專項本文檔來自技高網
    ...

    【技術保護點】
    一種搜索意圖識別方法,其特征在于,包括:獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。

    【技術特征摘要】
    1.一種搜索意圖識別方法,其特征在于,包括:
    獲得第一預設時間內的第一歷史搜索語句集合,對所述第一歷史搜索語句集合中的
    歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫;
    根據所述專項搜索詞庫建立分類模型,并通過所述分類模型獲取各個預設專項類別
    對應的候補搜索語句,將所述候補搜索語句記入相應類別的專項搜索詞庫;
    根據所述專項搜索詞庫確定至少一個預設專項類別,作為目標搜索語句的意圖類別。
    2.根據權利要求1所述的方法,其特征在于,還包括:
    獲取第二預設時間內的第二歷史搜索語句集合,并根據所述第二歷史搜索語句集合
    訓練所述分類模型,以更新所述專項搜索詞庫。
    3.根據權利要求1或2所述的方法,其特征在于,對所述第一歷史搜索語句集合中
    的歷史搜索語句進行分類,得到各個預設專項類別對應的專項搜索詞庫,包括:
    獲取所述第一預設時間內所述第一歷史搜索語句集合中各個歷史搜索語句對應的點
    擊網頁組合;
    針對每個歷史搜索語句,確定其點擊網頁組合中各個點擊網頁所屬的預設專項類別,
    計算各個預設專項類別對應的點擊網頁在所述點擊網頁組合中所占的點擊比例,將大于
    預設閾值的點擊比例對應的預設專項類別作為相應歷史搜索語句的意圖類別,并將各個
    歷史搜索語句分別記入其意圖類別對應的專項搜索詞庫。
    4.根據權利要求3所述的方法,其特征在于,確定歷史搜索語句的點擊網頁組合中
    各個點擊網頁所屬的預設專項類別,包括:
    針對點擊網頁組合中的每個點擊網頁,獲取其URL;
    根據所述URL確定相應的點擊網頁對應的主機名;
    查詢各個預設專項類別對應的專項站點列表,確定所述主機名所在專項站點列表對
    應的預設專項類別,并將其作為相應點擊網頁所屬的預設專項類別。
    5.根據權利要求3所述的方法,其特征在于,根據所述專項搜索詞庫建立分類模型,
    包括:
    針對所述專項搜索詞庫中各個歷史搜索語句,分別獲取其點擊網頁對應的URL、網
    頁標題;
    將所述專項搜索詞庫中的各個歷史搜索語句及對應的網頁標題、URL分別進行分割
    處理;
    將分割歷史搜索詞語和網頁標題得到的各個詞元、以及分割URL得到的字符串分別
    表示為基于特征空間的特征向量;
    根據所述特征向量,并以所述點擊網頁所屬預設專項類別對應的點擊比例作為相關
    特征向量的權重,建立基于最大熵模型的分類模型。
    6.根據權利要求3所述的方法,其特征在于,在確定所述目標搜索語句的意圖類別
    后,所述方法還包括:
    根據所述目標搜索語句的意圖類別對所述目標搜索語句進行垂直搜索,得到與所述
    目標搜索語句相關的目標網頁;
    根據所述意圖類別對應的點擊比例確定所述意圖類別的搜索意圖等級;
    根據所述搜索意圖等級確定各個意圖類別對應的目標網頁的展示順序,并生成阿拉
    丁形式的搜索結果頁面。
    7.一種搜索意圖識別裝置,其特征在于,包括:樣本獲取單元、模型控制單元和意
    圖識別單元;
    所述樣...

    【專利技術屬性】
    技術研發人員:康昭委李亞楠曾洪雷
    申請(專利權)人:廣州神馬移動信息科技有限公司
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩激情无码一区| 在线观看无码AV网址| 人妻无码αv中文字幕久久| 久久精品无码午夜福利理论片 | 人妻无码一区二区三区| 国产激情无码视频在线播放性色| 无码人妻丝袜在线视频| 久久精品aⅴ无码中文字字幕| 激情无码人妻又粗又大| 精品久久久久久久无码| 久久精品九九热无码免贵 | 亚洲av无码日韩av无码网站冲 | 中文字幕无码精品亚洲资源网久久 | 人妻中文字幕无码专区| 亚洲精品一级无码中文字幕| 中文字幕久久久人妻无码| 亚洲AV无码久久寂寞少妇| 国产成人无码AⅤ片在线观看| 久久久久久久久无码精品亚洲日韩| 亚洲成AV人在线播放无码| 亚洲人成网亚洲欧洲无码久久| 国产精品无码一区二区三区毛片| AV无码久久久久不卡蜜桃| 无码国产色欲XXXXX视频| 亚洲AV无码久久精品成人 | 伊人久久大香线蕉无码麻豆| 久久亚洲AV成人无码国产电影| 精品视频无码一区二区三区| 亚洲AV日韩AV永久无码下载| 久久久久亚洲AV无码专区首| 亚洲AV无码久久精品蜜桃| 无码少妇一区二区三区| 亚洲AV无码久久精品狠狠爱浪潮 | 国产亚洲?V无码?V男人的天堂 | 国模无码人体一区二区 | 国产成人精品无码片区在线观看| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 久久精品国产亚洲AV无码娇色| 色欲狠狠躁天天躁无码中文字幕| 国产精品无码久久久久久| 无码人妻视频一区二区三区|