一種基于相關(guān)性的搜索詞處理方法、裝置及計(jì)算設(shè)備制造方法及圖紙

技術(shù)編號(hào)：23343717 閱讀：31 留言：0更新日期：2020-02-15 04:00

本發(fā)明專利技術(shù)公開了一種基于相關(guān)性的搜索詞處理方法、裝置及計(jì)算設(shè)備，該方法包括：獲取各用戶的搜索日志以提取可用搜索詞；對(duì)各可用搜索詞進(jìn)行分詞處理，以獲取其對(duì)應(yīng)的一個(gè)或更多個(gè)特征詞；將特征詞進(jìn)行轉(zhuǎn)換以生成對(duì)應(yīng)的關(guān)鍵詞，組合一個(gè)或更多個(gè)對(duì)應(yīng)的關(guān)鍵詞，以形成與可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列；從各關(guān)鍵詞序列對(duì)應(yīng)的可用搜索詞中，選擇出現(xiàn)頻次最高的可用搜索詞作為該關(guān)鍵詞序列的特定搜索詞；將各關(guān)鍵詞序列分別輸入到相關(guān)性計(jì)算模型進(jìn)行訓(xùn)練，按照相關(guān)性從大到小的順序輸出與輸入的關(guān)鍵詞序列相關(guān)的第一數(shù)量個(gè)關(guān)鍵詞序列；將第一數(shù)量個(gè)輸出的關(guān)鍵詞序列替換為其對(duì)應(yīng)的特定搜索詞，形成關(guān)鍵詞序列與第一數(shù)量個(gè)特定搜索詞間的對(duì)應(yīng)關(guān)系。

A correlation based search word processing method, device and computing equipment

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于相關(guān)性的搜索詞處理方法、裝置及計(jì)算設(shè)備本申請(qǐng)是本申請(qǐng)人于2017年06月29日提交的申請(qǐng)?zhí)枮?01710515009.X，名稱為一種基于相關(guān)性的搜索詞處理方法、裝置及計(jì)算設(shè)備的專利技術(shù)專利申請(qǐng)的分案申請(qǐng)。
本專利技術(shù)涉及互聯(lián)網(wǎng)
，特別涉及一種基于相關(guān)性的搜索詞處理方法、裝置及計(jì)算設(shè)備。
技術(shù)介紹
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，越來越多的人開始享受互聯(lián)網(wǎng)為工作和生活帶來的各種便利。比如需要獲取信息時(shí)，可通過在瀏覽器中鍵入搜索詞，利用搜索引擎來進(jìn)行與搜索詞相關(guān)的信息搜索。而在用戶搜索一個(gè)關(guān)鍵詞時(shí)，往往也希望搜索其相關(guān)關(guān)鍵詞，例如用戶輸入“java”，可能存在更符合其意圖的關(guān)鍵詞，如“javaweb”、“java后端”。因此，針對(duì)用戶關(guān)鍵詞，結(jié)合不同關(guān)鍵詞之間的聯(lián)系，準(zhǔn)確提供其相關(guān)詞匯能幫助用戶節(jié)省輸入時(shí)間，同時(shí)提升轉(zhuǎn)化率。目前的主流方法是后繼詞結(jié)合協(xié)同過濾算法，主要思想是：考慮到用戶輸入“三國(guó)志”，得到搜索結(jié)果的幾分鐘內(nèi)再次輸入“真三國(guó)無雙”，可以認(rèn)為具有相同后繼詞的用戶查詢?cè)~條有一定相似度，如果用戶輸入數(shù)據(jù)足夠，基于協(xié)同過濾算法能可給出這些詞條的相關(guān)搜索詞。然而，后繼詞結(jié)合協(xié)同過濾算法仍存在不小的缺陷，特別是在招聘行業(yè)的網(wǎng)站內(nèi)部搜索中，問題更為明顯。相比大型網(wǎng)站，招聘行業(yè)搜索數(shù)據(jù)體量并不大，用戶查詢?cè)~條同質(zhì)化嚴(yán)重，因此許多詞條可能沒有后繼詞。而且，作為招聘人員的用戶，其搜索規(guī)律不符合“同一用戶搜索詞都是相關(guān)的”這一前提條件，這類用戶的搜索內(nèi)容通常毫不相干，此時(shí)使用后繼詞失效。此外，熱門

【技術(shù)保護(hù)點(diǎn)】
1.一種基于相關(guān)性的搜索詞處理方法，適于在計(jì)算設(shè)備中執(zhí)行，所述方法包括：/n獲取多個(gè)用戶中各用戶的搜索日志，從所述搜索日志中提取可用搜索詞；/n對(duì)各可用搜索詞進(jìn)行分詞處理，以獲取其對(duì)應(yīng)的一個(gè)或更多個(gè)特征詞；/n將所述一個(gè)或更多個(gè)特征詞分別進(jìn)行轉(zhuǎn)換以生成對(duì)應(yīng)的關(guān)鍵詞，并組合所述一個(gè)或更多個(gè)對(duì)應(yīng)的關(guān)鍵詞，以形成與所述可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列；/n從各關(guān)鍵詞序列所對(duì)應(yīng)的可用搜索詞中，選擇出現(xiàn)頻次最高的可用搜索詞作為該關(guān)鍵詞序列的特定搜索詞；/n將各關(guān)鍵詞序列分別輸入到相關(guān)性計(jì)算模型中進(jìn)行訓(xùn)練，按照相關(guān)性從大到小的順序輸出與輸入的關(guān)鍵詞序列相關(guān)的第一數(shù)量個(gè)關(guān)鍵詞序列，所述相關(guān)性計(jì)算模型選用item2vec模型；/n將第一數(shù)量個(gè)輸出的關(guān)鍵詞序列均替換為其對(duì)應(yīng)的特定搜索詞，從而形成關(guān)鍵詞序列與第一數(shù)量個(gè)特定搜索詞之間的對(duì)應(yīng)關(guān)系。/n

【技術(shù)特征摘要】
1.一種基于相關(guān)性的搜索詞處理方法，適于在計(jì)算設(shè)備中執(zhí)行，所述方法包括：
獲取多個(gè)用戶中各用戶的搜索日志，從所述搜索日志中提取可用搜索詞；
對(duì)各可用搜索詞進(jìn)行分詞處理，以獲取其對(duì)應(yīng)的一個(gè)或更多個(gè)特征詞；
將所述一個(gè)或更多個(gè)特征詞分別進(jìn)行轉(zhuǎn)換以生成對(duì)應(yīng)的關(guān)鍵詞，并組合所述一個(gè)或更多個(gè)對(duì)應(yīng)的關(guān)鍵詞，以形成與所述可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列；
從各關(guān)鍵詞序列所對(duì)應(yīng)的可用搜索詞中，選擇出現(xiàn)頻次最高的可用搜索詞作為該關(guān)鍵詞序列的特定搜索詞；
將各關(guān)鍵詞序列分別輸入到相關(guān)性計(jì)算模型中進(jìn)行訓(xùn)練，按照相關(guān)性從大到小的順序輸出與輸入的關(guān)鍵詞序列相關(guān)的第一數(shù)量個(gè)關(guān)鍵詞序列，所述相關(guān)性計(jì)算模型選用item2vec模型；
將第一數(shù)量個(gè)輸出的關(guān)鍵詞序列均替換為其對(duì)應(yīng)的特定搜索詞，從而形成關(guān)鍵詞序列與第一數(shù)量個(gè)特定搜索詞之間的對(duì)應(yīng)關(guān)系。

2.如權(quán)利要求1所述的方法，所述從所述搜索日志中提取可用搜索詞的步驟包括：
從所述搜索日志中獲取原始搜索詞并統(tǒng)計(jì)其數(shù)量；
若所述數(shù)量大于第一數(shù)值，則將所述數(shù)量對(duì)應(yīng)的用戶的原始搜索詞直接刪除；
統(tǒng)計(jì)所有未刪除的各原始搜索詞的搜索次數(shù)；
過濾掉搜索次數(shù)小于第二數(shù)值的原始搜索詞，將剩余的原始搜索詞作為可用搜索詞。

3.如權(quán)利要求1或2所述的方法，所述將所述一個(gè)或更多個(gè)特征詞分別進(jìn)行轉(zhuǎn)換以生成對(duì)應(yīng)的關(guān)鍵詞的步驟包括：
剔除所述一個(gè)或更多個(gè)特征詞中屬于無意義詞或敏感詞的特征詞；
將剔除后剩余的特征詞進(jìn)行同義詞轉(zhuǎn)化，以生成對(duì)應(yīng)的關(guān)鍵詞。

4.如權(quán)利要求1-3中任一項(xiàng)所述的方法，所述組合所述一個(gè)或更多個(gè)對(duì)應(yīng)的關(guān)鍵詞，以形成與所述可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列的步驟包括：
對(duì)所述一個(gè)或更多個(gè)對(duì)應(yīng)的關(guān)鍵詞進(jìn)行文本升序排列；
對(duì)排列后的關(guān)鍵詞，將相鄰兩個(gè)關(guān)鍵詞之間以第一符號(hào)進(jìn)行連接，以形成與所述可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列。

5.如權(quán)利要求4所述的方法，其中，所述第一符號(hào)為下劃線。

6.如權(quán)利要求1-5中任一項(xiàng)所述的方法，在形成與所述可用搜索詞對(duì)應(yīng)的關(guān)鍵詞序列的步驟之后，還包括：
統(tǒng)計(jì)各關(guān)鍵詞序列重復(fù)出現(xiàn)的次數(shù)；
若所...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：方軻，
申請(qǐng)(專利權(quán))人：北京拉勾科技有限公司，
類型：發(fā)明
國(guó)別省市：北京;11

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)