本發明專利技術涉及索引建立技術領域,具體公開了一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統及方法,所述系統包括本地權重計算模塊,用于根據預設的權重算法計算各個原生關鍵詞的本地權重;全局權重計算模塊,用于統計所有目標文本單元的原生關鍵詞,基于本地權重計算全局權重;前驅詞分析模塊,用于獲取并統計每個原生關鍵詞的前驅詞,建立每個前驅詞的原生關鍵詞集合;索引建立模塊,用于基于原生關鍵詞集合及其全局權重建立每個前驅詞的索引。本發明專利技術技術方案生成的搜索關鍵詞提示列表來自于一個抽取原生關鍵詞以及計算其本地權重并進而建立抽取的全部原生關鍵詞的全部前驅詞構成的全局權重索引系統,搜索的精準度極高。高。高。
【技術實現步驟摘要】
跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統及方法
[0001]本專利技術涉及索引建立
,具體是一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統及方法。
技術介紹
[0002]搜索時輸入的搜索關鍵詞對于搜索結果是很重要。搜索引擎或搜索算法會將搜索關鍵詞與搜索目標全集做相關性計算,返回與搜索關鍵詞相關或更相關的目標集合。
[0003]搜索中關于相關性的計算通常是綜合的算法。那么在其他條件相同的情況下,搜索關鍵詞直接命中目標時,也就是說,搜索關鍵詞本就存在于目標中時,搜索關鍵詞與目標的相關性更高;相比之下,搜索關鍵詞沒有命中目標或者部分命中目標時,搜索關鍵詞與目標的相關性更低。
[0004]如果搜索關鍵詞本就存在于目標中,更明確地說,搜索關鍵詞是來自文本目標的原文,是本身具備一定意義的詞匯,那么這里稱之為原生關鍵詞。原生關鍵詞可以是一個詞、詞組或短語。
[0005]現有技術中已經存在關于搜索關鍵詞提示技術的應用,比如各個互聯網搜索引擎,或者某些垂直搜索引擎,或者某些專用搜索引擎,會在用戶輸入搜索關鍵詞時,跟隨用戶的輸入,顯示一個搜索關鍵詞提示列表。但是,大多數搜索關鍵詞提示列表是來自于對用戶輸入的搜索關鍵詞的統計,而不是關于原生關鍵詞的降序排列列表。
技術實現思路
[0006]本專利技術的目的在于提供一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統及方法,以解決上述
技術介紹
中提出的問題。
[0007]為實現上述目的,本專利技術提供如下技術方案:
[0008]一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統,所述系統包括:
[0009]關鍵詞提取模塊,用于根據預設的關鍵詞提取算法依次獲取目標文本單元的原生關鍵詞;
[0010]本地權重計算模塊,用于根據預設的權重算法計算各個原生關鍵詞的本地權重;
[0011]全局權重計算模塊,用于統計所有目標文本單元的原生關鍵詞,基于本地權重計算全局權重;
[0012]前驅詞分析模塊,用于獲取并統計每個原生關鍵詞的前驅詞,建立每個前驅詞的原生關鍵詞集合;
[0013]索引建立模塊,用于基于原生關鍵詞集合及其全局權重建立每個前驅詞的索引;
[0014]索引應用模塊,用于當接收到用戶輸入的搜索關鍵詞時,基于所述索引實時同步顯示原生提示詞。
[0015]作為本專利技術進一步的方案:所述本地權重計算模塊包括:
[0016]基準選取單元,用于選取某一目標文本單元作為基準單元;
[0017]詞頻計算單元,用于計算原生關鍵詞在基準單元中的詞頻;
[0018]指數計算單元,用于計算原生關鍵詞在其他目標文本單元中的逆文本頻率指數;所述逆文本頻率指數為分布在全部目標文本單元中的次數的倒數;
[0019]第一計算執行單元,用于將所述詞頻與所述逆文本頻率指數輸入預設的計算函數,得到原生關鍵詞相對于基準單元的本地權重;
[0020]其中,所述本地權重與詞頻呈正比,所述本地權重與逆文本頻率指數呈反比。
[0021]作為本專利技術進一步的方案:所述全局權重計算模塊包括:
[0022]第一統計單元,用于統計所有目標文本單元的原生關鍵詞,得到全部原生關鍵詞集合;
[0023]第二統計單元,用于依次選取原生關鍵詞,獲取并統計原生關鍵詞所在的目標文本單元及其本地權重,得到本地權重集合;
[0024]第二計算執行單元,用于基于本地權重集合計算該原生關鍵詞的全局權重;計算函數為:
[0025]GW=F(LW,LWN,LW
k
,LWN
k
);
[0026]式中,GW為全局權重,LW
k
為原生關鍵詞K對應的本地權重集合;LWN
k
為集合LW
k
的元素數量;所述LW為所有集合LW
k
的集合;所述LWN為所有LWN
k
的集合。
[0027]作為本專利技術進一步的方案:所述前驅詞分析模塊包括:
[0028]詞集建立單元,用于依次獲取原生關鍵詞的前驅詞,建立前驅詞子集合;
[0029]并集計算單元,用于計算前驅詞子集合的并集,得到前驅詞集合;
[0030]遍歷查詢單元,用于遍歷前驅詞集合,查詢每個前驅詞的全部原生關鍵詞,得到原生關鍵詞集合。
[0031]作為本專利技術進一步的方案:所述索引建立模塊包括:
[0032]數據讀取單元,用于讀取并遍歷前驅詞集合,讀取前驅詞的原生關鍵詞集合;
[0033]元組建立單元,用于查詢原生關鍵詞集合中每個原生關鍵詞的全局權重,建立元組;所述元組包含原生關鍵詞及其全局權重;
[0034]降序排列單元,用于根據全局權重對元組進行降序排列,得到降序列表;
[0035]數據插入單元,用于向降序列表中插入對應的前驅詞,得到索引。
[0036]作為本專利技術進一步的方案:所述索引應用模塊包括:
[0037]存儲單元,用于存儲含有前驅詞的索引;所述索引包括全部前驅詞集合、原生關鍵詞降序列表、所述列表包含全部原生關鍵詞及其對應的全局權重值;
[0038]輸入接收單元,用于實時接收用戶輸入的搜索關鍵詞;
[0039]匹配單元,用于將搜索關鍵詞與索引中的全部前驅詞集合進行匹配,得到目標索引;
[0040]同步顯示單元,用于同步顯示目標索引中的原生關鍵詞降序列表。
[0041]本專利技術技術方案還提供了一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的方法,所述方法包括:
[0042]根據預設的關鍵詞提取算法依次獲取目標文本單元的原生關鍵詞;
[0043]根據預設的權重算法計算各個原生關鍵詞的本地權重;
[0044]統計所有目標文本單元的原生關鍵詞,基于本地權重計算全局權重;
[0045]獲取并統計每個原生關鍵詞的前驅詞,建立每個前驅詞的原生關鍵詞集合;
[0046]基于原生關鍵詞集合及其全局權重建立每個前驅詞的索引;
[0047]當接收到用戶輸入的搜索關鍵詞時,基于所述索引實時同步顯示原生提示詞。
[0048]與現有技術相比,本專利技術的有益效果是:本專利技術計算各個關鍵詞相對于各個文本單元的本地權重,統計本地權重,計算全局權重;以關鍵詞為基礎構建前驅詞集合,然后再以前驅詞為基準,查詢包含該前驅詞的所有關鍵詞及其全局權重,基于全局權重對關鍵詞進行降序排列,即可得到適應用于不同輸入的提示詞同步顯示索引,搜索精準度極高。
附圖說明
[0049]為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例。
[0050]圖1為原生關鍵詞K
k
的本地權重的排序示意圖。
[0051]圖2為全部原生關鍵詞集合K的示意圖。
[0052]圖3為原生關鍵詞K
k
本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統,其特征在于,所述系統包括:關鍵詞提取模塊,用于根據預設的關鍵詞提取算法依次獲取目標文本單元的原生關鍵詞;本地權重計算模塊,用于根據預設的權重算法計算各個原生關鍵詞的本地權重;全局權重計算模塊,用于統計所有目標文本單元的原生關鍵詞,基于本地權重計算全局權重;前驅詞分析模塊,用于獲取并統計每個原生關鍵詞的前驅詞,建立每個前驅詞的原生關鍵詞集合;索引建立模塊,用于基于原生關鍵詞集合及其全局權重建立每個前驅詞的索引;索引應用模塊,用于當接收到用戶輸入的搜索關鍵詞時,基于所述索引實時同步顯示原生提示詞。2.根據權利要求1所述的跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統,其特征在于,所述本地權重計算模塊包括:基準選取單元,用于選取某一目標文本單元作為基準單元;詞頻計算單元,用于計算原生關鍵詞在基準單元中的詞頻;指數計算單元,用于計算原生關鍵詞在其他目標文本單元中的逆文本頻率指數;所述逆文本頻率指數為分布在全部目標文本單元中的次數的倒數;第一計算執行單元,用于將所述詞頻與所述逆文本頻率指數輸入預設的計算函數,得到原生關鍵詞相對于基準單元的本地權重;其中,所述本地權重與詞頻呈正比,所述本地權重與逆文本頻率指數呈反比。3.根據權利要求1所述的跟隨搜索關鍵詞的輸入同步顯示原生提示詞的系統,其特征在于,所述全局權重計算模塊包括:第一統計單元,用于統計所有目標文本單元的原生關鍵詞,得到全部原生關鍵詞集合;第二統計單元,用于依次選取原生關鍵詞,獲取并統計原生關鍵詞所在的目標文本單元及其本地權重,得到本地權重集合;第二計算執行單元,用于基于本地權重集合計算該原生關鍵詞的全局權重;計算函數為:GW=F(LW,LWN,LW
k
,LWN
k
);式中,GW為全局權重,LW
k
為原生關鍵詞K對應的本地權重集合;LWN
k
為集合LW
k
的元素數...
【專利技術屬性】
技術研發人員:劉宏,
申請(專利權)人:劉宏,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。