【技術(shù)實現(xiàn)步驟摘要】
文檔檢索方法、裝置、電子設(shè)備和存儲介質(zhì)
[0001]本專利技術(shù)涉及檢索領(lǐng)域,尤其涉及一種文檔檢索方法、裝置、電子設(shè)備和存儲介質(zhì)。
技術(shù)介紹
[0002]相關(guān)技術(shù)的文檔檢索方法一般直接將需要檢索的文本進(jìn)行分詞處理,再將分詞結(jié)果進(jìn)行簡單處理,作為查詢條件與文檔庫中提取的全部關(guān)鍵詞進(jìn)行相似度計算、匹配,來獲得檢索結(jié)果。由于被檢索文檔和檢索的關(guān)鍵詞數(shù)量多,直接將檢索關(guān)鍵詞與文檔提取出的全部關(guān)鍵詞進(jìn)行相似度計算、匹配,耗時長且檢索結(jié)果、檢索覆蓋范圍不夠準(zhǔn)確。
技術(shù)實現(xiàn)思路
[0003]本專利技術(shù)提供一種文檔檢索方法、裝置、電子設(shè)備和存儲介質(zhì),用以減少檢索時長并提高文檔檢索的準(zhǔn)確度。
[0004]本專利技術(shù)提供一種文檔檢索方法,包括:
[0005]接收用戶輸入的待檢索內(nèi)容;
[0006]將所述待檢索內(nèi)容與輔助檢索詞匯表進(jìn)行匹配,獲得預(yù)設(shè)數(shù)量的輔助檢索詞匯;
[0007]將所述待檢索內(nèi)容和所述輔助檢索詞匯的笛卡爾積作為檢索條件集合,進(jìn)行文檔檢索。
[0008]根據(jù)本專利技術(shù)提供的文檔檢索方法,所述輔助檢索詞匯表包括以下一項或多項:
[0009]至少一個詞匯組,所述至少一個詞匯組由聚類算法對多個詞匯聚類獲得,或,對近義詞表、同義詞表、和行業(yè)詞匯表中的一項或多項中的詞匯聚類獲得,所述至少一個詞匯組中包含至少一個詞匯;
[0010]從至少一個標(biāo)準(zhǔn)化文檔中提取的至少一個關(guān)鍵詞,所述至少一個標(biāo)準(zhǔn)化文檔為所述文檔檢索能檢索到的所有標(biāo)準(zhǔn)化文檔中的至少一個標(biāo)準(zhǔn)化文檔; >[0011]所述從至少一個標(biāo)準(zhǔn)化文檔中提取的至少一個關(guān)鍵詞在至少一個標(biāo)準(zhǔn)化文檔中被提取的總次數(shù);
[0012]同義詞表;
[0013]近義詞表;
[0014]行業(yè)詞匯表。
[0015]根據(jù)本專利技術(shù)提供的文檔檢索方法,所述將所述輸入的待檢索內(nèi)容與輔助檢索詞匯表進(jìn)行匹配,獲得預(yù)設(shè)數(shù)量的輔助檢索詞匯,包括:
[0016]對所述輸入的待檢索內(nèi)容進(jìn)行分詞處理,獲得一個或多個待檢索關(guān)鍵詞;
[0017]將所述一個或多個待檢索關(guān)鍵詞分別與所述輔助檢索詞匯表進(jìn)行匹配,得到所述一個或多個待檢索關(guān)鍵詞一一對應(yīng)的輔助檢索詞匯;
[0018]在所述一個或多個待檢索關(guān)鍵詞匹配到的一一對應(yīng)的所有輔助檢索詞匯中,選擇從至少一個標(biāo)準(zhǔn)化文檔中提取的關(guān)鍵詞且在至少一個標(biāo)準(zhǔn)化文檔中被提取的總次數(shù)最高的前N個輔助檢索詞匯作為所述一個或多個待檢索關(guān)鍵詞一一對應(yīng)的輔助檢索詞匯,其中N
為預(yù)設(shè)值。
[0019]根據(jù)本專利技術(shù)提供的文檔檢索方法,所述將所述待檢索內(nèi)容和所述輔助檢索詞匯的笛卡爾積作為檢索條件集合,進(jìn)行文檔檢索,包括:
[0020]將所述一個或多個待檢索關(guān)鍵詞,和,所述一個或多個待檢索關(guān)鍵詞分別對應(yīng)的N個輔助檢索詞匯組成一個或多個詞匯集合;
[0021]將所述一個或多個集合詞匯的笛卡爾積作為檢索條件集合;
[0022]將所述檢索條件集合作為預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫的檢索條件,在所述預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫中進(jìn)行檢索;
[0023]其中,所述預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫基于輸入的標(biāo)準(zhǔn)化文檔,采用TF
?
IDF算法提取所述輸入的標(biāo)準(zhǔn)化文檔的關(guān)鍵詞和TF
?
IDF值,并存儲前M個關(guān)鍵詞及對應(yīng)的文檔ID和存儲路徑,M為預(yù)設(shè)值。
[0024]根據(jù)本專利技術(shù)提供的文檔檢索方法,所述方法還包括:
[0025]將所述標(biāo)準(zhǔn)化文檔輸入文檔預(yù)處理模塊,獲得所述從標(biāo)準(zhǔn)化文檔中提取的關(guān)鍵詞,其中,所述文檔預(yù)處理模塊用于采用TF
?
IDF算法提取所述標(biāo)準(zhǔn)化文檔的關(guān)鍵詞。
[0026]根據(jù)本專利技術(shù)提供的文檔檢索方法,所述方法還包括:
[0027]在所述檢索條件集合中的關(guān)鍵詞與所述預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫中存儲的一個或多個標(biāo)準(zhǔn)化文檔的M個關(guān)鍵詞相匹配的情況下,輸出所述一個或多個標(biāo)準(zhǔn)化文檔對應(yīng)的文檔ID及路徑;在所述檢索條件集合中的關(guān)鍵詞未在所述預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫中匹配到關(guān)鍵詞的情況下,將所述檢索條件集合作為查詢條件,在標(biāo)準(zhǔn)文檔庫中進(jìn)行文檔檢索。
[0028]本專利技術(shù)還提供一種文檔檢索裝置,包括:
[0029]接收模塊,用于接收用戶輸入的待檢索內(nèi)容;
[0030]匹配模塊,用于將所述待檢索內(nèi)容與輔助檢索詞匯表進(jìn)行匹配,獲得預(yù)設(shè)數(shù)量的輔助檢索詞匯;
[0031]檢索模塊,用于將所述待檢索詞匯和所述輔助檢索詞匯的笛卡爾積作為檢索條件集合,進(jìn)行文檔檢索。
[0032]本專利技術(shù)還提供一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)所述文檔檢索方法。
[0033]本專利技術(shù)還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述文檔檢索方法。
[0034]本專利技術(shù)還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)所述文檔檢索方法。
[0035]本專利技術(shù)提供的文檔檢索方法、裝置、電子設(shè)備和存儲介質(zhì),通過對待檢索內(nèi)容進(jìn)行適當(dāng)?shù)財U(kuò)展再進(jìn)行文檔檢索,可以減少檢索時長并提高文檔檢索的準(zhǔn)確度。
附圖說明
[0036]為了更清楚地說明本專利技術(shù)或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些
附圖獲得其他的附圖。
[0037]圖1是本專利技術(shù)提供的文檔檢索方法的流程示意圖之一;
[0038]圖2是本專利技術(shù)提供的文檔檢索方法的流程示意圖之二;
[0039]圖3是本專利技術(shù)提供的文檔檢索方法的流程示意圖之三;
[0040]圖4是本專利技術(shù)提供的文檔檢索裝置的結(jié)構(gòu)示意圖;
[0041]圖5是本專利技術(shù)提供的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
[0042]為使本專利技術(shù)的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本專利技術(shù)中的附圖,對本專利技術(shù)中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本專利技術(shù)一部分實施例,而不是全部的實施例。基于本專利技術(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護(hù)的范圍。
[0043]證券行業(yè)屬于強監(jiān)管行業(yè),證券業(yè)務(wù)人員在工作過程中需要進(jìn)行大量的文檔信息查詢工作,來確定相關(guān)要求、規(guī)范。相關(guān)技術(shù)的文檔檢索方法一般直接將需要檢索的文本進(jìn)行分詞處理,再將分詞結(jié)果進(jìn)行簡單處理,作為查詢條件與文檔庫中提取的全部關(guān)鍵詞進(jìn)行相似度計算、匹配,來獲得檢索結(jié)果。由于被檢索文檔和檢索的關(guān)鍵詞數(shù)量多,直接將檢索關(guān)鍵詞與文檔提取出的全部關(guān)鍵詞進(jìn)行相似度計算、匹配,耗時長且檢索結(jié)果、檢索覆蓋范圍不夠準(zhǔn)確。
[0044]本專利技術(shù)提供一種文檔檢索方法、裝置、電子設(shè)備和存儲介質(zhì),用以減少檢索時長并提高文檔檢索的準(zhǔn)確度。
[00本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
1.一種文檔檢索方法,其特征在于,包括:接收用戶輸入的待檢索內(nèi)容;將所述待檢索內(nèi)容與輔助檢索詞匯表進(jìn)行匹配,獲得預(yù)設(shè)數(shù)量的輔助檢索詞匯;將所述待檢索內(nèi)容和所述輔助檢索詞匯的笛卡爾積作為檢索條件集合,進(jìn)行文檔檢索。2.根據(jù)權(quán)利要求1所述的文檔檢索方法,其特征在于,所述輔助檢索詞匯表包括以下一項或多項:至少一個詞匯組,所述至少一個詞匯組由聚類算法對多個詞匯聚類獲得,或,對近義詞表、同義詞表、和行業(yè)詞匯表中的一項或多項中的詞匯聚類獲得,所述至少一個詞匯組中包含至少一個詞匯;從至少一個標(biāo)準(zhǔn)化文檔中提取的至少一個關(guān)鍵詞,所述至少一個標(biāo)準(zhǔn)化文檔為所述文檔檢索能檢索到的所有標(biāo)準(zhǔn)化文檔中的至少一個標(biāo)準(zhǔn)化文檔;所述從至少一個標(biāo)準(zhǔn)化文檔中提取的至少一個關(guān)鍵詞在至少一個標(biāo)準(zhǔn)化文檔中被提取的總次數(shù);同義詞表;近義詞表;行業(yè)詞匯表。3.根據(jù)權(quán)利要求2所述的文檔檢索方法,其特征在于,所述將所述輸入的待檢索內(nèi)容與輔助檢索詞匯表進(jìn)行匹配,獲得預(yù)設(shè)數(shù)量的輔助檢索詞匯,包括:對所述輸入的待檢索內(nèi)容進(jìn)行分詞處理,獲得一個或多個待檢索關(guān)鍵詞;將所述一個或多個待檢索關(guān)鍵詞分別與所述輔助檢索詞匯表進(jìn)行匹配,得到所述一個或多個待檢索關(guān)鍵詞一一對應(yīng)的輔助檢索詞匯;在所述一個或多個待檢索關(guān)鍵詞匹配到的一一對應(yīng)的所有輔助檢索詞匯中,選擇從至少一個標(biāo)準(zhǔn)化文檔中提取的關(guān)鍵詞且在至少一個標(biāo)準(zhǔn)化文檔中被提取的總次數(shù)最高的前N個輔助檢索詞匯作為所述一個或多個待檢索關(guān)鍵詞一一對應(yīng)的輔助檢索詞匯,其中N為預(yù)設(shè)值。4.根據(jù)權(quán)利要求3所述的文檔檢索方法,其特征在于,所述將所述待檢索內(nèi)容和所述輔助檢索詞匯的笛卡爾積作為檢索條件集合,進(jìn)行文檔檢索,包括:將所述一個或多個待檢索關(guān)鍵詞,和,所述一個或多個待檢索關(guān)鍵詞分別對應(yīng)的N個輔助檢索詞匯組成一個或多個詞匯集合;將所述一個或多個集合詞匯的笛卡爾積作為檢索條件集合;將所述檢索條件集合作為預(yù)構(gòu)建的文檔關(guān)鍵詞數(shù)據(jù)庫的檢索條件,在所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐峰,潘曉明,陳曦,周亞,崔海雪,章晗,孫樂義,朱丹,萬海波,袁林,
申請(專利權(quán))人:華安證券股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。