當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>廣東電網(wǎng)有限責(zé)任公司專(zhuān)利>正文

文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備制造方法及圖紙

技術(shù)編號(hào)：42726181 閱讀：10 留言：0更新日期：2024-09-13 12:11

本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備。涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，該方法包括：接收用戶的文檔檢索請(qǐng)求，并從文檔檢索請(qǐng)求中提取出文檔檢索信息；基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索，得到與文檔檢索信息匹配的目標(biāo)文本塊，其中，文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段，目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器；將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。本發(fā)明專(zhuān)利技術(shù)解決了相關(guān)技術(shù)中文檔搜索準(zhǔn)確性低的技術(shù)問(wèn)題。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)涉及互聯(lián)網(wǎng)，具體而言，涉及一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備。

技術(shù)介紹

1、在大型企業(yè)中，非結(jié)構(gòu)化文檔數(shù)量龐大且種類(lèi)繁多，內(nèi)容紛雜，格式不一。為了便于員工對(duì)海量文檔進(jìn)行檢索，通常會(huì)對(duì)文檔數(shù)據(jù)進(jìn)行信息抽取，以在檢索過(guò)程中基于抽取到的信息與檢索語(yǔ)句進(jìn)行匹配。目前，在相關(guān)技術(shù)中，傳統(tǒng)非結(jié)構(gòu)化文檔數(shù)據(jù)信息抽取主要對(duì)文檔的關(guān)鍵詞、題目進(jìn)行抽取，難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息，從而導(dǎo)致在文檔檢索過(guò)程中，文檔檢索準(zhǔn)確性低的問(wèn)題。

2、針對(duì)上述的問(wèn)題，目前尚未提出有效的解決方案。

技術(shù)實(shí)現(xiàn)思路

1、本專(zhuān)利技術(shù)實(shí)施例提供了一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備，以至少解決相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。

2、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的一個(gè)方面，提供了一種文檔檢索方法，包括：接收用戶的文檔檢索請(qǐng)求，并從文檔檢索請(qǐng)求中提取出文檔檢索信息；基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索，得到與文檔檢索信息匹配的目標(biāo)文本塊，其中，文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段，目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器；將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。

3、進(jìn)一步地，文檔檢索方法還包括：獲取多個(gè)文檔，并確定各個(gè)文檔的文檔內(nèi)容；對(duì)于每個(gè)文檔，從文檔中確定文檔的內(nèi)容描述信息；依據(jù)文檔的內(nèi)容描述信息確定文檔的文檔類(lèi)型；依據(jù)各個(gè)文檔的文檔類(lèi)型，確定各個(gè)文檔對(duì)應(yīng)的目標(biāo)文本分割器集合，并依據(jù)目標(biāo)文本

4、進(jìn)一步地，文檔檢索方法還包括：確定文檔的文檔格式；根據(jù)文檔的文檔格式確定對(duì)文檔的內(nèi)容提取方式；依據(jù)內(nèi)容提取方式對(duì)文檔進(jìn)行內(nèi)容提取，將提取得到的內(nèi)容確定為文檔的文檔內(nèi)容。

5、進(jìn)一步地，文檔檢索方法還包括：判斷文檔的文檔名是否為目標(biāo)格式；在文檔的文檔名為目標(biāo)格式的情況下，將文檔名確定為文檔的內(nèi)容描述信息；在文檔的文檔名不是目標(biāo)格式的情況下，將文檔內(nèi)容中目標(biāo)范圍處的內(nèi)容確定為文檔的內(nèi)容描述信息。

6、進(jìn)一步地，文檔檢索方法還包括：對(duì)文檔的內(nèi)容描述信息進(jìn)行分詞處理，得到多個(gè)分詞；對(duì)多個(gè)分詞進(jìn)行數(shù)值轉(zhuǎn)換，得到由多個(gè)分詞對(duì)應(yīng)的數(shù)值組成的數(shù)值序列；依據(jù)目標(biāo)分類(lèi)模型對(duì)數(shù)值序列進(jìn)行處理，得到文檔對(duì)應(yīng)的文檔類(lèi)型。

7、進(jìn)一步地，文檔檢索方法還包括：判斷數(shù)值序列的長(zhǎng)度是否小于預(yù)設(shè)長(zhǎng)度；在數(shù)值序列的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度的情況下，對(duì)數(shù)值序列進(jìn)行填充，得到目標(biāo)數(shù)值序列；生成與目標(biāo)數(shù)值序列對(duì)應(yīng)的注意力掩碼序列，其中，注意力掩碼序列用于引導(dǎo)目標(biāo)分類(lèi)模型處理目標(biāo)數(shù)值序列時(shí)關(guān)注目標(biāo)數(shù)值序列中的目標(biāo)元素；依據(jù)目標(biāo)分類(lèi)模型對(duì)目標(biāo)數(shù)值序列和注意力掩碼序列進(jìn)行處理，得到文檔對(duì)應(yīng)的文檔類(lèi)型。

8、進(jìn)一步地，文檔檢索方法還包括：對(duì)于每個(gè)文檔，依據(jù)文檔的文檔類(lèi)型匹配的文本分割器對(duì)文檔內(nèi)容進(jìn)行文本分割處理，得到多個(gè)第一文本塊；依據(jù)通用的文本分割器對(duì)文檔內(nèi)容中剩余的內(nèi)容進(jìn)行文本分割處理，得到至少一個(gè)第二文本塊；將各個(gè)文檔對(duì)應(yīng)的第一文本塊以及第二文本塊確定為各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊。

9、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面，還提供了一種文檔檢索裝置，包括：接收模塊，用于接收用戶的文檔檢索請(qǐng)求，并從文檔檢索請(qǐng)求中提取出文檔檢索信息；檢索模塊，用于基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索，得到與文檔檢索信息匹配的目標(biāo)文本塊，其中，文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段，目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器；第一處理模塊，用于將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。

10、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面，還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序，其中，計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。

11、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面，還提供了一種電子設(shè)備，電子設(shè)備包括一個(gè)或多個(gè)處理器；存儲(chǔ)器，用于存儲(chǔ)一個(gè)或多個(gè)程序，當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí)，使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序，其中，程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。

12、在本專(zhuān)利技術(shù)實(shí)施例中，采用基于文檔中的文本塊為用戶進(jìn)行文檔檢索的方式，通過(guò)接收用戶的文檔檢索請(qǐng)求，并從文檔檢索請(qǐng)求中提取出文檔檢索信息，然后基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索，得到與文檔檢索信息匹配的目標(biāo)文本塊，從而將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。其中，文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段，目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器。

13、在上述過(guò)程中，通過(guò)依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段，實(shí)現(xiàn)了對(duì)文檔中語(yǔ)義信息的完整保留，避免了相關(guān)技術(shù)中從文檔中抽取關(guān)鍵詞、題目以用于文檔檢索時(shí)，難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息，影響檢索準(zhǔn)確性，通過(guò)基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索，得到與文檔檢索信息匹配的目標(biāo)文本塊，實(shí)現(xiàn)了針對(duì)各文本塊進(jìn)行精細(xì)化的匹配過(guò)程，避免了直接與文檔全文匹配時(shí)，由于文檔完整內(nèi)容較多，容易被非相關(guān)文本造成較大影響的問(wèn)題，從而有效提高了文檔檢索的準(zhǔn)確性。此外，通過(guò)基于與文檔類(lèi)型匹配的文本分割器對(duì)文檔進(jìn)行分割，實(shí)現(xiàn)了對(duì)文檔內(nèi)容的有效拆分，從而可以更進(jìn)一步地提高檢索準(zhǔn)確性。

14、由此可見(jiàn)，本申請(qǐng)所提供的方案達(dá)到了基于文檔中的文本塊為用戶進(jìn)行文檔檢索的目的，從而實(shí)現(xiàn)了提高檢索準(zhǔn)確性的技術(shù)效果，進(jìn)而解決了相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種文檔檢索方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述多個(gè)文本塊通過(guò)以下方式得到：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，確定各個(gè)文檔的文檔內(nèi)容，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，從所述文檔中確定所述文檔的內(nèi)容描述信息，包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，依據(jù)目標(biāo)分類(lèi)模型對(duì)所述數(shù)值序列進(jìn)行處理，得到所述文檔對(duì)應(yīng)的文檔類(lèi)型，包括：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的文本分割器，所述通用的文本分割器是指適用于多種文檔類(lèi)型的文本分割器，其中，依據(jù)所述目標(biāo)文本分割器集合對(duì)所述文檔的文檔內(nèi)容進(jìn)行文本分割，得到各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊，包括：

8.一種文檔檢索裝置，其特征在于，包括：

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)

10.一種電子設(shè)備，其特征在于，所述電子設(shè)備包括一個(gè)或多個(gè)處理器；存儲(chǔ)器，用于存儲(chǔ)一個(gè)或多個(gè)程序，當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí)，使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序，其中，所述程序被設(shè)置為運(yùn)行時(shí)執(zhí)行所述權(quán)利要求1至7任一項(xiàng)中所述的文檔檢索方法。

...

【技術(shù)特征摘要】

1.一種文檔檢索方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述多個(gè)文本塊通過(guò)以下方式得到：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，確定各個(gè)文檔的文檔內(nèi)容，包括：

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，從所述文檔中確定所述文檔的內(nèi)容描述信息，包括：

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型，包括：

7.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：杜家兵，王晶，梁家瑋，宋才華，劉勝?gòu)?qiáng)，吳麗賢，皇甫漢聰，關(guān)兆雄，楊飛，
申請(qǐng)(專(zhuān)利權(quán))人：廣東電網(wǎng)有限責(zé)任公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)