System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及互聯(lián)網(wǎng),具體而言,涉及一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備。
技術(shù)介紹
1、在大型企業(yè)中,非結(jié)構(gòu)化文檔數(shù)量龐大且種類(lèi)繁多,內(nèi)容紛雜,格式不一。為了便于員工對(duì)海量文檔進(jìn)行檢索,通常會(huì)對(duì)文檔數(shù)據(jù)進(jìn)行信息抽取,以在檢索過(guò)程中基于抽取到的信息與檢索語(yǔ)句進(jìn)行匹配。目前,在相關(guān)技術(shù)中,傳統(tǒng)非結(jié)構(gòu)化文檔數(shù)據(jù)信息抽取主要對(duì)文檔的關(guān)鍵詞、題目進(jìn)行抽取,難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息,從而導(dǎo)致在文檔檢索過(guò)程中,文檔檢索準(zhǔn)確性低的問(wèn)題。
2、針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)實(shí)施例提供了一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備,以至少解決相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。
2、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的一個(gè)方面,提供了一種文檔檢索方法,包括:接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息;基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器;將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。
3、進(jìn)一步地,文檔檢索方法還包括:獲取多個(gè)文檔,并確定各個(gè)文檔的文檔內(nèi)容;對(duì)于每個(gè)文檔,從文檔中確定文檔的內(nèi)容描述信息;依據(jù)文檔的內(nèi)容描述信息確定文檔的文檔類(lèi)型;依據(jù)各個(gè)文檔的文檔類(lèi)型,確定各個(gè)文檔對(duì)應(yīng)的目標(biāo)文本分割器集合,并依據(jù)目標(biāo)文本
4、進(jìn)一步地,文檔檢索方法還包括:確定文檔的文檔格式;根據(jù)文檔的文檔格式確定對(duì)文檔的內(nèi)容提取方式;依據(jù)內(nèi)容提取方式對(duì)文檔進(jìn)行內(nèi)容提取,將提取得到的內(nèi)容確定為文檔的文檔內(nèi)容。
5、進(jìn)一步地,文檔檢索方法還包括:判斷文檔的文檔名是否為目標(biāo)格式;在文檔的文檔名為目標(biāo)格式的情況下,將文檔名確定為文檔的內(nèi)容描述信息;在文檔的文檔名不是目標(biāo)格式的情況下,將文檔內(nèi)容中目標(biāo)范圍處的內(nèi)容確定為文檔的內(nèi)容描述信息。
6、進(jìn)一步地,文檔檢索方法還包括:對(duì)文檔的內(nèi)容描述信息進(jìn)行分詞處理,得到多個(gè)分詞;對(duì)多個(gè)分詞進(jìn)行數(shù)值轉(zhuǎn)換,得到由多個(gè)分詞對(duì)應(yīng)的數(shù)值組成的數(shù)值序列;依據(jù)目標(biāo)分類(lèi)模型對(duì)數(shù)值序列進(jìn)行處理,得到文檔對(duì)應(yīng)的文檔類(lèi)型。
7、進(jìn)一步地,文檔檢索方法還包括:判斷數(shù)值序列的長(zhǎng)度是否小于預(yù)設(shè)長(zhǎng)度;在數(shù)值序列的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度的情況下,對(duì)數(shù)值序列進(jìn)行填充,得到目標(biāo)數(shù)值序列;生成與目標(biāo)數(shù)值序列對(duì)應(yīng)的注意力掩碼序列,其中,注意力掩碼序列用于引導(dǎo)目標(biāo)分類(lèi)模型處理目標(biāo)數(shù)值序列時(shí)關(guān)注目標(biāo)數(shù)值序列中的目標(biāo)元素;依據(jù)目標(biāo)分類(lèi)模型對(duì)目標(biāo)數(shù)值序列和注意力掩碼序列進(jìn)行處理,得到文檔對(duì)應(yīng)的文檔類(lèi)型。
8、進(jìn)一步地,文檔檢索方法還包括:對(duì)于每個(gè)文檔,依據(jù)文檔的文檔類(lèi)型匹配的文本分割器對(duì)文檔內(nèi)容進(jìn)行文本分割處理,得到多個(gè)第一文本塊;依據(jù)通用的文本分割器對(duì)文檔內(nèi)容中剩余的內(nèi)容進(jìn)行文本分割處理,得到至少一個(gè)第二文本塊;將各個(gè)文檔對(duì)應(yīng)的第一文本塊以及第二文本塊確定為各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊。
9、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種文檔檢索裝置,包括:接收模塊,用于接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息;檢索模塊,用于基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器;第一處理模塊,用于將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。
10、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。
11、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種電子設(shè)備,電子設(shè)備包括一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序,其中,程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。
12、在本專(zhuān)利技術(shù)實(shí)施例中,采用基于文檔中的文本塊為用戶進(jìn)行文檔檢索的方式,通過(guò)接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息,然后基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,從而將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器。
13、在上述過(guò)程中,通過(guò)依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,實(shí)現(xiàn)了對(duì)文檔中語(yǔ)義信息的完整保留,避免了相關(guān)技術(shù)中從文檔中抽取關(guān)鍵詞、題目以用于文檔檢索時(shí),難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息,影響檢索準(zhǔn)確性,通過(guò)基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,實(shí)現(xiàn)了針對(duì)各文本塊進(jìn)行精細(xì)化的匹配過(guò)程,避免了直接與文檔全文匹配時(shí),由于文檔完整內(nèi)容較多,容易被非相關(guān)文本造成較大影響的問(wèn)題,從而有效提高了文檔檢索的準(zhǔn)確性。此外,通過(guò)基于與文檔類(lèi)型匹配的文本分割器對(duì)文檔進(jìn)行分割,實(shí)現(xiàn)了對(duì)文檔內(nèi)容的有效拆分,從而可以更進(jìn)一步地提高檢索準(zhǔn)確性。
14、由此可見(jiàn),本申請(qǐng)所提供的方案達(dá)到了基于文檔中的文本塊為用戶進(jìn)行文檔檢索的目的,從而實(shí)現(xiàn)了提高檢索準(zhǔn)確性的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種文檔檢索方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)文本塊通過(guò)以下方式得到:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定各個(gè)文檔的文檔內(nèi)容,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述文檔中確定所述文檔的內(nèi)容描述信息,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,依據(jù)目標(biāo)分類(lèi)模型對(duì)所述數(shù)值序列進(jìn)行處理,得到所述文檔對(duì)應(yīng)的文檔類(lèi)型,包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的文本分割器,所述通用的文本分割器是指適用于多種文檔類(lèi)型的文本分割器,其中,依據(jù)所述目標(biāo)文本分割器集合對(duì)所述文檔的文檔內(nèi)容進(jìn)行文本分割,得到各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊,包括:
8.一種文檔檢索裝置,其特征在于,包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)
10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序,其中,所述程序被設(shè)置為運(yùn)行時(shí)執(zhí)行所述權(quán)利要求1至7任一項(xiàng)中所述的文檔檢索方法。
...【技術(shù)特征摘要】
1.一種文檔檢索方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)文本塊通過(guò)以下方式得到:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定各個(gè)文檔的文檔內(nèi)容,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述文檔中確定所述文檔的內(nèi)容描述信息,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,依據(jù)目標(biāo)分類(lèi)模型對(duì)所述數(shù)值序列進(jìn)行處理,得到所述文檔對(duì)應(yīng)的文檔類(lèi)型,包括:
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:杜家兵,王晶,梁家瑋,宋才華,劉勝?gòu)?qiáng),吳麗賢,皇甫漢聰,關(guān)兆雄,楊飛,
申請(qǐng)(專(zhuān)利權(quán))人:廣東電網(wǎng)有限責(zé)任公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。