System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 白嫩少妇激情无码,亚洲自偷自偷偷色无码中文,东京热无码一区二区三区av
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備制造方法及圖紙

    技術(shù)編號(hào):42726181 閱讀:10 留言:0更新日期:2024-09-13 12:11
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備。涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,該方法包括:接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息;基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器;將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。本發(fā)明專(zhuān)利技術(shù)解決了相關(guān)技術(shù)中文檔搜索準(zhǔn)確性低的技術(shù)問(wèn)題。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及互聯(lián)網(wǎng),具體而言,涉及一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備


    技術(shù)介紹

    1、在大型企業(yè)中,非結(jié)構(gòu)化文檔數(shù)量龐大且種類(lèi)繁多,內(nèi)容紛雜,格式不一。為了便于員工對(duì)海量文檔進(jìn)行檢索,通常會(huì)對(duì)文檔數(shù)據(jù)進(jìn)行信息抽取,以在檢索過(guò)程中基于抽取到的信息與檢索語(yǔ)句進(jìn)行匹配。目前,在相關(guān)技術(shù)中,傳統(tǒng)非結(jié)構(gòu)化文檔數(shù)據(jù)信息抽取主要對(duì)文檔的關(guān)鍵詞、題目進(jìn)行抽取,難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息,從而導(dǎo)致在文檔檢索過(guò)程中,文檔檢索準(zhǔn)確性低的問(wèn)題。

    2、針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。


    技術(shù)實(shí)現(xiàn)思路

    1、本專(zhuān)利技術(shù)實(shí)施例提供了一種文檔檢索方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備,以至少解決相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。

    2、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的一個(gè)方面,提供了一種文檔檢索方法,包括:接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息;基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器;將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。

    3、進(jìn)一步地,文檔檢索方法還包括:獲取多個(gè)文檔,并確定各個(gè)文檔的文檔內(nèi)容;對(duì)于每個(gè)文檔,從文檔中確定文檔的內(nèi)容描述信息;依據(jù)文檔的內(nèi)容描述信息確定文檔的文檔類(lèi)型;依據(jù)各個(gè)文檔的文檔類(lèi)型,確定各個(gè)文檔對(duì)應(yīng)的目標(biāo)文本分割器集合,并依據(jù)目標(biāo)文本分割器集合對(duì)文檔的文檔內(nèi)容進(jìn)行文本分割,得到各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊。

    4、進(jìn)一步地,文檔檢索方法還包括:確定文檔的文檔格式;根據(jù)文檔的文檔格式確定對(duì)文檔的內(nèi)容提取方式;依據(jù)內(nèi)容提取方式對(duì)文檔進(jìn)行內(nèi)容提取,將提取得到的內(nèi)容確定為文檔的文檔內(nèi)容。

    5、進(jìn)一步地,文檔檢索方法還包括:判斷文檔的文檔名是否為目標(biāo)格式;在文檔的文檔名為目標(biāo)格式的情況下,將文檔名確定為文檔的內(nèi)容描述信息;在文檔的文檔名不是目標(biāo)格式的情況下,將文檔內(nèi)容中目標(biāo)范圍處的內(nèi)容確定為文檔的內(nèi)容描述信息。

    6、進(jìn)一步地,文檔檢索方法還包括:對(duì)文檔的內(nèi)容描述信息進(jìn)行分詞處理,得到多個(gè)分詞;對(duì)多個(gè)分詞進(jìn)行數(shù)值轉(zhuǎn)換,得到由多個(gè)分詞對(duì)應(yīng)的數(shù)值組成的數(shù)值序列;依據(jù)目標(biāo)分類(lèi)模型對(duì)數(shù)值序列進(jìn)行處理,得到文檔對(duì)應(yīng)的文檔類(lèi)型。

    7、進(jìn)一步地,文檔檢索方法還包括:判斷數(shù)值序列的長(zhǎng)度是否小于預(yù)設(shè)長(zhǎng)度;在數(shù)值序列的長(zhǎng)度小于預(yù)設(shè)長(zhǎng)度的情況下,對(duì)數(shù)值序列進(jìn)行填充,得到目標(biāo)數(shù)值序列;生成與目標(biāo)數(shù)值序列對(duì)應(yīng)的注意力掩碼序列,其中,注意力掩碼序列用于引導(dǎo)目標(biāo)分類(lèi)模型處理目標(biāo)數(shù)值序列時(shí)關(guān)注目標(biāo)數(shù)值序列中的目標(biāo)元素;依據(jù)目標(biāo)分類(lèi)模型對(duì)目標(biāo)數(shù)值序列和注意力掩碼序列進(jìn)行處理,得到文檔對(duì)應(yīng)的文檔類(lèi)型。

    8、進(jìn)一步地,文檔檢索方法還包括:對(duì)于每個(gè)文檔,依據(jù)文檔的文檔類(lèi)型匹配的文本分割器對(duì)文檔內(nèi)容進(jìn)行文本分割處理,得到多個(gè)第一文本塊;依據(jù)通用的文本分割器對(duì)文檔內(nèi)容中剩余的內(nèi)容進(jìn)行文本分割處理,得到至少一個(gè)第二文本塊;將各個(gè)文檔對(duì)應(yīng)的第一文本塊以及第二文本塊確定為各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊。

    9、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種文檔檢索裝置,包括:接收模塊,用于接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息;檢索模塊,用于基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器;第一處理模塊,用于將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。

    10、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。

    11、根據(jù)本專(zhuān)利技術(shù)實(shí)施例的另一方面,還提供了一種電子設(shè)備,電子設(shè)備包括一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序,其中,程序被設(shè)置為運(yùn)行時(shí)執(zhí)行上述的文檔檢索方法。

    12、在本專(zhuān)利技術(shù)實(shí)施例中,采用基于文檔中的文本塊為用戶進(jìn)行文檔檢索的方式,通過(guò)接收用戶的文檔檢索請(qǐng)求,并從文檔檢索請(qǐng)求中提取出文檔檢索信息,然后基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,從而將目標(biāo)文本塊對(duì)應(yīng)的文檔信息和目標(biāo)文本塊返回至用戶。其中,文本塊為依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,目標(biāo)文本分割器集合中包含與文檔的文檔類(lèi)型匹配的文本分割器。

    13、在上述過(guò)程中,通過(guò)依據(jù)目標(biāo)文本分割器集合對(duì)文檔進(jìn)行文本分割得到的文本片段,實(shí)現(xiàn)了對(duì)文檔中語(yǔ)義信息的完整保留,避免了相關(guān)技術(shù)中從文檔中抽取關(guān)鍵詞、題目以用于文檔檢索時(shí),難以體現(xiàn)文檔內(nèi)容的完整語(yǔ)義信息,影響檢索準(zhǔn)確性,通過(guò)基于文檔檢索信息在多個(gè)文本塊中進(jìn)行檢索,得到與文檔檢索信息匹配的目標(biāo)文本塊,實(shí)現(xiàn)了針對(duì)各文本塊進(jìn)行精細(xì)化的匹配過(guò)程,避免了直接與文檔全文匹配時(shí),由于文檔完整內(nèi)容較多,容易被非相關(guān)文本造成較大影響的問(wèn)題,從而有效提高了文檔檢索的準(zhǔn)確性。此外,通過(guò)基于與文檔類(lèi)型匹配的文本分割器對(duì)文檔進(jìn)行分割,實(shí)現(xiàn)了對(duì)文檔內(nèi)容的有效拆分,從而可以更進(jìn)一步地提高檢索準(zhǔn)確性。

    14、由此可見(jiàn),本申請(qǐng)所提供的方案達(dá)到了基于文檔中的文本塊為用戶進(jìn)行文檔檢索的目的,從而實(shí)現(xiàn)了提高檢索準(zhǔn)確性的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中文檔檢索準(zhǔn)確性低的技術(shù)問(wèn)題。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種文檔檢索方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)文本塊通過(guò)以下方式得到:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定各個(gè)文檔的文檔內(nèi)容,包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述文檔中確定所述文檔的內(nèi)容描述信息,包括:

    5.根據(jù)權(quán)利要求2所述的方法,其特征在于,依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,依據(jù)目標(biāo)分類(lèi)模型對(duì)所述數(shù)值序列進(jìn)行處理,得到所述文檔對(duì)應(yīng)的文檔類(lèi)型,包括:

    7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的文本分割器,所述通用的文本分割器是指適用于多種文檔類(lèi)型的文本分割器,其中,依據(jù)所述目標(biāo)文本分割器集合對(duì)所述文檔的文檔內(nèi)容進(jìn)行文本分割,得到各個(gè)文檔對(duì)應(yīng)的多個(gè)文本塊,包括:

    8.一種文檔檢索裝置,其特征在于,包括:

    9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被設(shè)置為運(yùn)行時(shí)執(zhí)行所述權(quán)利要求1至7任一項(xiàng)中所述的文檔檢索方法。

    10.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括一個(gè)或多個(gè)處理器;存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)用于運(yùn)行程序,其中,所述程序被設(shè)置為運(yùn)行時(shí)執(zhí)行所述權(quán)利要求1至7任一項(xiàng)中所述的文檔檢索方法。

    ...

    【技術(shù)特征摘要】

    1.一種文檔檢索方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)文本塊通過(guò)以下方式得到:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定各個(gè)文檔的文檔內(nèi)容,包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述文檔中確定所述文檔的內(nèi)容描述信息,包括:

    5.根據(jù)權(quán)利要求2所述的方法,其特征在于,依據(jù)所述文檔的內(nèi)容描述信息確定所述文檔的文檔類(lèi)型,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,依據(jù)目標(biāo)分類(lèi)模型對(duì)所述數(shù)值序列進(jìn)行處理,得到所述文檔對(duì)應(yīng)的文檔類(lèi)型,包括:

    7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述目標(biāo)文本分割器集合中包括與所述文檔的文檔類(lèi)型匹配的文本分割器以及通用的...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:杜家兵王晶梁家瑋宋才華劉勝?gòu)?qiáng)吳麗賢皇甫漢聰關(guān)兆雄楊飛
    申請(qǐng)(專(zhuān)利權(quán))人:廣東電網(wǎng)有限責(zé)任公司
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲精品无码VA大香大香 | 免费无码又爽又刺激网站| 久久亚洲精品无码| 无码国产精品一区二区免费式芒果 | 伊人久久一区二区三区无码| 日韩精品无码永久免费网站| 亚洲AV无码专区国产乱码4SE| 亚洲精品无码专区在线播放| 东京热加勒比无码少妇| 亚洲中文字幕无码中文| 亚洲AV无码乱码国产麻豆| 久久久久久久久免费看无码| 无码人妻AV一二区二区三区| 狠狠躁天天躁无码中文字幕图| 亚洲午夜成人精品无码色欲| 亚洲国产精品无码专区在线观看| 国产精品第一区揄拍无码| 无码福利一区二区三区| 无码人妻精品一区二区三区久久 | 办公室丝袜激情无码播放| 精品高潮呻吟99av无码视频| 亚洲永久无码3D动漫一区| 国产午夜无码福利在线看网站| 亚洲国产精品无码观看久久| 18精品久久久无码午夜福利| 无码国内精品久久人妻| 亚洲av激情无码专区在线播放| 国精品无码一区二区三区在线蜜臀| 性色AV一区二区三区无码| 无码国产精品一区二区免费I6| 亚洲av无码国产综合专区| 无码国产精成人午夜视频一区二区| 97无码人妻福利免费公开在线视频 | 无套内射在线无码播放| 亚洲人成网亚洲欧洲无码久久| 伊人久久综合无码成人网| 久久无码精品一区二区三区| 超清无码熟妇人妻AV在线电影| 中文字幕丰满乱孑伦无码专区| 亚洲精品午夜无码电影网| 亚洲va无码手机在线电影|