System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及水利水害防治數(shù)據(jù)增強(qiáng)與知識(shí)圖譜構(gòu)建的,具體涉及一種用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法及系統(tǒng)。
技術(shù)介紹
1、在面對(duì)洪水等自然災(zāi)害時(shí),及時(shí)有效的水害防治行動(dòng)能夠最大限度地減少災(zāi)害帶來(lái)的損失。然而,水害防治知識(shí)具有知識(shí)提取困難、關(guān)聯(lián)性差等問(wèn)題,缺乏系統(tǒng)化的組織和利用,給水害防治工作帶來(lái)了巨大難度。幸運(yùn)的是,從水害防治經(jīng)驗(yàn)文本中抽取領(lǐng)域知識(shí)并構(gòu)建知識(shí)圖譜可實(shí)現(xiàn)相關(guān)知識(shí)梳理與關(guān)聯(lián),提供水害防治知識(shí)快速問(wèn)答,從而提升對(duì)水災(zāi)風(fēng)險(xiǎn)的識(shí)別和應(yīng)對(duì)能力。
2、知識(shí)圖譜從構(gòu)建到應(yīng)用的各個(gè)環(huán)節(jié)均需要準(zhǔn)確的領(lǐng)域知識(shí)抽取技術(shù)做支撐。在構(gòu)建環(huán)節(jié)需使用該技術(shù)自動(dòng)化提取文本中心實(shí)體、抽取實(shí)體關(guān)系;在應(yīng)用環(huán)節(jié)需要該技術(shù)解析問(wèn)句關(guān)鍵詞,增強(qiáng)信息檢索和問(wèn)答系統(tǒng)的性能。
3、高質(zhì)量數(shù)據(jù)是保障知識(shí)抽取模型精度的關(guān)鍵前提,但是,水害防治知識(shí)具有數(shù)據(jù)質(zhì)量低,文本語(yǔ)法結(jié)構(gòu)復(fù)雜、冗余信息多等問(wèn)題,在數(shù)據(jù)規(guī)模方面具有數(shù)據(jù)稀缺、實(shí)體類別分布不均等問(wèn)題,在數(shù)據(jù)標(biāo)注方面則具有工作量大、標(biāo)注結(jié)果一致性差等問(wèn)題,掣肘水害防治工作的迅速有效開(kāi)展。
技術(shù)實(shí)現(xiàn)思路
1、為克服上述現(xiàn)有技術(shù)的不足,本專利技術(shù)提供一種用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法及系統(tǒng),通過(guò)建立一種面向單一垂直領(lǐng)域數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方法,以高質(zhì)量數(shù)據(jù)為原數(shù)據(jù)成倍擴(kuò)增出更多的高質(zhì)量數(shù)據(jù),在領(lǐng)域數(shù)據(jù)低質(zhì)少量的條件下,滿足知識(shí)抽取模型的高效訓(xùn)練,提升水害防治智慧化水平。
2、根據(jù)本專利技術(shù)說(shuō)明書(shū)的一方面,提供一種用于領(lǐng)域知識(shí)抽取
3、獲取水害防治領(lǐng)域內(nèi)文本數(shù)據(jù);
4、對(duì)獲取的不同格式文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理及清洗,形成領(lǐng)域的原始數(shù)據(jù)集;
5、根據(jù)所述領(lǐng)域的原始數(shù)據(jù)集,自上而下歸納領(lǐng)域主題概念,剖析概念關(guān)聯(lián)關(guān)系,建立水害防治本體模型,根據(jù)本體模型開(kāi)展數(shù)據(jù)標(biāo)注;
6、根據(jù)標(biāo)注結(jié)果將每條文本數(shù)據(jù)分為實(shí)體部分與非實(shí)體部分,對(duì)實(shí)體部分與非實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),重新組合實(shí)體部分增強(qiáng)結(jié)果與非實(shí)體部分增強(qiáng)結(jié)果,得到該條文本數(shù)據(jù)的增強(qiáng)數(shù)據(jù),每條文本的增強(qiáng)數(shù)據(jù)組成增強(qiáng)數(shù)據(jù)集。
7、作為進(jìn)一步的技術(shù)方案,所述方法還包括:
8、將原始數(shù)據(jù)集單獨(dú)進(jìn)行模型訓(xùn)練,利用已訓(xùn)練模型在測(cè)試集上獲取測(cè)試結(jié)果;
9、將原始數(shù)據(jù)集與增強(qiáng)數(shù)據(jù)集合并進(jìn)行模型訓(xùn)練,利用已訓(xùn)練模型在測(cè)試集上獲取測(cè)試結(jié)果;
10、選取準(zhǔn)確率、召回率、f1值為指標(biāo)比較兩組訓(xùn)練結(jié)果,判斷所提數(shù)據(jù)增強(qiáng)方法的有效性。
11、作為進(jìn)一步的技術(shù)方案,獲取水害防治領(lǐng)域內(nèi)文本數(shù)據(jù),包括:
12、確定文本數(shù)據(jù)收集范圍為與水害相關(guān)的基礎(chǔ)知識(shí)和針對(duì)不同水害的具體防治方法;
13、采用包括但不限于以下途徑進(jìn)行文本數(shù)據(jù)收集:使用自動(dòng)化程序從百科網(wǎng)站上抓取文本數(shù)據(jù);從論文網(wǎng)站批量下載包含水害防治的技術(shù)型論文;從圖書(shū)網(wǎng)站獲取專業(yè)論著;由瀏覽器廣泛搜索獲得pdf文件以及在技術(shù)分享網(wǎng)站獲取水害防治領(lǐng)域文本數(shù)據(jù)。
14、作為進(jìn)一步的技術(shù)方案,對(duì)獲取的不同格式文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理及清洗,包括:
15、采用針對(duì)性方法將不同格式文本數(shù)據(jù)標(biāo)準(zhǔn)化為統(tǒng)一的可編輯格式,所述的統(tǒng)一的可編輯格式為.txt后綴的純文本格式或.doc后綴的word格式;
16、采用以下一或多種清洗手段對(duì)標(biāo)準(zhǔn)化后的文本進(jìn)行清洗:在篇章級(jí)別,以篇章標(biāo)題與篇章內(nèi)容為依據(jù)去除具有相同主題的數(shù)據(jù);在段落級(jí)別,將文本描述按句號(hào)拆分,將數(shù)據(jù)分塊;在句子級(jí)別,補(bǔ)充缺失的句子成分;在字詞級(jí)別,包括但不限于去除亂碼、修正錯(cuò)別字、去除停用詞。
17、作為進(jìn)一步的技術(shù)方案,建立水害防治本體模型,根據(jù)本體模型開(kāi)展數(shù)據(jù)標(biāo)注,包括:
18、從自頂向下的角度開(kāi)始,先定義高層概念,再?gòu)母邔痈拍钪醒由瓿龅蛯痈拍睿?/p>
19、判斷每個(gè)概念是否具有屬性,存在屬性則添加概念屬性,并在概念之間定義關(guān)系;
20、根據(jù)概念與關(guān)系創(chuàng)建水害防治本體模型,表示水害防治領(lǐng)域的概念、屬性和關(guān)系;
21、根據(jù)水害防治本體模型中涉及的概念和屬性展開(kāi)實(shí)體標(biāo)注,得到標(biāo)注數(shù)據(jù)集。
22、作為進(jìn)一步的技術(shù)方案,對(duì)實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),包括:
23、實(shí)體替換,以標(biāo)注數(shù)據(jù)集為基礎(chǔ),將所有實(shí)體按照實(shí)體類型建立實(shí)體類型字典,在實(shí)施實(shí)體替換策略時(shí),針對(duì)原文本數(shù)據(jù)中的每一個(gè)實(shí)體詞,首先依據(jù)實(shí)體類型從對(duì)應(yīng)實(shí)體類型字典中隨機(jī)抽取一個(gè)同類型實(shí)體,然后以設(shè)定概率p替換原實(shí)體從而組成新句;
24、同義互換,首先獲取開(kāi)源同義詞庫(kù),然后句中的每一個(gè)實(shí)體詞都有設(shè)定概率p被同義詞庫(kù)中對(duì)應(yīng)的同義詞替換從而組成新句;
25、語(yǔ)言回譯,針對(duì)句中的每一個(gè)實(shí)體詞,利用翻譯引擎以設(shè)定概率p將實(shí)體詞譯為其他語(yǔ)言,隨后譯回漢語(yǔ),替換原實(shí)體詞從而組成新句;
26、大語(yǔ)言模型改寫(xiě),將待替換實(shí)體詞用一個(gè)特殊標(biāo)記掩蓋,將整條文本輸入到大語(yǔ)言模型中,編輯提示詞讓模型填充被掩蓋的部分,填充后的結(jié)果即為新句;或者直接編輯提示詞讓模型結(jié)合上下文對(duì)輸入的短語(yǔ)進(jìn)行同義改寫(xiě)得到新句。
27、作為進(jìn)一步的技術(shù)方案,所述方法還包括:實(shí)時(shí)獲取原實(shí)體標(biāo)簽與增強(qiáng)后的實(shí)體詞長(zhǎng)度,依據(jù)實(shí)體詞長(zhǎng)度彈性改變標(biāo)簽長(zhǎng)度,以使增強(qiáng)后的數(shù)據(jù)依然擁有正確的標(biāo)注標(biāo)簽。
28、作為進(jìn)一步的技術(shù)方案,對(duì)非實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),包括:
29、以標(biāo)注數(shù)據(jù)集為基礎(chǔ),將非實(shí)體部分從句粒度細(xì)化到詞粒度,獲得非實(shí)體詞;
30、對(duì)非實(shí)體詞的數(shù)據(jù)增強(qiáng)包括同義互換、語(yǔ)言回譯、大語(yǔ)言模型改寫(xiě)、隨機(jī)互換及隨機(jī)刪除,其中,隨機(jī)互換為獲得非實(shí)體詞后,以設(shè)定概率p/2交換句中兩個(gè)詞語(yǔ)的前后位置從而形成新句,隨機(jī)刪除為獲得非實(shí)體詞后,以設(shè)定概率p隨機(jī)刪除句子中的非實(shí)體詞從而形成新句。
31、根據(jù)本專利技術(shù)說(shuō)明書(shū)的一方面,提供一種用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)系統(tǒng),包括:
32、第一主模塊,用于獲取水害防治領(lǐng)域內(nèi)文本數(shù)據(jù);
33、第二主模塊,用于對(duì)獲取的不同格式文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理及清洗,形成領(lǐng)域的原始數(shù)據(jù)集;
34、第三主模塊,用于根據(jù)所述領(lǐng)域的原始數(shù)據(jù)集,自上而下歸納領(lǐng)域主題概念,剖析概念關(guān)聯(lián)關(guān)系,建立水害防治本體模型,根據(jù)本體模型開(kāi)展數(shù)據(jù)標(biāo)注;
35、第四主模塊,用于根據(jù)標(biāo)注結(jié)果將每條文本數(shù)據(jù)分為實(shí)體部分與非實(shí)體部分,對(duì)實(shí)體部分與非實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),重新組合實(shí)體部分增強(qiáng)結(jié)果與非實(shí)體部分增強(qiáng)結(jié)果,得到該條文本數(shù)據(jù)的增強(qiáng)數(shù)據(jù),每條文本的增強(qiáng)數(shù)據(jù)組成增強(qiáng)數(shù)據(jù)集。
36、根據(jù)本專利技術(shù)說(shuō)明書(shū)的一方面,提供一種電子設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)指令;處理器,用以執(zhí)行所述的計(jì)算機(jī)程序,當(dāng)上述一個(gè)或多個(gè)指令被上述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得上述一個(gè)或多個(gè)處理器實(shí)現(xiàn)所述的用于領(lǐng)域知識(shí)抽取的水害防治本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,獲取水害防治領(lǐng)域內(nèi)文本數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,對(duì)獲取的不同格式文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理及清洗,包括:
5.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,建立水害防治本體模型,根據(jù)本體模型開(kāi)展數(shù)據(jù)標(biāo)注,包括:
6.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,對(duì)實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),包括:
7.根據(jù)權(quán)利要求6所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,所述方法還包括:實(shí)時(shí)獲取原實(shí)體標(biāo)簽與增強(qiáng)后的實(shí)體詞長(zhǎng)度,依據(jù)實(shí)體詞長(zhǎng)度彈性改變標(biāo)簽長(zhǎng)度,以使增強(qiáng)后的數(shù)據(jù)依然擁有正確的標(biāo)注標(biāo)簽。
8.根據(jù)權(quán)利要求1所述用于領(lǐng)域
9.用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)系統(tǒng),其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括:存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)計(jì)算機(jī)指令;處理器,用以執(zhí)行所述的計(jì)算機(jī)程序,當(dāng)上述一個(gè)或多個(gè)指令被上述一個(gè)或多個(gè)處理器執(zhí)行時(shí),使得上述一個(gè)或多個(gè)處理器實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)權(quán)利要求所述的用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法的步驟。
...【技術(shù)特征摘要】
1.用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,獲取水害防治領(lǐng)域內(nèi)文本數(shù)據(jù),包括:
4.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,對(duì)獲取的不同格式文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理及清洗,包括:
5.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,建立水害防治本體模型,根據(jù)本體模型開(kāi)展數(shù)據(jù)標(biāo)注,包括:
6.根據(jù)權(quán)利要求1所述用于領(lǐng)域知識(shí)抽取的水害防治實(shí)體數(shù)據(jù)增強(qiáng)方法,其特征在于,對(duì)實(shí)體部分采用相應(yīng)的增強(qiáng)策略實(shí)施數(shù)據(jù)增強(qiáng),包括:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:馬剛,張棟梁,王旭東,周偉,王小毛,
申請(qǐng)(專利權(quán))人:武漢大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。