System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及自然語(yǔ)言處理和人工智能,尤其涉及一種基于rag的電氣協(xié)議書(shū)信息提取的方法。
技術(shù)介紹
1、在工業(yè)和電力系統(tǒng)中,電氣柜協(xié)議書(shū)通常包含大量的技術(shù)細(xì)節(jié)和復(fù)雜的信息。這些信息對(duì)于確保電氣柜的性能、安全性和可靠性至關(guān)重要。然而,由于協(xié)議書(shū)通常篇幅較長(zhǎng)且內(nèi)容復(fù)雜,如果采用手動(dòng)提取方式提取其中的關(guān)鍵信息,則不僅耗時(shí)費(fèi)力,而且容易出錯(cuò)。為此需要采用相應(yīng)的文本關(guān)鍵信息提取技術(shù)進(jìn)行信息提取操作。
2、現(xiàn)有的文本關(guān)鍵信息提取技術(shù)在自然語(yǔ)言處理領(lǐng)域扮演著關(guān)鍵角色,旨在自動(dòng)識(shí)別和提取大量文本中的重要信息。相應(yīng)的提取技術(shù)主要可以采用的方法包括基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法;其中,
3、(1)基于規(guī)則的方法為通過(guò)預(yù)定義的規(guī)則和模式來(lái)提取信息,通常使用正則表達(dá)式或特定的文本模式匹配來(lái)識(shí)別所需信息,這種信息提取方法具有靈活性較差且規(guī)則維護(hù)困難的缺陷;
4、(2)基于機(jī)器學(xué)習(xí)的方法是通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)識(shí)別和提取文本中的關(guān)鍵信息;常見(jiàn)的模型包括分類(lèi)器、序列標(biāo)注模型等;該信息提取方法在面對(duì)復(fù)雜文本和提取要求時(shí)存在提取效果較差的問(wèn)題;
5、(3)基于深度學(xué)習(xí)的方法則是使用深度學(xué)習(xí)模型(如rnn、lstm、transformer等)來(lái)自動(dòng)提取文本中的信息,特別是近年來(lái)的以gpt3為代表的大語(yǔ)言模型表現(xiàn)尤為出色;目前主流的文本信息提取方法是利用rag(檢索增強(qiáng)生成)技術(shù),將信息檢索與大語(yǔ)言模型結(jié)合起來(lái),增強(qiáng)大語(yǔ)言模型生成結(jié)果的準(zhǔn)確性和相關(guān)性;然而,這種信息提取方法應(yīng)用在專(zhuān)業(yè)領(lǐng)域上時(shí)往往
6、有鑒于上述各現(xiàn)有技術(shù)的信息提取方式存在的缺陷,故提出本專(zhuān)利技術(shù)。
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)的目的是提供了一種基于rag的電氣協(xié)議書(shū)信息提取方法,以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問(wèn)題,確保最終輸出的答案準(zhǔn)確且可信。
2、本專(zhuān)利技術(shù)的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
3、一種基于rag的電氣協(xié)議書(shū)信息提取方法,包括:
4、根據(jù)已知的電氣文本及收集的電氣概念生成訓(xùn)練數(shù)據(jù)集,并基于所述訓(xùn)練數(shù)據(jù)集對(duì)文本嵌入模型進(jìn)行調(diào)整;
5、在提取電氣協(xié)議書(shū)中的信息時(shí),基于調(diào)整后的所述文本嵌入模型,以及預(yù)定的規(guī)則拒答機(jī)制及預(yù)定的不確定性的檢測(cè)機(jī)制,識(shí)別并拒絕錯(cuò)誤答案,篩選獲得符合要求的回答作為提取獲得的電氣協(xié)議書(shū)信息。
6、優(yōu)選的,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:
7、根據(jù)獲得的電氣文本通過(guò)構(gòu)建提示詞prompt及語(yǔ)言模型chatgpt生成包括問(wèn)題及對(duì)應(yīng)的問(wèn)答對(duì)的正相關(guān)文本和負(fù)相關(guān)文本的訓(xùn)練數(shù)據(jù)集,所述負(fù)相關(guān)文本為基于文本嵌入模型搜索獲得;
8、根據(jù)獲得的電氣概念通過(guò)構(gòu)建提示詞prompt及語(yǔ)言模型chatgpt生成包括電氣概念及其對(duì)應(yīng)的相似語(yǔ)義文本和無(wú)關(guān)文本的訓(xùn)練數(shù)據(jù)集。
9、優(yōu)選的,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。
10、優(yōu)選的,所述預(yù)定的不確定性的檢測(cè)機(jī)制包括:
11、提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答中所有單詞的可能性、回答中最不確定的單詞的可能性及回答中單詞的熵,以及預(yù)先設(shè)定的基于所述中所有單詞的可能性、回答中最不確定的單詞的可能性及回答中單詞的熵篩選回答的規(guī)則。
12、優(yōu)選的,所述回答中所有單詞的可能性的確定方式包括:
13、
14、其中,j是回答中包含的單詞token數(shù)量,pi為回答中第i個(gè)token的生成概率。
15、優(yōu)選的,所述回答中最不確定的單詞的可能性的確定方式包括:
16、
17、其中,pi為回答中第i個(gè)token的生成概率。
18、優(yōu)選的,所述于回答中單詞的熵包括:回答中所有單詞的平均熵和回答中最不確定的單詞的熵,其中,
19、所述回答中所有單詞的平均熵包括:
20、
21、所述回答中最不確定的單詞的熵包括:
22、
23、其中,所述單詞的熵定義包括:
24、hi=∑ω∈wpi(ω)log?pi(ω);
25、w是詞匯表中所有可能的單詞集合,pi(ω)為在第i個(gè)單詞token處生成單詞ω的概率。
26、與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)所提供一種基于rag的電氣協(xié)議書(shū)信息提取方法,其可以利用大語(yǔ)言模型(如gpt-3.5)進(jìn)行數(shù)據(jù)集的自動(dòng)標(biāo)注,從而高效地生成了大量電氣領(lǐng)域的高質(zhì)量文本數(shù)據(jù)集;之后,可以通過(guò)所述數(shù)據(jù)集進(jìn)行模型的微調(diào),以使其在處理電氣相關(guān)文本時(shí)具有更高的準(zhǔn)確性和有效性。另外,上述實(shí)現(xiàn)方案中還引入了回答質(zhì)量檢測(cè)機(jī)制,通過(guò)結(jié)合人工定義的規(guī)則和回答不確定性指標(biāo)來(lái)評(píng)估輸出的可靠性,從而過(guò)濾掉不可靠的回答,確保最終輸出的答案準(zhǔn)確且可信。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于RAG的電氣協(xié)議書(shū)信息提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述預(yù)定的不確定性的檢測(cè)機(jī)制包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述回答中所有單詞的可能性的確定方式包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述回答中最不確定的單詞的可能性的確定方式包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述于回答中單詞的熵包括:回答中所有單詞的平均熵和回答中最不確定的單詞的熵,其中,
【技術(shù)特征摘要】
1.一種基于rag的電氣協(xié)議書(shū)信息提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:李向陽(yáng),侯嘉慧,胡杰,
申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)科學(xué)技術(shù)大學(xué),
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。