System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产白丝无码免费视频,无码av中文一二三区,国产午夜无码专区喷水
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于RAG的電氣協(xié)議書(shū)信息提取的方法技術(shù)

    技術(shù)編號(hào):44336605 閱讀:7 留言:0更新日期:2025-02-18 20:47
    本發(fā)明專(zhuān)利技術(shù)公開(kāi)一種基于RAG的電氣協(xié)議書(shū)信息提取方法,包括:根據(jù)已知的電氣文本及收集的電氣概念生成訓(xùn)練數(shù)據(jù)集,并基于所述訓(xùn)練數(shù)據(jù)集對(duì)文本嵌入模型進(jìn)行調(diào)整;在提取電氣協(xié)議書(shū)中的信息時(shí),基于調(diào)整后的所述文本嵌入模型,以及預(yù)定的規(guī)則拒答機(jī)制及預(yù)定的不確定性的檢測(cè)機(jī)制,識(shí)別并拒絕錯(cuò)誤答案,篩選獲得符合要求的回答作為提取獲得的電氣協(xié)議書(shū)信息。本發(fā)明專(zhuān)利技術(shù)的實(shí)現(xiàn)可以對(duì)文本嵌入模型進(jìn)行調(diào)整,使其在處理電氣相關(guān)文本時(shí)具有更高的準(zhǔn)確性和有效性。同時(shí),本發(fā)明專(zhuān)利技術(shù)實(shí)施例中還引入了回答質(zhì)量檢測(cè)機(jī)制,以確保最終輸出的答案準(zhǔn)確且可信。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及自然語(yǔ)言處理和人工智能,尤其涉及一種基于rag的電氣協(xié)議書(shū)信息提取的方法。


    技術(shù)介紹

    1、在工業(yè)和電力系統(tǒng)中,電氣柜協(xié)議書(shū)通常包含大量的技術(shù)細(xì)節(jié)和復(fù)雜的信息。這些信息對(duì)于確保電氣柜的性能、安全性和可靠性至關(guān)重要。然而,由于協(xié)議書(shū)通常篇幅較長(zhǎng)且內(nèi)容復(fù)雜,如果采用手動(dòng)提取方式提取其中的關(guān)鍵信息,則不僅耗時(shí)費(fèi)力,而且容易出錯(cuò)。為此需要采用相應(yīng)的文本關(guān)鍵信息提取技術(shù)進(jìn)行信息提取操作。

    2、現(xiàn)有的文本關(guān)鍵信息提取技術(shù)在自然語(yǔ)言處理領(lǐng)域扮演著關(guān)鍵角色,旨在自動(dòng)識(shí)別和提取大量文本中的重要信息。相應(yīng)的提取技術(shù)主要可以采用的方法包括基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法及基于深度學(xué)習(xí)的方法;其中,

    3、(1)基于規(guī)則的方法為通過(guò)預(yù)定義的規(guī)則和模式來(lái)提取信息,通常使用正則表達(dá)式或特定的文本模式匹配來(lái)識(shí)別所需信息,這種信息提取方法具有靈活性較差且規(guī)則維護(hù)困難的缺陷;

    4、(2)基于機(jī)器學(xué)習(xí)的方法是通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)識(shí)別和提取文本中的關(guān)鍵信息;常見(jiàn)的模型包括分類(lèi)器、序列標(biāo)注模型等;該信息提取方法在面對(duì)復(fù)雜文本和提取要求時(shí)存在提取效果較差的問(wèn)題;

    5、(3)基于深度學(xué)習(xí)的方法則是使用深度學(xué)習(xí)模型(如rnn、lstm、transformer等)來(lái)自動(dòng)提取文本中的信息,特別是近年來(lái)的以gpt3為代表的大語(yǔ)言模型表現(xiàn)尤為出色;目前主流的文本信息提取方法是利用rag(檢索增強(qiáng)生成)技術(shù),將信息檢索與大語(yǔ)言模型結(jié)合起來(lái),增強(qiáng)大語(yǔ)言模型生成結(jié)果的準(zhǔn)確性和相關(guān)性;然而,這種信息提取方法應(yīng)用在專(zhuān)業(yè)領(lǐng)域上時(shí)往往需要大量高質(zhì)量的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,數(shù)據(jù)準(zhǔn)備成本高;而且可能生成意義不明的回復(fù),影響用戶(hù)體驗(yàn)。

    6、有鑒于上述各現(xiàn)有技術(shù)的信息提取方式存在的缺陷,故提出本專(zhuān)利技術(shù)。


    技術(shù)實(shí)現(xiàn)思路

    1、本專(zhuān)利技術(shù)的目的是提供了一種基于rag的電氣協(xié)議書(shū)信息提取方法,以解決現(xiàn)有技術(shù)中存在的上述技術(shù)問(wèn)題,確保最終輸出的答案準(zhǔn)確且可信。

    2、本專(zhuān)利技術(shù)的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:

    3、一種基于rag的電氣協(xié)議書(shū)信息提取方法,包括:

    4、根據(jù)已知的電氣文本及收集的電氣概念生成訓(xùn)練數(shù)據(jù)集,并基于所述訓(xùn)練數(shù)據(jù)集對(duì)文本嵌入模型進(jìn)行調(diào)整;

    5、在提取電氣協(xié)議書(shū)中的信息時(shí),基于調(diào)整后的所述文本嵌入模型,以及預(yù)定的規(guī)則拒答機(jī)制及預(yù)定的不確定性的檢測(cè)機(jī)制,識(shí)別并拒絕錯(cuò)誤答案,篩選獲得符合要求的回答作為提取獲得的電氣協(xié)議書(shū)信息。

    6、優(yōu)選的,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:

    7、根據(jù)獲得的電氣文本通過(guò)構(gòu)建提示詞prompt及語(yǔ)言模型chatgpt生成包括問(wèn)題及對(duì)應(yīng)的問(wèn)答對(duì)的正相關(guān)文本和負(fù)相關(guān)文本的訓(xùn)練數(shù)據(jù)集,所述負(fù)相關(guān)文本為基于文本嵌入模型搜索獲得;

    8、根據(jù)獲得的電氣概念通過(guò)構(gòu)建提示詞prompt及語(yǔ)言模型chatgpt生成包括電氣概念及其對(duì)應(yīng)的相似語(yǔ)義文本和無(wú)關(guān)文本的訓(xùn)練數(shù)據(jù)集。

    9、優(yōu)選的,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。

    10、優(yōu)選的,所述預(yù)定的不確定性的檢測(cè)機(jī)制包括:

    11、提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答中所有單詞的可能性、回答中最不確定的單詞的可能性及回答中單詞的熵,以及預(yù)先設(shè)定的基于所述中所有單詞的可能性、回答中最不確定的單詞的可能性及回答中單詞的熵篩選回答的規(guī)則。

    12、優(yōu)選的,所述回答中所有單詞的可能性的確定方式包括:

    13、

    14、其中,j是回答中包含的單詞token數(shù)量,pi為回答中第i個(gè)token的生成概率。

    15、優(yōu)選的,所述回答中最不確定的單詞的可能性的確定方式包括:

    16、

    17、其中,pi為回答中第i個(gè)token的生成概率。

    18、優(yōu)選的,所述于回答中單詞的熵包括:回答中所有單詞的平均熵和回答中最不確定的單詞的熵,其中,

    19、所述回答中所有單詞的平均熵包括:

    20、

    21、所述回答中最不確定的單詞的熵包括:

    22、

    23、其中,所述單詞的熵定義包括:

    24、hi=∑ω∈wpi(ω)log?pi(ω);

    25、w是詞匯表中所有可能的單詞集合,pi(ω)為在第i個(gè)單詞token處生成單詞ω的概率。

    26、與現(xiàn)有技術(shù)相比,本專(zhuān)利技術(shù)所提供一種基于rag的電氣協(xié)議書(shū)信息提取方法,其可以利用大語(yǔ)言模型(如gpt-3.5)進(jìn)行數(shù)據(jù)集的自動(dòng)標(biāo)注,從而高效地生成了大量電氣領(lǐng)域的高質(zhì)量文本數(shù)據(jù)集;之后,可以通過(guò)所述數(shù)據(jù)集進(jìn)行模型的微調(diào),以使其在處理電氣相關(guān)文本時(shí)具有更高的準(zhǔn)確性和有效性。另外,上述實(shí)現(xiàn)方案中還引入了回答質(zhì)量檢測(cè)機(jī)制,通過(guò)結(jié)合人工定義的規(guī)則和回答不確定性指標(biāo)來(lái)評(píng)估輸出的可靠性,從而過(guò)濾掉不可靠的回答,確保最終輸出的答案準(zhǔn)確且可信。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于RAG的電氣協(xié)議書(shū)信息提取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。

    4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述預(yù)定的不確定性的檢測(cè)機(jī)制包括:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述回答中所有單詞的可能性的確定方式包括:

    6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述回答中最不確定的單詞的可能性的確定方式包括:

    7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述于回答中單詞的熵包括:回答中所有單詞的平均熵和回答中最不確定的單詞的熵,其中,

    【技術(shù)特征摘要】

    1.一種基于rag的電氣協(xié)議書(shū)信息提取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已知的電氣文本及電氣概念生成訓(xùn)練數(shù)據(jù)集的過(guò)程包括:

    3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)定的規(guī)則包括:預(yù)先設(shè)定的提取電氣協(xié)議書(shū)中的信息時(shí)輸出的回答的格式。

    4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:李向陽(yáng)侯嘉慧胡杰
    申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)科學(xué)技術(shù)大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 精品无码成人网站久久久久久| 69成人免费视频无码专区| 精品久久久久久无码中文字幕| 亚洲熟妇少妇任你躁在线观看无码| 亚洲精品人成无码中文毛片| 亚洲av无码国产精品色午夜字幕| 久久亚洲精品无码网站| 国产亚洲?V无码?V男人的天堂| 人妻丰满AV无码久久不卡| 亚洲熟妇少妇任你躁在线观看无码| 色综合久久久久无码专区| 中文无码AV一区二区三区 | 国产网红主播无码精品| 免费无码VA一区二区三区| 潮喷大喷水系列无码久久精品 | 成人h动漫精品一区二区无码 | 国产精品午夜无码AV天美传媒| 国产精品无码日韩欧| 亚洲不卡无码av中文字幕| 曰韩无码无遮挡A级毛片| 亚洲av无码日韩av无码网站冲| 无码日韩精品一区二区免费暖暖| 免费无码作爱视频| 久久无码人妻精品一区二区三区| 成人无码Av片在线观看| 亚洲AV无码国产精品永久一区| 亚洲综合无码一区二区三区| 久久亚洲精品无码aⅴ大香| 无码人妻丰满熟妇区五十路百度| 中文字幕乱码人妻无码久久 | 无码精品视频一区二区三区| 国产在线精品无码二区| 国产三级无码内射在线看| 一本大道东京热无码一区| 亚洲中文字幕无码永久在线| 亚洲一区爱区精品无码| 欧洲Av无码放荡人妇网站| 亚洲av永久无码一区二区三区| 亚洲中文无码mv| 国产日产欧洲无码视频| 成在线人免费无码高潮喷水|