System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于語義糾錯,尤其涉及一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法及系統(tǒng)。
技術(shù)介紹
1、傳統(tǒng)基于神經(jīng)網(wǎng)絡(luò)的語言模型語義糾錯方法容易受局部高頻或低頻的序列影響,效果不夠穩(wěn)定;在需要對準(zhǔn)確率和召回率進行平衡調(diào)整時,不太好通過閾值的方式進行控制;可以較好應(yīng)用在拼寫檢查的任務(wù)上,但是對于句子長度有變化的語法糾錯任務(wù)支持就比較弱。
2、基于大模型的語義糾錯方法中,大模型對于拼寫糾錯存在能力不足,容易遺漏以及錯改,此外對于有些語法錯誤能夠檢測到但是修改不正確。
3、基于知識圖譜的語義糾錯方法中,知識圖譜構(gòu)建人工成本較高,節(jié)點和邊的值沒有業(yè)界統(tǒng)一標(biāo)準(zhǔn),完全是由用戶自己定義。同時因為統(tǒng)一標(biāo)準(zhǔn)的缺乏,多源數(shù)據(jù)融合比較困難。此外,知識圖譜在區(qū)分概念節(jié)點和對象節(jié)點方面存在困難,并且無法統(tǒng)一定義節(jié)點和邊的標(biāo)簽。
技術(shù)實現(xiàn)思路
1、(一)專利技術(shù)目的
2、為了克服以上不足,本專利技術(shù)的目的在于提供一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法及系統(tǒng),以解決上述技術(shù)問題。
3、(二)技術(shù)方案
4、為實現(xiàn)上述目的,本申請?zhí)峁┑募夹g(shù)方案如下:
5、一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,包括以下步驟:
6、s1:將原文本使用切分函數(shù)進行切分,防止文本輸入過長導(dǎo)致超過大模型token數(shù)限制、或防止過長文本導(dǎo)致大模型抽取三元組準(zhǔn)確率降低;
7、s2:對切分后的每段文本,用大模型進行三元組信
8、s3:抽取出所有的實體對和關(guān)系的數(shù)據(jù)組中,對于相同的實體對,不同文本內(nèi)容對應(yīng)的實體關(guān)系可能相同也可能不同,相同的實體關(guān)系進行印證,置信度相應(yīng)增加;不同的實體關(guān)系進行印證,置信度相應(yīng)減小,<實體i,關(guān)系k,實體j>的置信度評分計算方式為:
9、score<實體i,關(guān)系k,實體j>=∑關(guān)系l=關(guān)系kα·1{<實體i,關(guān)系1,實體j>}+∑關(guān)系l≈關(guān)系kβ·1{<實體i,關(guān)系1,實體j>}+∑關(guān)系l≠關(guān)系kγ·1{<實體i,關(guān)系1,實體j>},
10、其中α為相同實體關(guān)系對應(yīng)的評分系數(shù),β為實體關(guān)系相近對應(yīng)的評分系數(shù),γ為實體關(guān)系不一致的對應(yīng)評分系數(shù);
11、s4:對所有的三元組進行聚合,構(gòu)建事理圖譜,指出事理圖譜中置信度較小的矛盾關(guān)系;
12、s5:針對找出的矛盾關(guān)系,結(jié)合大模型進行文本中語義沖突修復(fù)。
13、優(yōu)選的,所述切分函數(shù)包括以下的切分方法:
14、基于句子,將文本按照句子邊界進行切分,每個句子成為一個切分后的文本片段;
15、基于段落,按照段落邊界進行切分,每個段落作為一個文本片段;
16、基于長度,設(shè)定一個最大長度限制,當(dāng)文本超過這個長度時,進行切分,直到每個片段都不超過這個長度;
17、基于語義,使用句法分析或語義分割,來識別文本中的自然斷點,然后進行切分。
18、優(yōu)選的,s2中大模型對實體對和關(guān)系的數(shù)據(jù)組抽取時,首先將輸入文本轉(zhuǎn)換為模型能夠理解的格式,通常包括分詞和添加特殊標(biāo)記,其次模型會逐個處理文本中的token,預(yù)測每個token是否是命名實體的一部分,以及實體的類型,最后在識別出實體之后,模型會進一步識別這些實體至今的關(guān)系,包括以下方式:
19、使用依賴句法分析來確定實體之間的句法關(guān)系;
20、使用跨度分類來識別兩個實體之間的關(guān)系;
21、使用圖神經(jīng)網(wǎng)絡(luò)或其他模型來分析文本中實體的全局關(guān)系。
22、優(yōu)選的,s4中的具體步驟包括:
23、步驟1:初始化一個空圖譜,其中包含實體節(jié)點和關(guān)系邊,將每個三元組作為一個邊添加到圖譜中,邊的權(quán)重為該三元組的置信度評分;
24、步驟2:確保圖譜中的所有實體都是標(biāo)準(zhǔn)化的,即不同名稱但指代同一實體的實例被合并為單一節(jié)點;
25、步驟3:若同一實體對有多個關(guān)系,通過取平均值、最大值或根據(jù)其他邏輯來實現(xiàn)聚合這些關(guān)系的置信度評分;
26、步驟4:遍歷圖譜中的所有邊,尋找矛盾或不一致的關(guān)系;
27、步驟5:設(shè)置一個置信度閾值,只有高于這個閾值的關(guān)系才會被認(rèn)為是可靠的,低于閾值的關(guān)系需要進一步的審查或被標(biāo)記為潛在的矛盾;
28、步驟6:使用可視化工具將事理圖譜展示出來,以便于分析和理解實體間的關(guān)系;
29、步驟7:用戶可對生成的事理圖譜進行修改和編輯,增強用戶參與感和互動性,用戶可基于展示的圖譜邏輯信息和結(jié)果評估答案質(zhì)量。
30、優(yōu)選的,s5中的具體步驟包括:
31、a1分析事理圖譜,從構(gòu)建的事理圖譜中識別出置信度較低或邏輯上存在矛盾的關(guān)系;
32、a2提取相關(guān)上下文,圍繞矛盾關(guān)系的實體,從原始文本中提取相關(guān)的上下文信息,包括句子、段落或整個文檔;
33、a3使用大模型進行深入分析,理解實體之間的關(guān)系及其在文本中的作用;
34、a4生成候選解決方案,基于大模型的理解,生成可能的解決方案或關(guān)系修正建議,包括改變實體的類型、調(diào)整關(guān)系描述或提出新的解釋;
35、a5評估解決方案,對每個候選解決方案使用大模型進行評估,預(yù)測其置信度;
36、a6人工審核與選擇,對于置信度不高的解決方案,需要人工審核,并選擇最終的解決方案;
37、a7更新事理圖譜,將選定的解決方案應(yīng)用到事理圖譜中,更新或刪除矛盾關(guān)系,確保圖譜的一致性和準(zhǔn)確性。
38、一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測系統(tǒng),包括:
39、文本處理模塊,負(fù)責(zé)接收和預(yù)處理輸入的文本數(shù)據(jù),包括分詞、去除停用詞、詞性標(biāo)注;
40、文本切分模塊,根據(jù)句子、段落、長度或語義進行文本切分,生成適合模型處理的文本片段;
41、實體和關(guān)系抽取模塊,使用大模型對切分后的文本片段進行處理,抽取實體和它們之間的關(guān)系,生成三元組數(shù)據(jù);
42、置信度評分模塊,根據(jù)抽取的三元組數(shù)據(jù),計算每個實體對關(guān)系的置信度評分;
43、事理圖譜構(gòu)建模塊,將抽取的三元組聚合,構(gòu)建表示實體和關(guān)系的事理圖譜,并進行實體標(biāo)準(zhǔn)化和關(guān)系聚合;
44、矛盾關(guān)系識別與可視化模塊,在事理圖譜中識別置信度較低或邏輯上存在矛盾的關(guān)系,并通過可視化工具展示圖譜;
45、沖突修復(fù)模塊,針對識別出的矛盾關(guān)系,使用大模型進行深入分析,生成并評估候選解決方案,包括人工審核過程;
46、用戶交互模塊,提供用戶界面,允許用戶對圖本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,所述切分函數(shù)包括以下的切分方法:
3.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,S2中大模型對實體對和關(guān)系的數(shù)據(jù)組抽取時,首先將輸入文本轉(zhuǎn)換為模型能夠理解的格式,通常包括分詞和添加特殊標(biāo)記,其次模型會逐個處理文本中的token,預(yù)測每個token是否是命名實體的一部分,以及實體的類型,最后在識別出實體之后,模型會進一步識別這些實體至今的關(guān)系,包括以下方式:
4.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,S4中的具體步驟包括:
5.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,S5中的具體步驟包括:
6.一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測系統(tǒng),其特征在于,包括:
【技術(shù)特征摘要】
1.一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,所述切分函數(shù)包括以下的切分方法:
3.根據(jù)權(quán)利要求1所述的一種基于大模型構(gòu)建上下文關(guān)聯(lián)的文本語義沖突檢測方法,其特征在于,s2中大模型對實體對和關(guān)系的數(shù)據(jù)組抽取時,首先將輸入文本轉(zhuǎn)換為模型能夠理解的格式,通常包括分詞和添加特殊標(biāo)記,其次模型會逐個處理文本中的token,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:徐加利,姜進成,朱東方,侯雙雙,曹懷軒,崔希國,范作鵬,張洪磊,高楨,郭訓(xùn),
申請(專利權(quán))人:山東能源集團有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。