System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于自然語言處理,特別是涉及一種用于工業知識圖譜構建的復雜語義關系抽取方法。
技術介紹
1、隨著工業領域信息化智能化的深入推進,知識圖譜技術在工業生產、質量管理、設備維護等領域得到了廣泛應用。工業知識圖譜以結構化的數據表達形式有效地呈現工業領域中實體及其之間的關系,結合實時數據分析和推理,幫助決策者快速識別問題、預測風險、優化流程,有利于為設備故障診斷、供應鏈管理等復雜問題的決策提供重要數據支撐。然而,工業領域數據的復雜性、多樣性以及關系語義表達的豐富性給知識圖譜的構建帶來了巨大的挑戰,尤其是在復雜語義關系抽取方面。
2、傳統的基于規則的關系抽取方法難以適應工業領域文本數據中多樣化和長尾分布的關系;數據驅動的方法對大規模標注數據的需求與工業領域語料稀缺、標注成本高構成矛盾;基于深度學習的方法對工業領域專業術語和上下文噪聲敏感,難以充分利用復雜關系標簽的語義信息。現有方法在小樣本工業領域文本數據中對復雜語義關系的抽取中表現不足,亟需一種更加高效且魯棒的解決方案以支撐工業知識圖譜的構建。
技術實現思路
1、為了克服現有工業知識圖譜構建存在數據標注稀缺、工業實體之間關系語義表達復雜等方面的不足,以及工業領域知識中存在的多樣性關系類型、語義歧義等問題,本專利技術提出一種用于工業知識圖譜構建的復雜語義關系抽取方法,利用動態提示和隱含結構約束獲得工業實體間關系表征,并通過聚類的方式推理工業領域文本數據中實體之間關系類別。
2、本專利技術解決技術問題所采用的技術
3、一種用于工業知識圖譜構建的復雜語義關系抽取方法,所述方法包括以下步驟:
4、步驟1、結合工業文本數據上下文構建動態提示獲得工業實體間關系表征;
5、步驟2、采用對比學習增強關系存儲隊列中關系特征的類內聚合和類間分離;
6、步驟3、動態優化訓練過程,用收斂后的模型推理工業知識圖譜中工業實體間的關系。
7、進一步,所述步驟1中,結合工業文本數據上下文構建動態提示獲得工業實體間關系表征的處理過程包括以下步驟:
8、步驟11、引入工業領域專業詞匯作為實體標注集,分析中設備名稱、故障類型、工藝流程實體類型,構建實體類型集合,利用工業領域知識的強關聯性和時序性特點對集合進行增強;根據工業實體集,利用規則識別給定工業領域文本數據中頭、尾工業實體,構建動態提示,其中、代表已識別工業實體,、為所對應工業實體的偽類型,由集合初始化,為工業實體在工業文本數據上下文中可能存在的復雜語義關系;
9、步驟12、將動態提示與工業領域文本數據合并,為每個batch中樣本數量,然后通過嵌入層逐詞映射為詞向量序列,統一序列長度為,若映射序列長度小于,則末尾補0填充;序列長度大于,則直接截斷末尾的冗余字符,通過編碼器得到輸入序列的編碼表示,在中添加絕對位置編碼,
10、;
11、其中,等于嵌入層的維度;
12、步驟13,選擇隱藏層為的用于工業領域的深度學習模型,選擇第2層到第層的嵌入構建工業實體關系矩陣,
13、,;
14、步驟14、計算工業實體關系矩陣的,
15、;
16、步驟15、計算和工業領域文本數據的上下文表征之間的相似度,
17、;
18、為模型每個特征層預測的工業實體關系表征相較于工業領域文本數據的重要性度量,使用作為上的全局加權求和生成最終工業實體之間的關系表征,
19、。
20、再進一步,所述步驟2中,采用對比學習增強關系存儲隊列中關系特征的類內聚合和類間分離的處理過程包括以下步驟:
21、步驟21、為少量人工標注和無標注的工業領域文本數據集構建實例級對比損失,
22、;
23、其中,通過規則和工業實體標注集識別業實體對、,與模型預測的關系表征構成正樣本對;從當前工業文本數據中選擇兩個不同的任意跨度片段作為偽實體、,其中,對少量人工標注的工業領域文本數據集,選擇真實已標注關系標簽;對無標注工業文本數據集,選擇其所在關系簇的中心表征構成負樣本對;
24、步驟22、基于計算工業實體之間可能存在的關系的概率分布,
25、;
26、其中,是分類權重,為偏置參數;
27、步驟23、計算工業實體在工業數據上下文中關系類別為,
28、;
29、步驟24、為標注工業領域文本數據集構建分類交叉熵損失,
30、;
31、步驟25、為無標注工業文本數據構建關系隊列集合,o表示未標注類別的個數,隊列的大小為,其中b為batch?size。對于偽隊列標簽為的正樣本關系表示,對比集合為;
32、步驟26、計算工業文本數據與各關系隊列的簇中心語義相似度,最小化基于關系隊列語義相似度和基于分類權重參數計算的分類概率之間的交叉熵,
33、;
34、;
35、其中,為溫度系數,之后在每一輪次訓練后,用最大似然估計更新迭代周期中的工業文本數據中工業實體關系所在的隊列標簽,
36、;
37、在每次反向傳播結束后,將添加到。
38、更進一步,所述步驟3中,動態優化訓練過程,用收斂后的模型推理工業知識圖譜中工業實體間的關系的處理過程包括以下步驟:
39、步驟31、在相鄰訓練輪次中,記錄工業文本數據中工業實體關系預測類別變化次數為樣本分配權重,協同優化實例級對比損失,
40、;
41、;
42、其中為第輪預測的工業實體在給定工業領域文本數據中的關系,為在第輪中調節參數;
43、步驟32、計算總體損失,
44、;
45、其中,為超參數;
46、步驟33、小于指定的最小損失值或達到最大訓練輪數則終止訓練,將作為工業領域文本中工業實體關系的最終結果,否則重復步驟13至32。
47、本專利技術的技術構思為:用提示學習融合設備、生產流程和質量控制等工業領域標注集的知識特征;用對比損失減輕工業文本數據中噪聲的干擾;為無標注工業文本實例構建關系存儲庫,協同優化標注集進行動態聚類,提升工業域關系抽取的質量,為高質量工業知識圖譜的構建提供可靠數據支撐。
48、本專利技術的有益效果為:能夠處理工業文本數據中實體間多層次、多維度的關聯信息,克服了傳統方法在低資源環境下處理復雜領域數據的局限性,提升了工業知識圖譜構建的準確性和效率。
本文檔來自技高網...【技術保護點】
1.一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述方法包括以下步驟:
2.如權利要求1所述的一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述步驟1中,結合工業文本數據上下文構建動態提示獲得工業實體間關系表征的處理過程包括以下步驟:
3.如權利要求2所述的一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述步驟2中,采用對比學習增強關系存儲隊列中關系特征的類內聚合和類間分離的處理過程包括以下步驟:
4.如權利要求3所述的一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述步驟3中,動態優化訓練過程,用收斂后的模型推理工業知識圖譜中工業實體間的關系的處理過程包括以下步驟:
【技術特征摘要】
1.一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述方法包括以下步驟:
2.如權利要求1所述的一種用于工業知識圖譜構建的復雜語義關系抽取方法,其特征在于,所述步驟1中,結合工業文本數據上下文構建動態提示獲得工業實體間關系表征的處理過程包括以下步驟:
3.如權利要求2所述的一種用于工業知識圖譜構...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。