System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于文檔分析,具體涉及一種需求文檔的關(guān)鍵信息提取方法及系統(tǒng)。
技術(shù)介紹
1、在制造業(yè)信息化進(jìn)程中,需求分析作為關(guān)鍵環(huán)節(jié)直接影響著后續(xù)系統(tǒng)開發(fā)的質(zhì)量和效率。然而,傳統(tǒng)的需求分析方法主要依賴人工閱讀和解釋文檔,這不僅耗時耗力,還容易受到個人主觀判斷的影響,可能導(dǎo)致關(guān)鍵信息的遺漏或誤解。隨著自然語言處理技術(shù)的迅速發(fā)展,特別是注意力機(jī)制的引入,為解決這一問題提供了新的可能。這些先進(jìn)的技術(shù)大大提高了模型捕捉長距離依賴和關(guān)鍵信息的能力。
2、然而,制造業(yè)需求文檔通常包含大量專業(yè)術(shù)語和行業(yè)特定知識,這就要求信息提取方法不僅要具備一般的語言理解能力,還需要融入制造業(yè)領(lǐng)域知識。因此,開發(fā)一種能夠自動識別和提取制造業(yè)需求文檔中關(guān)鍵信息的方法,既能提高效率,又能保證準(zhǔn)確性,對于提升整個制造業(yè)的競爭力具有重要意義。這種方法的開發(fā)將結(jié)合最新的自然語言處理技術(shù)和制造業(yè)特定領(lǐng)域知識,為需求分析人員提供強(qiáng)有力的輔助,從而推動制造業(yè)向更高效、更精準(zhǔn)的方向發(fā)展。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本專利技術(shù)提供了一種需求文檔的關(guān)鍵信息提取方法及系統(tǒng),以解決現(xiàn)有當(dāng)前需求分析過程中效率低下、準(zhǔn)確性不足以及缺乏智能輔助的問題的問題。
2、本專利技術(shù)采用的技術(shù)方案如下:
3、一種需求文檔的關(guān)鍵信息提取方法,包括:
4、步驟1:對需求文檔進(jìn)行預(yù)處理,將不同格式的需求文檔轉(zhuǎn)換為可解析的文本格式;
5、首先清理文檔中的無用信息,如多余的空白符、頁眉頁腳、腳注等,并規(guī)范
6、步驟2:識別預(yù)處理后的需求文檔中的關(guān)鍵實(shí)體和實(shí)體之間的關(guān)系,將識別出的關(guān)鍵實(shí)體、實(shí)體和關(guān)系組成三元組(實(shí)體1,關(guān)系,實(shí)體2),來表示實(shí)體1到實(shí)體2存在關(guān)系連接,其中,所述實(shí)體1表示關(guān)鍵實(shí)體,實(shí)體2表示實(shí)體;
7、利用命名實(shí)體識別(ner)識別出文本中的關(guān)鍵實(shí)體和實(shí)體之間的關(guān)系,如設(shè)備管理、安全管理、生產(chǎn)作業(yè)、員工以及員工和設(shè)備管理之間的關(guān)系,設(shè)備管理和安全管理之間的關(guān)系等,如圖1所示。
8、步驟3:學(xué)習(xí)步驟2識別的三元組,并基于消息函數(shù)生成實(shí)體1的新嵌入的多個三元組;
9、所述步驟3具體包括:
10、通過詞向量技術(shù)將實(shí)體和關(guān)系分別映射為關(guān)鍵實(shí)體向量、實(shí)體向量及關(guān)系向量并進(jìn)行串聯(lián),通過線性變換構(gòu)造對應(yīng)的消息函數(shù)m(i,r,j),如下式所示:
11、m(i,r,j)=w[ei][er][ej]=wei+w(ei.er)?(1)
12、式中,向量ei、ej和er分別表示實(shí)體i、j和關(guān)系r的嵌入,w表示線性變換矩陣。
13、如圖2所示,本方法利用消息函數(shù)來表示如何從相鄰節(jié)點(diǎn)和邊學(xué)習(xí)信息。為了獲得實(shí)體ei的新嵌入,學(xué)習(xí)了與ei相關(guān)的每個三元組的表示,學(xué)習(xí)整個圖譜來生成消息。受crosse模型的啟發(fā),本方法通過對實(shí)體和關(guān)系特征向量的串聯(lián)進(jìn)行線性變換來學(xué)習(xí)這些嵌入,得到特征向量對應(yīng)于一個特定的消息函數(shù)m(i,r,j)。
14、步驟4:應(yīng)用注意力機(jī)制計算新嵌入的每個三元組的絕對關(guān)注值和相對關(guān)注值;
15、所述步驟4具體包括以下步驟:
16、步驟4.1:基于激活函數(shù)獲取三元組的絕對關(guān)注值birj,如下式所示:
17、birj=leakyyrelu(wattm(i,r,j))?(2)
18、式中,birj表示絕對關(guān)注值,watt表示一個由權(quán)重矩陣參數(shù)化的線性變換,leakyrelu表示激活函數(shù):
19、步驟4.2:基于softmax函數(shù)獲取相對關(guān)注值αirj,如下式所示:
20、αirj=softmax(birj)?(3)。
21、步驟5:對新嵌入的每個三元組的相對關(guān)注值進(jìn)行加權(quán)平均,得到實(shí)體1的最終新嵌入。
22、所述步驟5通過下式實(shí)現(xiàn):
23、
24、其中,表示實(shí)體ei的鄰域,表示實(shí)體ei和ej之間的關(guān)系集,h表示注意力層的層數(shù)。
25、所述步驟5中,通過余弦相似度度量法來表示ei通過關(guān)系er連接后與ej的近鄰程度,如下式所示:
26、
27、式中,s表示更新后得到的有效三元組集合。
28、一種需求文檔的關(guān)鍵信息提取系統(tǒng),包括:
29、預(yù)處理模塊:對需求文檔進(jìn)行預(yù)處理,將不同格式的需求文檔轉(zhuǎn)換為可解析的文本格式;
30、識別模塊:識別預(yù)處理后的需求文檔中的關(guān)鍵實(shí)體和實(shí)體之間的關(guān)系,將識別出的關(guān)鍵實(shí)體、實(shí)體和關(guān)系組成三元組(實(shí)體1,關(guān)系,實(shí)體2),來表示實(shí)體1到實(shí)體2存在關(guān)系連接,其中,所述實(shí)體1表示關(guān)鍵實(shí)體,實(shí)體2表示實(shí)體;
31、新嵌入模塊:學(xué)習(xí)識別模塊中識別的三元組,并基于消息函數(shù)生成實(shí)體的新嵌入的多個三元組;
32、計算模塊:應(yīng)用注意力機(jī)制計算新嵌入的每個三元組的相對關(guān)注值;
33、加權(quán)平均模塊:對新嵌入的每個三元組的相對關(guān)注值進(jìn)行加權(quán)平均,得到實(shí)體1的最終新嵌入。
34、綜上所述,由于采用了上述技術(shù)方案,本專利技術(shù)的有益效果是:
35、1.本專利技術(shù)中,通過將制造業(yè)需求文檔轉(zhuǎn)化為知識圖譜并進(jìn)一步轉(zhuǎn)換為三元組嵌入,有效地融合了文本和結(jié)構(gòu)化數(shù)據(jù),提高了信息提取的全面性和準(zhǔn)確性;
36、2.本專利技術(shù)中,通過計算實(shí)體和關(guān)系之間的交互關(guān)系,更有利于挖掘出可靠的實(shí)體關(guān)系鏈接路徑;
37、3.本專利技術(shù)中,通過多頭注意力層實(shí)現(xiàn)了對關(guān)鍵信息的自適應(yīng)提取,使模型能夠共同關(guān)注來自不同關(guān)系參數(shù)子空間的信息。同時使用簡化的余弦相似度損失函數(shù)減小計算維度。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種需求文檔的關(guān)鍵信息提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟3具體包括:
3.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟4具體包括以下步驟:
4.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟5通過下式實(shí)現(xiàn):
5.根據(jù)權(quán)利要求4所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟5中,通過余弦相似度度量法來表示ei通過關(guān)系er連接后與ej的近鄰程度,如下式所示:
6.一種需求文檔的關(guān)鍵信息提取系統(tǒng),其特征在于,用以實(shí)現(xiàn)權(quán)利要求1-5所述的一種需求文檔的關(guān)鍵信息提取方法,包括:
【技術(shù)特征摘要】
1.一種需求文檔的關(guān)鍵信息提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟3具體包括:
3.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其特征在于,所述步驟4具體包括以下步驟:
4.根據(jù)權(quán)利要求1所述的一種需求文檔的關(guān)鍵信息提取方法,其...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:袁理,陳圩欽,鄧媛丹,陳波,
申請(專利權(quán))人:宜賓電子科技大學(xué)研究院,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。