System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及語義識別,具體涉及一種基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法。
技術(shù)介紹
1、在全球化經(jīng)濟(jì)環(huán)境下,會計(jì)信息的跨語言交流和理解變得日益重要。會計(jì)術(shù)語作為財(cái)務(wù)報(bào)告和經(jīng)濟(jì)活動(dòng)描述的核心元素,其準(zhǔn)確識別對于國際商務(wù)、跨境投資和財(cái)務(wù)分析至關(guān)重要。然而,會計(jì)術(shù)語往往具有專業(yè)性強(qiáng)、含義精確的特點(diǎn),在不同語言中可能存在細(xì)微的差異,這給自動(dòng)識別帶來了巨大挑戰(zhàn)。僅僅依靠單詞本身的特征往往不足以準(zhǔn)確識別會計(jì)術(shù)語,特別是在處理多義詞或者上下文敏感的術(shù)語時(shí)。在會計(jì)語境中,一個(gè)詞是否構(gòu)成專業(yè)術(shù)語往往取決于其周圍的詞語。現(xiàn)有的機(jī)器學(xué)習(xí)方法雖然考慮了文本的整體語義,但其考慮范圍往往過于冗長,導(dǎo)致語義識別精度低。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的上述不足,本專利技術(shù)提供的一種基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法解決了現(xiàn)有技術(shù)存在語義識別精度低的問題。
2、為了達(dá)到上述專利技術(shù)目的,本專利技術(shù)采用的技術(shù)方案為:一種基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,包括以下步驟:
3、s1、讀入待分析的多語言會計(jì)文本,以每個(gè)詞為中心構(gòu)建三個(gè)詞組集合,其中,三個(gè)詞組集合具體包括:左鄰域的詞組集合、右鄰域的詞組集合和全鄰域的詞組集合;
4、s2、對各種詞性分配權(quán)重系數(shù);
5、s3、對每個(gè)詞組集合編碼處理,得到詞組向量,基于詞性的權(quán)重系數(shù),構(gòu)建詞重要性向量;
6、s4、采用語義提取單元對詞組向量提取語義特征,并采用對應(yīng)的詞重要性向量對語義特征進(jìn)行施加權(quán)
7、s5、將左鄰域特征向量、右鄰域特征向量和全鄰域特征向量進(jìn)行兩兩匹配,采用多路徑評分單元對匹配后的向量進(jìn)行預(yù)測,得到以該詞為中心時(shí),該詞的會計(jì)術(shù)語評分;
8、s6、根據(jù)每個(gè)詞的會計(jì)術(shù)語評分,輸出會計(jì)術(shù)語。
9、進(jìn)一步地,s1具體為:
10、s11、讀入待分析的多語言會計(jì)文本,以每個(gè)詞為中心;
11、s12、將中心處詞以及左側(cè)鄰域詞,構(gòu)成左鄰域的詞組集合;
12、s13、將中心處詞以及右側(cè)鄰域詞,構(gòu)成右鄰域的詞組集合;
13、s14、將中心處詞以及左右側(cè)鄰域詞,構(gòu)成全鄰域的詞組集合,其中,左鄰域的詞組集合、右鄰域的詞組集合和全鄰域的詞組集合中包含的詞數(shù)量相同。
14、進(jìn)一步地,s3包括以下分步驟:
15、s31、對每個(gè)詞組集合編碼處理,得到詞組向量,其中,詞組向量由多個(gè)詞的詞編碼子向量構(gòu)成;
16、s32、對每個(gè)詞編碼子向量構(gòu)建一個(gè)與該詞編碼子向量長度相同的詞性子向量,其中,詞性子向量中每個(gè)元素填充為該詞的詞性的權(quán)重系數(shù);
17、s33、將一個(gè)詞組向量對應(yīng)的詞性子向量拼接為詞重要性向量。
18、進(jìn)一步地,s4中語義提取單元包括:左鄰域詞組語義提取單元、右鄰域詞組語義提取單元和全鄰域詞組語義提取單元;采用左鄰域詞組語義提取單元對左鄰域的詞組向量提取語義特征,并采用左鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到左鄰域特征向量;采用右鄰域詞組語義提取單元對右鄰域的詞組向量提取語義特征,并采用右鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到右鄰域特征向量;采用全鄰域詞組語義提取單元對全鄰域的詞組向量提取語義特征,并采用全鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到全鄰域特征向量。
19、進(jìn)一步地,左鄰域詞組語義提取單元、右鄰域詞組語義提取單元和全鄰域詞組語義提取單元均包括:多個(gè)lstm層、concat層、權(quán)重施加層和bilstm層;
20、每個(gè)lstm層中每個(gè)cell單元處理一個(gè)詞編碼子向量中一個(gè)編碼值,每個(gè)lstm層的輸入端用于輸入一個(gè)詞編碼子向量,多個(gè)lstm層輸入的詞編碼子向量構(gòu)成一個(gè)詞組向量;concat層的輸入端分別與多個(gè)lstm層的輸出端連接,其輸出端與權(quán)重施加層的輸入端連接;bilstm層的輸入端與權(quán)重施加層的輸出端連接,其輸出端作為左鄰域詞組語義提取單元、右鄰域詞組語義提取單元或全鄰域詞組語義提取單元的輸出端。
21、進(jìn)一步地,權(quán)重施加層的表達(dá)式為:,其中,rw為權(quán)重施加層的輸出序列,r為concat層的輸出序列,w為詞重要性向量,為按元素相乘。
22、進(jìn)一步地,s5中將左鄰域特征向量、右鄰域特征向量和全鄰域特征向量進(jìn)行兩兩匹配具體為:將左鄰域特征向量與全鄰域特征向量進(jìn)行匹配,得到第一匹配向量;將左鄰域特征向量與右鄰域特征向量進(jìn)行匹配,得到第二匹配向量,將全鄰域特征向量與右鄰域特征向量進(jìn)行匹配,得到第三匹配向量;
23、s5中多路徑評分單元包括:第一sigmoid層、第二sigmoid層、第三sigmoid層和輸出層;
24、第一sigmoid層的輸入端用于輸入處理第一匹配向量;第二sigmoid層的輸入端用于輸入處理第二匹配向量;第三sigmoid層的輸入端用于輸入處理第三匹配向量;輸出層的輸入端分別與第一sigmoid層的輸出端、第二sigmoid層的輸出端和第三sigmoid層的輸出端連接,其輸出端作為多路徑評分單元的輸出端。
25、進(jìn)一步地,第一sigmoid層的表達(dá)式為:,第二sigmoid層的表達(dá)式為:,第三sigmoid層的表達(dá)式為:,其中,h1為第一sigmoid層的輸出,x1,n為第一匹配向量中第n個(gè)元素,ω1,n為x1,n的權(quán)重,b1,n為x1,n的偏置,h2為第二sigmoid層的輸出,x2,n為第二匹配向量中第n個(gè)元素,ω2,n為x2,n的權(quán)重,b2,n為x2,n的偏置,h3為第三sigmoid層的輸出,x3,n為第三匹配向量中第n個(gè)元素,ω3,n為x3,n的權(quán)重,b3,n為x3,n的偏置,e為自然常數(shù),n為匹配向量的長度,n為元素的編號;
26、輸出層的表達(dá)式為:,其中,y為輸出層輸出的中心處詞的會計(jì)術(shù)語評分。
27、進(jìn)一步地,s6包括以下分步驟:
28、s61、對待分析的多語言會計(jì)文本中每個(gè)詞進(jìn)行遍歷,標(biāo)注出會計(jì)術(shù)語評分高于閾值的詞,得到候選詞;
29、s62、對當(dāng)前候選詞的左側(cè)鄰域進(jìn)行搜索,得到左側(cè)潛在詞集合;
30、s63、對當(dāng)前候選詞的右側(cè)鄰域進(jìn)行搜索,得到右側(cè)潛在詞集合;
31、s64、將左側(cè)潛在詞集合、當(dāng)前候選詞、右側(cè)潛在詞集合進(jìn)行拼接,得到拼接集合,在拼接集合中詞的數(shù)量大于等于2時(shí),該拼接集合為有效集合;
32、s65、從有效集合提取詞性相同的連續(xù)詞序列,得到一個(gè)會計(jì)術(shù)語。
33、進(jìn)一步地,s62包括以下分步驟:
34、s621、設(shè)置迭代參數(shù)m,m為正整數(shù),m的初始值為1;
35、s622、判斷當(dāng)前候選詞左側(cè)鄰域第m個(gè)位置處是否存在候選詞,若是,進(jìn)入步驟s623,若否,則左側(cè)鄰域遍歷結(jié)束,進(jìn)入步驟s624;
36、s623、將第m個(gè)位置處候選詞標(biāo)記為左側(cè)潛在詞,m的值本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S1具體為:
3.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S3包括以下分步驟:
4.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S4中語義提取單元包括:左鄰域詞組語義提取單元、右鄰域詞組語義提取單元和全鄰域詞組語義提取單元;采用左鄰域詞組語義提取單元對左鄰域的詞組向量提取語義特征,并采用左鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到左鄰域特征向量;采用右鄰域詞組語義提取單元對右鄰域的詞組向量提取語義特征,并采用右鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到右鄰域特征向量;采用全鄰域詞組語義提取單元對全鄰域的詞組向量提取語義特征,并采用全鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到全鄰域特征向量。
5.根據(jù)權(quán)利要求4所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述左鄰域詞組
6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述權(quán)重施加層的表達(dá)式為:,其中,Rw為權(quán)重施加層的輸出序列,R為Concat層的輸出序列,W為詞重要性向量,為按元素相乘。
7.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S5中將左鄰域特征向量、右鄰域特征向量和全鄰域特征向量進(jìn)行兩兩匹配具體為:將左鄰域特征向量與全鄰域特征向量進(jìn)行匹配,得到第一匹配向量;將左鄰域特征向量與右鄰域特征向量進(jìn)行匹配,得到第二匹配向量,將全鄰域特征向量與右鄰域特征向量進(jìn)行匹配,得到第三匹配向量;
8.根據(jù)權(quán)利要求7所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述第一Sigmoid層的表達(dá)式為:,所述第二Sigmoid層的表達(dá)式為:,所述第三Sigmoid層的表達(dá)式為:,其中,h1為第一Sigmoid層的輸出,x1,n為第一匹配向量中第n個(gè)元素,ω1,n為x1,n的權(quán)重,b1,n為x1,n的偏置,h2為第二Sigmoid層的輸出,x2,n為第二匹配向量中第n個(gè)元素,ω2,n為x2,n的權(quán)重,b2,n為x2,n的偏置,h3為第三Sigmoid層的輸出,x3,n為第三匹配向量中第n個(gè)元素,ω3,n為x3,n的權(quán)重,b3,n為x3,n的偏置,e為自然常數(shù),N為匹配向量的長度,n為元素的編號;
9.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S6包括以下分步驟:
10.根據(jù)權(quán)利要求9所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述S62包括以下分步驟:
...【技術(shù)特征摘要】
1.一種基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述s1具體為:
3.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述s3包括以下分步驟:
4.根據(jù)權(quán)利要求1所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述s4中語義提取單元包括:左鄰域詞組語義提取單元、右鄰域詞組語義提取單元和全鄰域詞組語義提取單元;采用左鄰域詞組語義提取單元對左鄰域的詞組向量提取語義特征,并采用左鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到左鄰域特征向量;采用右鄰域詞組語義提取單元對右鄰域的詞組向量提取語義特征,并采用右鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到右鄰域特征向量;采用全鄰域詞組語義提取單元對全鄰域的詞組向量提取語義特征,并采用全鄰域的詞重要性向量對語義特征進(jìn)行施加權(quán)重系數(shù),得到全鄰域特征向量。
5.根據(jù)權(quán)利要求4所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述左鄰域詞組語義提取單元、右鄰域詞組語義提取單元和全鄰域詞組語義提取單元均包括:多個(gè)lstm層、concat層、權(quán)重施加層和bilstm層;
6.根據(jù)權(quán)利要求5所述的基于神經(jīng)網(wǎng)絡(luò)的多語言會計(jì)術(shù)語自動(dòng)識別方法,其特征在于,所述權(quán)重施加層的表達(dá)式為:,其中,rw為權(quán)重施加層的輸出序列,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:彭棋,李夢曉,
申請(專利權(quán))人:成都理工大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。