System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及文本分析,特別涉及一種實(shí)體識(shí)別方法及相關(guān)設(shè)備。
技術(shù)介紹
1、現(xiàn)有技術(shù)在處理海量、異構(gòu)且實(shí)時(shí)更新的社交媒體文本數(shù)據(jù)時(shí)面臨挑戰(zhàn)。傳統(tǒng)的內(nèi)容分析方法往往依賴關(guān)鍵詞匹配和簡(jiǎn)單情感分析,無(wú)法深入理解文本的語(yǔ)義和上下文,導(dǎo)致對(duì)公眾情緒和討論趨勢(shì)的把握不夠準(zhǔn)確和全面。
2、此外,社交媒體文本的多樣性和復(fù)雜性要求分析工具不僅要能夠識(shí)別和理解文本中的實(shí)體,還要能夠捕捉到實(shí)體之間的關(guān)系以及整體語(yǔ)境中的情緒傾向。例如,在分析用戶對(duì)某一產(chǎn)品或事件的反饋時(shí),現(xiàn)有系統(tǒng)可能無(wú)法準(zhǔn)確識(shí)別用戶的諷刺或雙關(guān)語(yǔ),導(dǎo)致情緒分析出現(xiàn)偏差。由此可見,現(xiàn)有的實(shí)體識(shí)別方法存在實(shí)體識(shí)別的準(zhǔn)確性低的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N實(shí)體識(shí)別方法及相關(guān)設(shè)備,可以解決實(shí)體識(shí)別的準(zhǔn)確性低的問(wèn)題。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種實(shí)體識(shí)別方法,該實(shí)體識(shí)別方法包括:
3、獲取包括多個(gè)單詞的目標(biāo)文本,并生成每個(gè)單詞的詞性嵌入向量和位置嵌入向量;詞性嵌入向量用于描述單詞的詞性,位置嵌入向量用于描述單詞在目標(biāo)文本中的位置;
4、利用詞向量提取模型提取每個(gè)單詞的詞向量;詞向量用于描述單詞的語(yǔ)義和語(yǔ)法信息;
5、分別針對(duì)每個(gè)單詞,將單詞的詞性嵌入向量、位置嵌入向量和詞向量拼接,得到單詞的嵌入特征;
6、利用雙層雙向網(wǎng)絡(luò),基于所有嵌入特征生成目標(biāo)文本的全局特征;雙層雙向網(wǎng)絡(luò)包括用于提取每個(gè)單詞的前向特征的前向雙層模型和用于提取每個(gè)單詞的后向特征的后向雙層模型,
7、根據(jù)所有詞向量獲取目標(biāo)文本的局部特征;
8、將目標(biāo)文本的全局特征和局部特征進(jìn)行融合,得到融合特征,并對(duì)融合特征進(jìn)行識(shí)別,得到目標(biāo)文本的實(shí)體識(shí)別結(jié)果;實(shí)體識(shí)別結(jié)果用于描述目標(biāo)文本中實(shí)體的類別。
9、可選的,將單詞的詞性嵌入向量、位置嵌入向量和詞向量拼接,得到單詞的嵌入特征,包括:
10、通過(guò)公式:
11、
12、獲取第個(gè)單詞的嵌入特征;
13、其中,表示第個(gè)單詞的詞性嵌入向量,表示第個(gè)單詞的位置嵌入向量,表示第個(gè)單詞的詞向量,,表示單詞的數(shù)量。
14、可選的,利用雙層雙向網(wǎng)絡(luò),基于所有嵌入特征生成目標(biāo)文本的全局特征,包括:
15、利用雙層雙向網(wǎng)絡(luò)對(duì)所有嵌入特征進(jìn)行處理,得到每個(gè)單詞的前向特征和反向特征,將每個(gè)單詞的前向特征和反向特征進(jìn)行拼接,得到每個(gè)單詞的最終特征;
16、基于所有最終特征計(jì)算目標(biāo)文本的全局特征。
17、可選的,基于所有最終特征計(jì)算目標(biāo)文本的全局特征,包括:
18、通過(guò)公式:
19、
20、計(jì)算目標(biāo)文本的全局特征;
21、其中,表示第個(gè)權(quán)重,表示第個(gè)單詞的最終特征:
22、
23、
24、其中,表示第個(gè)注意力權(quán)重向量,表示權(quán)重矩陣,表示偏置項(xiàng),、均為激活函數(shù),,表示單詞的數(shù)量。
25、可選的,前向雙層模型的輸入端和后向雙層模型的輸入端均為雙層雙向網(wǎng)絡(luò)的輸入端,前向雙層模型的輸出端和后向雙層模型的輸出端均為雙層雙向網(wǎng)絡(luò)的輸出端;
26、前向雙層模型包括第一前向?qū)雍偷诙跋驅(qū)樱?/p>
27、第一前向?qū)影ǘ鄠€(gè)依次連接的第一前向神經(jīng)單元,第二前向?qū)影ǘ鄠€(gè)依次連接的第二前向神經(jīng)單元,多個(gè)第一前向神經(jīng)單元與多個(gè)第二前向神經(jīng)單元一一對(duì)應(yīng),每個(gè)第一前向神經(jīng)單元的輸出端與對(duì)應(yīng)的第二前向神經(jīng)單元的輸入端相連接,所有第一前向神經(jīng)單元的輸入端均為第一前向?qū)拥妮斎攵耍械诙跋蛏窠?jīng)單元的輸出端均為第一前向?qū)拥妮敵龆耍?/p>
28、后向雙層模型包括第一后向?qū)雍偷诙笙驅(qū)樱?/p>
29、第一后向?qū)影ǘ鄠€(gè)依次連接的第一后向神經(jīng)單元,第二后向?qū)影ǘ鄠€(gè)依次連接的第二后向神經(jīng)單元,多個(gè)第一后向神經(jīng)單元與多個(gè)第二后向神經(jīng)單元一一對(duì)應(yīng),每個(gè)第一后向神經(jīng)單元的輸出端與對(duì)應(yīng)的第二后向神經(jīng)單元的輸入端相連接,所有第一后向神經(jīng)單元的輸入端均為第一后向?qū)拥妮斎攵耍械诙笙蛏窠?jīng)單元的輸出端均為第一后向?qū)拥妮敵龆耍?/p>
30、第一前向神經(jīng)單元、第二前向神經(jīng)單元、第一后向神經(jīng)單元、第二后向神經(jīng)單元均為一門控神經(jīng)單元;
31、門控神經(jīng)單元包括依次相連的高斯濾波控制子單元和門控循環(huán)子單元;
32、高斯濾波控制子單元的輸入端為門控神經(jīng)單元的輸入端,門控循環(huán)子單元的輸出端為門控神經(jīng)單元的輸出端;
33、第一前向?qū)印⒌诙跋驅(qū)印⒌谝缓笙驅(qū)印⒌诙笙驅(qū)又械母咚篂V波控制子單元均用于通過(guò)引入控制狀態(tài)對(duì)上一門控神經(jīng)單元輸入到該門控神經(jīng)單元的輸入數(shù)據(jù)進(jìn)行調(diào)節(jié)。
34、可選的,對(duì)融合特征進(jìn)行識(shí)別,得到目標(biāo)文本的實(shí)體識(shí)別結(jié)果,包括:
35、根據(jù)融合特征計(jì)算目標(biāo)文本屬于每個(gè)類別的后驗(yàn)概率;
36、將值最大的后驗(yàn)概率作為最終后驗(yàn)概率,將最終后驗(yàn)概率對(duì)應(yīng)的類別作為目標(biāo)文本的實(shí)體識(shí)別結(jié)果。
37、可選的,根據(jù)融合特征計(jì)算目標(biāo)文本屬于每個(gè)類別的后驗(yàn)概率,包括:
38、通過(guò)公式:
39、
40、
41、計(jì)算目標(biāo)文本屬于類別的后驗(yàn)概率;
42、其中,表示概率密度函數(shù),表示類別的先驗(yàn)概率,表示的概率,表示特征集合,表示類別,表示目標(biāo)文本的融合特征,表示融合特征的協(xié)方差矩陣,表示融合特征的維度,表示協(xié)方差矩陣的行列式,表示融合特征的均值。
43、可選的,實(shí)體識(shí)別方法還包括:
44、根據(jù)目標(biāo)文本的實(shí)體識(shí)別結(jié)果向目標(biāo)用戶推薦與目標(biāo)文本相關(guān)的數(shù)據(jù);目標(biāo)用戶為輸入目標(biāo)文本的用戶。
45、第二方面,本申請(qǐng)實(shí)施例提供了一種實(shí)體識(shí)別裝置,包括:
46、第一生成模塊,獲取包括多個(gè)單詞的目標(biāo)文本,并生成每個(gè)單詞的詞性嵌入向量和位置嵌入向量;詞性嵌入向量用于描述單詞的詞性,位置嵌入向量用于描述單詞在目標(biāo)文本中的位置;
47、提取模塊,利用詞向量提取模型提取每個(gè)單詞的詞向量;詞向量用于描述單詞的語(yǔ)義和語(yǔ)法信息;
48、拼接模塊,分別針對(duì)每個(gè)單詞,將單詞的詞性嵌入向量、位置嵌入向量和詞向量拼接,得到單詞的嵌入特征;
49、第二生成模塊,利用雙層雙向網(wǎng)絡(luò),基于所有嵌入特征生成目標(biāo)文本的全局特征;雙層雙向網(wǎng)絡(luò)包括用于提取每個(gè)單詞的前向特征的前向雙層模型和用于提取每個(gè)單詞的后向特征的后向雙層模型,前向雙層模型和后向雙層模型均包含多個(gè)依次連接的門控神經(jīng)單元,門控神經(jīng)單元通過(guò)引入控制狀態(tài)對(duì)上一門控神經(jīng)單元輸入到該門控神經(jīng)單元的輸入數(shù)據(jù)進(jìn)行調(diào)節(jié),全局特征是利用所有單詞的前向特征和后向特征得到的;
50、局部特征獲取模塊,根據(jù)所有詞向量獲取目標(biāo)文本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種實(shí)體識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述將所述單詞的詞性嵌入向量、位置嵌入向量和詞向量拼接,得到所述單詞的嵌入特征,包括:
3.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述利用雙層雙向網(wǎng)絡(luò),基于所有嵌入特征生成所述目標(biāo)文本的全局特征,包括:
4.根據(jù)權(quán)利要求3所述的實(shí)體識(shí)別方法,其特征在于,所述基于所有最終特征計(jì)算所述目標(biāo)文本的全局特征,包括:
5.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述前向雙層模型的輸入端和所述后向雙層模型的輸入端均為所述雙層雙向網(wǎng)絡(luò)的輸入端,所述前向雙層模型的輸出端和所述后向雙層模型的輸出端均為所述雙層雙向網(wǎng)絡(luò)的輸出端;
6.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述對(duì)所述融合特征進(jìn)行識(shí)別,得到目標(biāo)文本的實(shí)體識(shí)別結(jié)果,包括:
7.根據(jù)權(quán)利要求6所述的實(shí)體識(shí)別方法,其特征在于,所述根據(jù)所述融合特征計(jì)算所述目標(biāo)文本屬于每個(gè)類別的后驗(yàn)概率,包括:
8.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述實(shí)
9.一種終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的實(shí)體識(shí)別方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的實(shí)體識(shí)別方法。
...【技術(shù)特征摘要】
1.一種實(shí)體識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述將所述單詞的詞性嵌入向量、位置嵌入向量和詞向量拼接,得到所述單詞的嵌入特征,包括:
3.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述利用雙層雙向網(wǎng)絡(luò),基于所有嵌入特征生成所述目標(biāo)文本的全局特征,包括:
4.根據(jù)權(quán)利要求3所述的實(shí)體識(shí)別方法,其特征在于,所述基于所有最終特征計(jì)算所述目標(biāo)文本的全局特征,包括:
5.根據(jù)權(quán)利要求1所述的實(shí)體識(shí)別方法,其特征在于,所述前向雙層模型的輸入端和所述后向雙層模型的輸入端均為所述雙層雙向網(wǎng)絡(luò)的輸入端,所述前向雙層模型的輸出端和所述后向雙層模型的輸出端均為所述雙層雙向網(wǎng)絡(luò)的輸出端;
<...【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李曉翠,王慧,易國(guó)棟,張新玉,魏濤,
申請(qǐng)(專利權(quán))人:湘江實(shí)驗(yàn)室,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。