System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及自然語言處理,特別是涉及一種文本識別方法、裝置、計算機設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品。
技術(shù)介紹
1、命名實體識別(named?entity?recognition,簡稱ner)是自然語言處理中一個非常重要的任務(wù),其在文本信息理解、知識問答、檢索、圖譜構(gòu)建等諸多場景中有著廣泛的應(yīng)用,它的主要目的是從文本中識別出具有特定意義的或指代性強的實體,比如人名、地名、組織機構(gòu)名、日期、時間等。嵌套命名實體是一種特殊情況,其中一個實體包含另一個較短的實體。例如,在句子中可能同時存在地理實體、組織實體和職位實體等多個層次的嵌套實體。
2、目前,對嵌套命名實體進行識別時,通常通過設(shè)置多個標(biāo)注層的方法來識別多個嵌套命名實體,然后對候選實體進行分類,以識別出嵌套命名實體。
3、但是,上述嵌套命名實體的識別方法存在識別不準(zhǔn)確的問題。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠提高識別準(zhǔn)確性的文本識別方法、裝置、計算機設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品。
2、第一方面,本申請?zhí)峁┝艘环N文本識別方法,該方法包括:
3、將待識別文本輸入至分詞網(wǎng)絡(luò)進行分詞處理,得到待識別分詞序列;
4、將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路;每個標(biāo)簽鏈路上的各節(jié)點表示待識別分詞序列中各分詞向量的標(biāo)簽;
5、根據(jù)多個標(biāo)簽鏈路對待識別文本進行識別,得到識別結(jié)果。
6、本申請實施例
7、在其中一個實施例中,將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路,包括:
8、將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽;
9、將第一個分詞向量對應(yīng)的第一候選標(biāo)簽和待識別分詞序列,輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到第二個分詞向量對應(yīng)的第二候選標(biāo)簽;
10、根據(jù)第一候選標(biāo)簽、第二候選標(biāo)簽、待識別分詞序列、以及識別網(wǎng)絡(luò),確定多個標(biāo)簽鏈路。
11、在其中一個實施例中,根據(jù)第一候選標(biāo)簽、第二候選標(biāo)簽、待識別分詞序列、以及識別網(wǎng)絡(luò),確定多個標(biāo)簽鏈路,包括:
12、將第一候選標(biāo)簽和第二候選標(biāo)簽作為新的第一候選標(biāo)簽,并基于新的第一候選標(biāo)簽返回執(zhí)行將第一個分詞向量對應(yīng)的第一候選標(biāo)簽和待識別分詞序列,輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到第二個分詞向量對應(yīng)的第二候選標(biāo)簽的步驟,直到確定出待識別分詞序列中所有分詞向量對應(yīng)的候選標(biāo)簽;
13、根據(jù)所有分詞向量對應(yīng)的候選標(biāo)簽,確定多個標(biāo)簽鏈路。
14、本申請實施例所述的方法,通過在識別下一個分詞向量對應(yīng)的候選標(biāo)簽時,將上一個分詞向量對應(yīng)的候選標(biāo)簽和待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行識別,可以在識別的過程中充分地融合已有的上文信息,使得輸出序列有更高的質(zhì)量,進而提高識別準(zhǔn)確性。而且,在識別過程中動態(tài)調(diào)整標(biāo)簽選擇,使識別網(wǎng)絡(luò)根據(jù)已有標(biāo)簽優(yōu)化后續(xù)標(biāo)簽的預(yù)測,有助于減少錯誤傳播。
15、在其中一個實施例中,根據(jù)多個標(biāo)簽鏈路對待識別文本進行識別,得到識別結(jié)果,包括:
16、從多個標(biāo)簽鏈路中選取總概率值最大的標(biāo)簽鏈路作為目標(biāo)標(biāo)簽鏈路;
17、根據(jù)目標(biāo)標(biāo)簽鏈路對待識別文本進行識別,得到識別結(jié)果。
18、在其中一個實施例中,根據(jù)目標(biāo)標(biāo)簽鏈路對待識別文本進行識別,得到識別結(jié)果,包括:
19、確定目標(biāo)標(biāo)簽鏈路上各節(jié)點對應(yīng)的標(biāo)簽;
20、將各節(jié)點對應(yīng)的標(biāo)簽轉(zhuǎn)換為對應(yīng)的目標(biāo)分詞,得到識別結(jié)果。
21、本申請實施例所述的方法,通過選擇總概率值最大的標(biāo)簽鏈路,能夠確保所選取的標(biāo)簽鏈路在統(tǒng)計上是最有可能正確的,從而提高了識別的準(zhǔn)確性,所以后續(xù)將目標(biāo)標(biāo)簽鏈路上各節(jié)點的標(biāo)簽轉(zhuǎn)換為對應(yīng)的目標(biāo)分詞的過程中也有助于保持原始文本的結(jié)構(gòu)和信息完整性,使得識別結(jié)果更加準(zhǔn)確和可靠。
22、在其中一個實施例中,識別網(wǎng)絡(luò)包括自注意力子網(wǎng)絡(luò)、交叉注意力子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò),將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽,包括:
23、將待識別分詞序列輸入至自注意力子網(wǎng)絡(luò)進行上下文特征提取,得到上下文特征;
24、將上下文特征和待識別分詞序列輸入至交叉注意力子網(wǎng)絡(luò)進行全局特征提取,得到全局特征;
25、將全局特征輸入至分類網(wǎng)絡(luò)進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽。
26、在其中一個實施例中,識別網(wǎng)絡(luò)還包括降維子網(wǎng)絡(luò),該方法還包括:
27、將全局特征輸入至降維子網(wǎng)絡(luò)進行特征降維提取,得到降維特征;
28、將全局特征輸入至分類網(wǎng)絡(luò)進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽,包括:
29、將降維特征輸入至分類網(wǎng)絡(luò)進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽。
30、本申請實施例所述的方法,自注意力子網(wǎng)絡(luò)通過關(guān)注上下文中的每個分詞對目標(biāo)分詞的影響,可以提高特征提取的準(zhǔn)確性,能更好地理解分詞的語義,交叉注意力子網(wǎng)絡(luò)通過結(jié)合上下文特征和分詞序列,能夠提取全局特征,考慮了分詞間的相互關(guān)系,可以提高標(biāo)簽識別的整體準(zhǔn)確性,降維子網(wǎng)絡(luò)能夠?qū)θ痔卣鬟M行降維處理,去除冗余信息,使得特征表示更加緊湊,有助于提高分類網(wǎng)絡(luò)的效率和準(zhǔn)確性。
31、第二方面,本申請還提供了一種文本識別裝置,該裝置包括:
32、分詞處理模塊,用于將待識別文本輸入至分詞網(wǎng)絡(luò)進行分詞處理,得到待識別分詞序列;
33、標(biāo)簽識別模塊,用于將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路;每個標(biāo)簽鏈路上的各節(jié)點表示待識別分詞序列中各分詞向量的標(biāo)簽;
34、文本識別模塊,用于根據(jù)多個標(biāo)簽鏈路對待識別文本進行識別,得到識別結(jié)果。
35、第三方面,本申請還提供了一種計算機設(shè)備,該計算機設(shè)備包括存儲器和處理器,存儲器存儲有計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)以下步驟:
36、將待識別文本輸入至分詞網(wǎng)絡(luò)進行分詞處理,得到待識別分詞序列;
37、將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路;每個標(biāo)簽鏈路上的各節(jié)點表示待識別分詞序列中各分詞向量的標(biāo)簽;
38、根據(jù)多個標(biāo)簽鏈路對待識別文本進行本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種文本識別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到所述待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一候選標(biāo)簽、所述第二候選標(biāo)簽、所述待識別分詞序列、以及所述識別網(wǎng)絡(luò),確定所述多個標(biāo)簽鏈路,包括:
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述多個標(biāo)簽鏈路對所述待識別文本進行識別,得到識別結(jié)果,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述目標(biāo)標(biāo)簽鏈路對所述待識別文本進行識別,得到識別結(jié)果,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述識別網(wǎng)絡(luò)包括自注意力子網(wǎng)絡(luò)、交叉注意力子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò),所述將所述待識別分詞序列輸入至所述識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到第一個分詞向量對應(yīng)的第一候選標(biāo)簽,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述識別網(wǎng)絡(luò)還包括降維子網(wǎng)絡(luò),所述方法還包括:
8.一種文本識別裝置,其特征
9.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種文本識別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待識別分詞序列輸入至識別網(wǎng)絡(luò)中進行標(biāo)簽識別,得到所述待識別分詞序列對應(yīng)的多個標(biāo)簽鏈路,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一候選標(biāo)簽、所述第二候選標(biāo)簽、所述待識別分詞序列、以及所述識別網(wǎng)絡(luò),確定所述多個標(biāo)簽鏈路,包括:
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述根據(jù)所述多個標(biāo)簽鏈路對所述待識別文本進行識別,得到識別結(jié)果,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述目標(biāo)標(biāo)簽鏈路對所述待識別文本進行識別,得到識別結(jié)果,包括:
6.根據(jù)權(quán)利要求4所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:許銳,董露露,焦巖,
申請(專利權(quán))人:曙光信息產(chǎn)業(yè)股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。