System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及地名數(shù)據(jù)處理,且更為具體地,涉及一種基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法。
技術(shù)介紹
1、在信息化和數(shù)字化迅速發(fā)展的今天,地理信息系統(tǒng)(gis)的應(yīng)用已經(jīng)滲透到社會生活的各個角落。作為地理信息系統(tǒng)中的重要組成部分,地名數(shù)據(jù)的處理和管理對于空間數(shù)據(jù)分析、位置服務(wù)、導(dǎo)航系統(tǒng)以及智能交通等眾多領(lǐng)域都有著不可替代的作用。隨著互聯(lián)網(wǎng)的發(fā)展,包含地名信息的自然語言文本內(nèi)容(如新聞報道、社交媒體、旅行博客等)數(shù)量急劇增長,通過對這些開源地名數(shù)據(jù)進行準確的地名識別與地理關(guān)聯(lián)處理,可以有效提高定位的準確性。例如,在線地圖平臺可以通過地名數(shù)據(jù)的關(guān)聯(lián)提供更加精準的目的地指引;緊急救援服務(wù)可以通過地名數(shù)據(jù)的關(guān)聯(lián)迅速定位到地名所對應(yīng)的具體位置,提高救援效率。
2、然而,傳統(tǒng)的地名數(shù)據(jù)處理方法主要依賴人工標注或基于規(guī)則的匹配算法。其中,人工標注雖然精度較高,但效率極低,在面對海量文本數(shù)據(jù)時,成本巨大且耗時長久。而基于規(guī)則的匹配算法相對高效,但其靈活性較差,難以適應(yīng)復(fù)雜多變的地名表述形式。特別是在處理自然語言文本時,由于地名可能以多種形式出現(xiàn),如縮寫、別稱、方言表達等,基于規(guī)則的匹配算法往往難以準確識別并關(guān)聯(lián)到正確的地理位置。
3、因此,期待一種優(yōu)化的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,提出了本申請。本申請的實施例提供了一種基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其首先對包含地名的自然語言文本內(nèi)容進行實體檢測以提取候選地名,并將文本中的其他內(nèi)
2、根據(jù)本申請的一個方面,提供了一種基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其包括:
3、獲取包含地名的自然語言文本內(nèi)容;
4、對所述包含地名的自然語言文本內(nèi)容進行實體檢測以提取候選地名,并將所述包含地名的自然語言文本內(nèi)容中除所述候選地名之外的內(nèi)容定義為地名補充上下文內(nèi)容;
5、基于所述地名補充上下文內(nèi)容,對所述候選地名進行基于主成分分析的語義補償優(yōu)化以得到優(yōu)化候選地名語義嵌入編碼向量;
6、查詢所述候選地名在地理數(shù)據(jù)庫中的關(guān)聯(lián)實體數(shù)據(jù)以得到地名備選列表;
7、對所述地名備選列表中的各個備選地名進行語義嵌入編碼以得到備選地名語義嵌入編碼向量的序列;
8、基于所述優(yōu)化候選地名語義嵌入編碼向量與所述備選地名語義嵌入編碼向量的序列中的各個備選地名語義嵌入編碼向量之間的語義相似性,建立備選地名與所述候選地名之間的關(guān)聯(lián)。
9、優(yōu)選的,基于所述地名補充上下文內(nèi)容,對所述候選地名進行基于主成分分析的語義補償優(yōu)化以得到優(yōu)化候選地名語義嵌入編碼向量,包括:
10、對所述候選地名進行語義嵌入編碼以得到候選地名語義嵌入編碼向量;
11、對所述地名補充上下文內(nèi)容進行上下文語義編碼以得到地名補充內(nèi)容上下文語義編碼向量;
12、對所述地名補充內(nèi)容上下文語義編碼向量和所述候選地名語義嵌入編碼向量進行特征主成分補償式交互優(yōu)化以得到所述優(yōu)化候選地名語義嵌入編碼向量。
13、優(yōu)選的,對所述地名補充上下文內(nèi)容進行上下文語義編碼以得到地名補充內(nèi)容上下文語義編碼向量,包括:
14、使用基于bert模型的上下文語義編碼器對所述地名補充上下文內(nèi)容進行上下文語義編碼以得到所述地名補充內(nèi)容上下文語義編碼向量。
15、優(yōu)選的,對所述地名補充內(nèi)容上下文語義編碼向量和所述候選地名語義嵌入編碼向量進行特征主成分補償式交互優(yōu)化以得到所述優(yōu)化候選地名語義嵌入編碼向量,包括:
16、對所述地名補充內(nèi)容上下文語義編碼向量和所述候選地名語義嵌入編碼向量進行主成分提取以得到地名補充內(nèi)容語義特征主成分編碼向量的集合和候選地名語義特征主成分編碼向量的集合;
17、對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行語義差異顯著性度量以得到候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量;
18、基于所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行補償式聚合交互編碼以得到所述優(yōu)化候選地名語義嵌入編碼向量。
19、優(yōu)選的,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行語義差異顯著性度量以得到候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,包括:
20、將所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合構(gòu)造為地名補充內(nèi)容語義特征主成分聚合編碼特征圖和候選地名語義特征主成分聚合編碼特征圖;
21、將所述地名補充內(nèi)容語義特征主成分聚合編碼特征圖和所述候選地名語義特征主成分聚合編碼特征圖分別輸入特征嵌入單元以得到地名補充內(nèi)容語義特征權(quán)重向量和候選地名語義特征權(quán)重向量;
22、基于所述地名補充內(nèi)容語義特征權(quán)重向量和所述候選地名語義特征權(quán)重向量,計算所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量。
23、優(yōu)選的,基于所述地名補充內(nèi)容語義特征權(quán)重向量和所述候選地名語義特征權(quán)重向量,計算所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,包括:
24、計算所述地名補充內(nèi)容語義特征權(quán)重向量和所述候選地名語義特征權(quán)重向量之間的按位置差分向量并對所述按位置差分向量取絕對值以得到所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量。
25、優(yōu)選的,基于所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行補償式聚合交互編碼以得到所述優(yōu)化候選地名語義嵌入編碼向量,包括:
26、計算所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合的按位置均值向量以得到地名補充內(nèi)容語義特征主成分表征編碼向量和候選地名語義特征主成分表征編碼向量;
27、基于所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,對所述地名補充內(nèi)容語義特征主成分表征編碼向量和所述候選地名語義特征主成分表征編碼向量進行聚合交互編碼以得到所述優(yōu)化候選地名語義嵌入編碼向量。
28、優(yōu)選的,基于所述優(yōu)化候選地名語義嵌入編碼向量與所述備選地名語義嵌入編碼向量的序列中的各個備選地名語義嵌入編碼向量之間的語義相似性,建立備選地名與所述候選地名之間的關(guān)聯(lián),包括:本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,基于所述地名補充上下文內(nèi)容,對所述候選地名進行基于主成分分析的語義補償優(yōu)化以得到優(yōu)化候選地名語義嵌入編碼向量,包括:
3.根據(jù)權(quán)利要求2所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充上下文內(nèi)容進行上下文語義編碼以得到地名補充內(nèi)容上下文語義編碼向量,包括:
4.根據(jù)權(quán)利要求3所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充內(nèi)容上下文語義編碼向量和所述候選地名語義嵌入編碼向量進行特征主成分補償式交互優(yōu)化以得到所述優(yōu)化候選地名語義嵌入編碼向量,包括:
5.根據(jù)權(quán)利要求4所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行語義差異顯著性度量以得到候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,包括:
6.根據(jù)權(quán)利要求5所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其
7.根據(jù)權(quán)利要求6所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,基于所述候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行補償式聚合交互編碼以得到所述優(yōu)化候選地名語義嵌入編碼向量,包括:
8.根據(jù)權(quán)利要求7所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,基于所述優(yōu)化候選地名語義嵌入編碼向量與所述備選地名語義嵌入編碼向量的序列中的各個備選地名語義嵌入編碼向量之間的語義相似性,建立備選地名與所述候選地名之間的關(guān)聯(lián),包括:
9.根據(jù)權(quán)利要求8所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,計算所述優(yōu)化候選地名語義嵌入編碼向量與所述備選地名語義嵌入編碼向量的序列中的各個備選地名語義嵌入編碼向量之間的語義匹配度以得到語義匹配度的序列,包括:
...【技術(shù)特征摘要】
1.一種基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,基于所述地名補充上下文內(nèi)容,對所述候選地名進行基于主成分分析的語義補償優(yōu)化以得到優(yōu)化候選地名語義嵌入編碼向量,包括:
3.根據(jù)權(quán)利要求2所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充上下文內(nèi)容進行上下文語義編碼以得到地名補充內(nèi)容上下文語義編碼向量,包括:
4.根據(jù)權(quán)利要求3所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充內(nèi)容上下文語義編碼向量和所述候選地名語義嵌入編碼向量進行特征主成分補償式交互優(yōu)化以得到所述優(yōu)化候選地名語義嵌入編碼向量,包括:
5.根據(jù)權(quán)利要求4所述的基于開源地名數(shù)據(jù)的自動關(guān)聯(lián)處理方法,其特征在于,對所述地名補充內(nèi)容語義特征主成分編碼向量的集合和所述候選地名語義特征主成分編碼向量的集合進行語義差異顯著性度量以得到候選地名-補充內(nèi)容語義差異嵌入補償編碼權(quán)重向量,包括:
6.根據(jù)權(quán)利要求5所述的基于...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張爾嚴,王晶,任玉冰,孫軍,王康寧,李喜娥,王星宇,
申請(專利權(quán))人:陜西天潤科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。