System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及地理信息數(shù)據(jù)處理領域,尤其涉及一種基于fasttext的三維單體模型語義分類方法及系統(tǒng)。
技術(shù)介紹
1、隨著數(shù)字城市、智慧城市、城市信息模型(city?information?modeling,cim)以及實景三維中國等新型基礎測繪建設與發(fā)展要求,需要將各種自然要素以三維實體模型的形式進行表達,并且對實體模型附加統(tǒng)一標準格式語義信息進行描述。建筑物作為城市的最重要的基礎設施之一,是城市要素的核心組成部分,如何在三維模型中提取建筑物單體受到廣泛的關(guān)注與重視。
2、目前,國內(nèi)外基于無人機傾斜攝影測量、三維激光點云、航空攝影測量等三維建模技術(shù)相對成熟,能實現(xiàn)高效、精確地獲取一定區(qū)域的三維模型;但難以將三維模型中的各要素單體模型提取出來,或者提取出來的實體模型缺少語義信息,無法滿足智慧城市、cim等新型基礎測繪數(shù)據(jù)產(chǎn)品要求。在目前的實際項目中,國內(nèi)并沒有針對三維模型數(shù)據(jù)分類的統(tǒng)一分類標準和科學的分類方法,而三維模型建筑物單體化工作,一般是通過大量作業(yè)人員手工實現(xiàn)的方式進行,這將產(chǎn)生一系列問題:
3、1、作業(yè)效率低下:傳統(tǒng)作業(yè)方式,需要人工依據(jù)單體模型名稱、編碼等字段進行分類,作業(yè)效率不高。
4、2、人工成本高:城市級的模型管理數(shù)量多,作業(yè)量大,需要投入大量人力進行分類。同時,還需要安排專人進行二級審核,整體人工成本高。
5、因此,這嚴重限制了三維模型的應用效率,難以滿足新型基礎測繪的發(fā)展需求。基于此,本專利技術(shù)提供一種基于fasttext的三維單體模型語義分類方法及系統(tǒng),結(jié)合
技術(shù)實現(xiàn)思路
1、本專利技術(shù)旨在解決現(xiàn)有技術(shù)中存在的技術(shù)問題。為此,本專利技術(shù)提供一種基于fasttext的三維單體模型語義分類方法及系統(tǒng),結(jié)合現(xiàn)有nlp(自然語言處理)技術(shù),分析語義信息完成模型自動分類,并實現(xiàn)快速檢索、提取及分發(fā)。
2、本專利技術(shù)解決其技術(shù)問題所采用的技術(shù)方案是:
3、第一方面,提供一種基于fasttext的三維單體模型語義分類方法,包括以下步驟:
4、步驟s1,poi數(shù)據(jù)獲取及處理:利用python爬蟲技術(shù)獲取模型數(shù)據(jù)文件的原始poi文本數(shù)據(jù),并對該文本數(shù)據(jù)進行篩選、清洗和標準化處理;
5、步驟s2,對經(jīng)步驟s1處理的文本數(shù)據(jù)進行中文分詞及去停用詞處理;
6、步驟s3,對經(jīng)步驟s2處理后的文本數(shù)據(jù)進行數(shù)字特征提取,使文本特征轉(zhuǎn)化成計算機可以處理的數(shù)字特征;
7、步驟s4,通過fasttext算法進行多分類模型的構(gòu)建及優(yōu)化,將經(jīng)步驟s3處理的每段完整的數(shù)字信息預測分類為對應的類別。
8、在本專利技術(shù)的一種較佳實施例中,所述步驟s1具體包括如下步驟:
9、步驟s11,數(shù)據(jù)獲?。豪胮ython爬蟲技術(shù)獲取模型數(shù)據(jù)文件的原始poi文本數(shù)據(jù),包含poi的名稱、地址、x坐標、y坐標、門類信息;
10、步驟s12,數(shù)據(jù)清洗:對數(shù)據(jù)進行去重、缺失值處理、噪聲處理、及屬性值規(guī)范填寫處理;
11、步驟s13,數(shù)據(jù)處理:對于同類型的poi文本數(shù)據(jù),確保字段名和字段類型統(tǒng)一,并將數(shù)據(jù)格式轉(zhuǎn)換為模型分析所需的txt格式或csv格式。
12、在本專利技術(shù)的一種較佳實施例中,所述步驟s12中,數(shù)據(jù)去重具體為:通過poi的唯一標識id來識別重復的poi數(shù)據(jù),并進行刪除處理;數(shù)據(jù)缺失值處理具體為:檢查單條記錄中缺失的屬性值,通過默認值填充或算法估算進行缺失值處理;數(shù)據(jù)噪聲處理具體為:對數(shù)據(jù)進行質(zhì)檢,對錯誤記錄進行修改或刪除處理;數(shù)據(jù)的屬性值規(guī)范填寫處理具體為:將屬性值填寫格式統(tǒng)一為標準格式。
13、在本專利技術(shù)的一種較佳實施例中,步驟s2中,采用分詞器對文本數(shù)據(jù)進行分詞,分完詞后的文本數(shù)據(jù)再通過內(nèi)置的停用詞表對其進行去停用詞處理。
14、在本專利技術(shù)的一種較佳實施例中,步驟s4中,對數(shù)字信息分類前,采用n-gram模型處理,提高數(shù)字信息的詞序準確性。
15、第二方面,提供一種運行基于fasttext的三維單體模型語義分類方法的系統(tǒng),包括:
16、poi文本預處理模塊,用于對通過爬蟲技術(shù)爬取到的原始poi文本數(shù)據(jù)進行篩選、清洗和標準化處理;
17、中文分詞及去停用詞模塊,用于通過分詞器對文本數(shù)據(jù)進行分詞操作并通過停用詞表去除對文本分類無意義的詞;
18、數(shù)字特征提取模塊,用于將文本特征轉(zhuǎn)化成數(shù)字特征;
19、fasttext分類器模塊,用于通過fasttext算法進行多分類模型的構(gòu)建,將每段文本預測分類為對應的類別,實現(xiàn)彈體模型的快速分類。
20、在本專利技術(shù)的一種較佳實施例中,所述分詞器采用jieba分詞器,所述停用詞表采用哈工大停用詞表。
21、在本專利技術(shù)的一種較佳實施例中,所述數(shù)字特征提取模塊采用基于深度學習的詞嵌入模型word2vec將文本特征提取為數(shù)字特征。
22、在本專利技術(shù)的一種較佳實施例中,還包括語義化檢索模塊,用于實現(xiàn)單體模型的快速檢索。
23、在本專利技術(shù)的一種較佳實施例中,還包括開發(fā)模型提取模塊,用于實現(xiàn)單體模型的快速分發(fā)。
24、與現(xiàn)有技術(shù)相比,本專利技術(shù)的有益效果是:本專利技術(shù)實現(xiàn)了單體模型的語義信息自動分類,提高了作業(yè)效率,降低了人工成本;同時,還能實現(xiàn)單體模型的快速檢索、提取及分發(fā)。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種基于fastText的三維單體模型語義分類方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于fastText的三維單體模型語義分類方法,其特征在于,所述步驟S1具體包括如下步驟:
3.根據(jù)權(quán)利要求2所述的基于fastText的三維單體模型語義分類方法,其特征在于,所述步驟S12中,數(shù)據(jù)去重具體為:通過POI的唯一標識ID來識別重復的POI數(shù)據(jù),并進行刪除處理;
4.根據(jù)權(quán)利要求1所述的基于fastText的三維單體模型語義分類方法,其特征在于,步驟S2中,采用分詞器對文本數(shù)據(jù)進行分詞,分完詞后的文本數(shù)據(jù)再通過內(nèi)置的停用詞表對其進行去停用詞處理。
5.根據(jù)權(quán)利要求1所述的基于fastText的三維單體模型語義分類方法,其特征在于,步驟S4中,對數(shù)字信息分類前,采用n-gram模型處理,提高數(shù)字信息的詞序準確性。
6.一種基于fastText的三維單體模型語義分類系統(tǒng),其特征在于,用于運行基于fastText的三維單體模型語義分類方法,包括:
7.根據(jù)權(quán)利要求6所述的基于fastText的三維
8.根據(jù)權(quán)利要求6所述的基于fastText的三維單體模型語義分類方法,其特征在于:所述數(shù)字特征提取模塊采用基于深度學習的詞嵌入模型Word2Vec將文本特征提取為數(shù)字特征。
9.根據(jù)權(quán)利要求6所述的基于fastText的三維單體模型語義分類方法,其特征在于:還包括語義化檢索模塊,用于實現(xiàn)單體模型的快速檢索。
10.根據(jù)權(quán)利要求9所述的基于fastText的三維單體模型語義分類方法,其特征在于:還包括開發(fā)模型提取模塊,用于實現(xiàn)單體模型的快速分發(fā)。
...【技術(shù)特征摘要】
1.一種基于fasttext的三維單體模型語義分類方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于fasttext的三維單體模型語義分類方法,其特征在于,所述步驟s1具體包括如下步驟:
3.根據(jù)權(quán)利要求2所述的基于fasttext的三維單體模型語義分類方法,其特征在于,所述步驟s12中,數(shù)據(jù)去重具體為:通過poi的唯一標識id來識別重復的poi數(shù)據(jù),并進行刪除處理;
4.根據(jù)權(quán)利要求1所述的基于fasttext的三維單體模型語義分類方法,其特征在于,步驟s2中,采用分詞器對文本數(shù)據(jù)進行分詞,分完詞后的文本數(shù)據(jù)再通過內(nèi)置的停用詞表對其進行去停用詞處理。
5.根據(jù)權(quán)利要求1所述的基于fasttext的三維單體模型語義分類方法,其特征在于,步驟s4中,對數(shù)字信息分類前,采用n-gram模型處理,提高數(shù)字信息的詞序準確性。
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張彤蘊,黃煜,陸敏,范遙,周憲,楊章,張維,謝洪偉,胡麗萍,
申請(專利權(quán))人:湖南省地質(zhì)地理信息所湖南省地質(zhì)大數(shù)據(jù)中心,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。