本發(fā)明專利技術(shù)涉及一種高精度圖像語義分割算法模型及分割方法,所述模型為了全局信息在多級融合過程中的損失,對目標(biāo)細(xì)節(jié)不確定性進(jìn)行建模,可以很大程度上消除圖像噪聲干擾及圖像局部信息較少導(dǎo)致的細(xì)節(jié)不確定性,從而提升目標(biāo)邊緣的語義分割精度。所述分割方法基于所述分割算法模型來實現(xiàn),所述分割方法降低了卷積神經(jīng)網(wǎng)絡(luò)識別細(xì)節(jié)特征的難度,提升了卷積神經(jīng)網(wǎng)絡(luò)對細(xì)節(jié)的建模能力和建模精度,能有效識別目標(biāo)的細(xì)節(jié)結(jié)構(gòu)及特征,降低遮擋和圖像質(zhì)量等因素對語義分割照成的干擾。
【技術(shù)實現(xiàn)步驟摘要】
一種高精度圖像語義分割算法模型及分割方法
本專利技術(shù)涉及圖像語義分割
,更具體地,涉及一種高精度圖像語義分割算法模型及分割方法。
技術(shù)介紹
近年來,基于深度學(xué)習(xí)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)算法得到了快速的發(fā)展。其中,深度卷積神經(jīng)網(wǎng)絡(luò)已被成功應(yīng)用于人臉識別,車牌識別等領(lǐng)域。然而,現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)在對細(xì)節(jié)識別精度要求較高的領(lǐng)域(比如工業(yè)零件測量,高精度地圖制作,醫(yī)療影像分析等領(lǐng)域)的成功應(yīng)用案例仍然較少。其主要原因在于現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡(luò)對目標(biāo)邊界等細(xì)節(jié)的識別精度較差,其識別結(jié)果容易受遮擋以及圖像局部細(xì)節(jié)缺失等因素的影響。使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像細(xì)節(jié)的精準(zhǔn)分類和識別的主要難點(diǎn)在于圖像數(shù)據(jù)中的噪聲干擾以及局部圖像局部信息較少。在遮擋情況下,局部細(xì)節(jié)則完全缺失?,F(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)多采用多尺度特征融合來提升神經(jīng)網(wǎng)絡(luò)對細(xì)節(jié)的識別能力。多尺度漸進(jìn)特征融合是一種常用的特征融合技術(shù),但是全局信息會在多級融合的過程中逐漸丟失。同時,現(xiàn)有的圖像語義分割算法缺乏對目標(biāo)形狀特征進(jìn)行學(xué)習(xí)和推理的能力。在圖像噪聲干擾及圖像局部信息較少等因素導(dǎo)致目標(biāo)細(xì)節(jié)不確定時,邊緣無法被正確恢復(fù)。
技術(shù)實現(xiàn)思路
本專利技術(shù)為克服上述現(xiàn)有技術(shù)所述的目標(biāo)邊緣的語義分割精度不夠高的缺陷,提供一種高精度圖像語義分割算法模型及分割方法。所述模型以PSPNet作為骨架網(wǎng)絡(luò),模型中PSPNet的第一層(conv1)被替換為:conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU其中,BN表示批標(biāo)準(zhǔn)化,ReLU表示線性整流函數(shù),conv3x3x64表示卷積核為3x3x64的卷積層,conv3x3x128表示卷積核為3x3x128的卷積層。第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。優(yōu)選地,所述模型中PSPNet的第一層中第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。優(yōu)選地,所述模型采用復(fù)合多尺度特征融合結(jié)構(gòu);所述結(jié)構(gòu)采用PSPNet-resnet101在8,4,2,1等四個尺度的特征作為輸入,輸出2倍尺度的融合特征;其中8,4,2尺度的輸入特征分別為conv5_4,conv2_x,conv1_3/ReLU。優(yōu)選地,所述模型在融合的特征上采用了一個金字塔池化層,即將融合特征重采樣到1,2,3,6等4個尺度,獲得4個不同尺度的特征,每個特征分別經(jīng)過數(shù)層卷積處理之后再重采樣到原始特征長寬,最后堆疊4個特征得到輸出特征。優(yōu)選地,所述模型采用一對多的模式建模,即在一次前向傳播的過程中生成多個可能的預(yù)測結(jié)果,選擇損失函數(shù)值最低的預(yù)測結(jié)果進(jìn)行后向傳播訓(xùn)練。優(yōu)選地,所述多模態(tài)建模過程為:首先從隨機(jī)數(shù)中生成N個特征圖,然后將這N個特征圖和現(xiàn)有的數(shù)據(jù)特征進(jìn)行疊加,使用疊加后的特征進(jìn)行分類。優(yōu)選地,所述模型在res5,res4b22,b21,b20這4層中使用了注意力機(jī)制。優(yōu)選地,所述模型的推理層采用以下網(wǎng)絡(luò)結(jié)構(gòu):conv3x3-BN-ReLU-dropout-conv1x1-CELoss其中CELoss為交叉熵?fù)p失函數(shù)。本專利技術(shù)還提供一種高精度圖像語義分割方法,所述方法基于所述的高精度圖像語義分割算法模型來實現(xiàn),所述方法包括以下步驟:S1:對若干個目標(biāo)圖像進(jìn)行人工標(biāo)注真值處理,所述標(biāo)注真值指人工繪制的圖像中每個目標(biāo)的精確輪廓;每個目標(biāo)輪廓由若干個多邊形表示;人工標(biāo)注完成后將標(biāo)注的多邊形數(shù)據(jù)柵格化,得到和目標(biāo)圖像長寬相同的真值圖像;其中屬于目標(biāo)的像素值為1,否則為0;S2:利用訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)來訓(xùn)練本專利技術(shù)所述模型,直到系統(tǒng)收斂,即平滑過后的損失函數(shù)在一定的訓(xùn)練輪數(shù)中保持不變;S3:使用S2訓(xùn)練完成的模型識別目標(biāo)圖像,生成目標(biāo)語義分割結(jié)果。與現(xiàn)有技術(shù)相比,本專利技術(shù)技術(shù)方案的有益效果是:本專利技術(shù)所述模型為了全局信息在多級融合過程中的損失,對目標(biāo)細(xì)節(jié)不確定性進(jìn)行建模,可以很大程度上消除圖像噪聲干擾及圖像局部信息較少導(dǎo)致的細(xì)節(jié)不確定性,從而提升目標(biāo)邊緣的語義分割精度。本專利技術(shù)所述方法降低了卷積神經(jīng)網(wǎng)絡(luò)識別細(xì)節(jié)特征的難度,提升了卷積神經(jīng)網(wǎng)絡(luò)對細(xì)節(jié)的建模能力和建模精度,能有效識別目標(biāo)的細(xì)節(jié)結(jié)構(gòu)及特征,降低遮擋和圖像質(zhì)量等因素對語義分割照成的干擾。附圖說明圖1為實施例1所述高精度圖像語義分割算法模型結(jié)構(gòu)示意圖。圖2為漸進(jìn)多尺度融合結(jié)構(gòu)示意圖。圖3為多模態(tài)建模結(jié)構(gòu)示意圖。具體實施方式附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產(chǎn)品的尺寸;對于本領(lǐng)域技術(shù)人員來說,附圖中某些公知結(jié)構(gòu)及其說明可能省略是可以理解的。下面結(jié)合附圖和實施例對本專利技術(shù)的技術(shù)方案做進(jìn)一步的說明。實施例1本專利技術(shù)提供一種高精度圖像語義分割算法模型,如圖1所示,所述模型主要包括以下模塊:(1)基礎(chǔ)網(wǎng)絡(luò)。本實施例采用修改后的PSPNet作為骨架網(wǎng)絡(luò)。PSPNet的第一層(conv1)被替換為:conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU其中,BN表示批標(biāo)準(zhǔn)化,ReLU表示線性整流函數(shù),conv3x3x64表示卷積核為3x3x64的卷積層,conv3x3x128表示卷積核為3x3x128的卷積層。第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。修改過后的模型比原始模型在圖像2倍尺度(特征長寬為原始圖像的1/2)下具有更多的卷積層。在后續(xù)由上至下的漸進(jìn)多尺度融合中可在2倍尺度時獲取更優(yōu)的特征。(2)復(fù)合多尺度特征融合結(jié)構(gòu)。這個結(jié)構(gòu)采用了從粗到精的漸進(jìn)融合模式。其相鄰兩個尺度間的漸進(jìn)融合網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計參見圖2。此結(jié)構(gòu)采用PSPNet-resnet101在8,4,2,1等四個尺度的特征作為輸入,輸出2倍尺度的融合特征。其中8,4,2尺度的輸入特征分別為conv5_4,conv2_x,conv1_3/ReLU。為了補(bǔ)償粗分辨率的信息在漸進(jìn)多尺度融合的過程中丟失的情況,本文在融合的特征上采用了一個金字塔池化層,即將融合特征重采樣到1,2,3,6等4個尺度,獲得4個不同尺度的特征,每個特征分別經(jīng)過數(shù)層卷積處理之后再重采樣到原始特征長寬,最后堆疊4個特征得到輸出特征。(3)多模態(tài)建模。多模態(tài)建模用于對數(shù)據(jù)分析中的不確定性進(jìn)行建模。這種不確定可能來源于遮擋,局部噪聲,局部數(shù)據(jù)缺失等問題。此模型采用一對多的模式,即在一次前向傳播的過程中生成多個可能的預(yù)測結(jié)果,選擇損失函數(shù)值最低的預(yù)測結(jié)果進(jìn)行后向傳播訓(xùn)練。首先從隨機(jī)數(shù)中生成N個特征圖,然后將這N個特征圖和現(xiàn)有的數(shù)據(jù)特征進(jìn)行疊加,使用疊加后的特征進(jìn)行分類。具體結(jié)構(gòu)見圖3。(4)注意力機(jī)制。注意力機(jī)制的使用可以本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種高精度圖像語義分割算法模型,所述模型以PSPNet作為骨架網(wǎng)絡(luò),其特征在于,所述模型中PSPNet的第一層(conv1)被替換為:/nconv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU/n其中,BN表示批標(biāo)準(zhǔn)化,ReLU表示線性整流函數(shù),conv3x3x64表示卷積核為3x3x64的卷積層,conv3x3x128表示卷積核為3x3x128的卷積層;第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。/n
【技術(shù)特征摘要】
1.一種高精度圖像語義分割算法模型,所述模型以PSPNet作為骨架網(wǎng)絡(luò),其特征在于,所述模型中PSPNet的第一層(conv1)被替換為:
conv3x3x64-BN-ReLU-conv3x3x64-BN-ReLU-conv3x3x128-BN-ReLU
其中,BN表示批標(biāo)準(zhǔn)化,ReLU表示線性整流函數(shù),conv3x3x64表示卷積核為3x3x64的卷積層,conv3x3x128表示卷積核為3x3x128的卷積層;第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。
2.根據(jù)權(quán)利要求1所述的高精度圖像語義分割算法模型,其特征在于,所述模型中PSPNet的第一層中第一個conv3x3x64的卷積移動步長為2,其他卷積層的步長為1。
3.根據(jù)權(quán)利要求2所述的高精度圖像語義分割算法模型,其特征在于,所述模型采用復(fù)合多尺度特征融合結(jié)構(gòu);
所述結(jié)構(gòu)采用PSPNet-resnet101在8,4,2,1四個尺度的特征作為輸入,輸出2倍尺度的融合特征;
其中8,4,2尺度的輸入特征分別為conv5_4,conv2_x,conv1_3/ReLU。
4.根據(jù)權(quán)利要求3所述的高精度圖像語義分割算法模型,其特征在于,所述模型在融合的特征上采用了一個金字塔池化層,即將融合特征重采樣到1,2,3,6四個尺度,獲得4個不同尺度的特征,每個特征分別經(jīng)過數(shù)層卷積處理之后再重采樣到原始特征長寬,最后堆疊4個特征得到輸出特征。
5.根據(jù)權(quán)利要求4...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王磊,吳偉龍,周建品,李爭,
申請(專利權(quán))人:視研智能科技廣州有限公司,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。