本發明專利技術揭示了一種深度卷積神經網絡及其執行該網絡的系統,包括順序連接的多個匯集卷積層,每個匯集卷積層獲取輸入并生成輸出,每個匯集卷積層包括:至少一個卷積層,用于使用激活函數對輸入應用至少一個卷積操作;以及池層,用于將池操作應用于所述至少一個卷積層以生成輸出;多個全局平均池層,每個全局平均池層鏈接到多個池化卷積層中的相應一個的輸出,每個全局平均池層將全局平均池化操作應用于相應池化卷積層的輸出;終端隱藏層,用于組合全局平均池層的輸出;以及softmax層,用于將softmax操作應用于終端隱藏層的輸出。本發明專利技術能夠有效的解決中間隱藏層學習的特征丟失以及梯度消失問題。及梯度消失問題。及梯度消失問題。
【技術實現步驟摘要】
一種深度卷積神經網絡及其執行該網絡的系統
[0001]本專利技術屬于人工神經網絡
,特別是涉及一種深度卷積神經網絡及其執行該網絡的系統。
技術介紹
[0002]深度卷積神經網絡(CNN)被公認為是計算機視覺和其他應用的有力工具。例如,人們發現深度CNN能夠從原始像素值中提取豐富的層次特征,并在計算機視覺的分類和分割任務中實現驚人的性能。然而,現有的深度CNN方法可能會遇到各種問題;例如,在中間隱藏層學習的特征丟失和梯度消失問題。
[0003]CNN通常由幾個級聯卷積層組成,包括完全連接的人工神經元;它還可以包括池化層(平均池或最大池)、激活層、用于分類和/或檢測任務的softmax層。卷積層通常用于學習輸入數據的空間局部連通性以進行特征提取。池化層通常是為了減少接受域,從而防止過擬合。激活層,例如非線性激活,通常用于增強學習特征。標準CNN體系結構的各種變體可以使用更深(更多層)和更寬(更大層大小)的體系結構。為了避免深度神經網絡的過度擬合,可以使用一些正則化方法,如dropout或dropconnect;它在訓練過程中以一定的概率關閉學習神經元,并在訓練階段阻止神經元的共同適應。
[0004]一些深度CNN架構方法的成功部分在于使用了適當的非線性激活函數,這些函數定義了從輸入到輸出的值轉換。研究發現,與飽和的對應函數相比,采用線性整流激活函數的整流線性單元(ReLU)可以大大提高CNN的性能,實現更高的精度和更快的收斂速度。ReLU只在正端的使用單位映射,而不使用負的輸入,使得訓練中可以有效地進行梯度傳播。其簡單的功能可以在不需要無監督預訓練的情況下對深度神經網絡進行訓練,并可用于非常深度神經網絡的實現。然而,ReLU的一個缺點是,在向后傳播的訓練中,輸入的負部分被簡單地丟棄而不更新。這可能會導致死亡神經元(未使用的處理單元/節點)的問題,這些神經元可能永遠不會再次被激活,并可能導致在反向傳播過程中丟失特征信息。
[0005]為了緩解這個問題,現有技術中提出了使用其他類型的激活函數的方法,例如,Leaky ReLU激活函數,將一個非零的斜率賦給負的部分。然而,Leaky ReLU使用一個固定的參數,在學習過程中不會更新。一般來說,這些其他類型的激活功能缺乏在積極和消極方面模仿復雜功能的能力,以便提取必要的信息傳遞到下一個層次。進一步的方法是使用maxout函數,從每個神經元的k個線性函數中選擇最大值作為輸出。雖然maxout函數具有模仿復雜函數的潛力,并在實踐中表現良好,但它需要的參數比訓練所需的多得多,因此在實時和移動應用程序中計算和內存使用方面代價昂貴。
[0006]深度CNN的另一個方面是網絡的大小和不同層的互連架構。一般來說,網絡的大小對神經網絡的性能有很大的影響,因此,通常可以通過簡單地增加其大小來提高性能。大小可以通過深度(層數)或寬度(每層的單位/神經元數)來增加。雖然這種增加可能在有大量標記訓練數據的情況下效果很好,但當標記訓練數據的數量很小時,這種增加可能會導致過擬合,并可能在未標記數據的推斷階段效果很差。此外,大型神經網絡的訓練需要大量的
計算資源。一個龐大的網絡,特別是一個沒有必要如此龐大的網絡,最終可能會浪費寶貴的資源;因為大多數已學習的參數最終可能被確定為零或接近零,而可以刪除。
[0007]現有的深CNN方法通常會遇到各種問題。例如,在中間隱藏層中學習到的特征可能會在經過許多后續層后在分類器的最后階段丟失。另一個是梯度消失問題,這可能會導致訓練困難甚至不可行。
技術實現思路
[0008]本專利技術的主要目的在于提供了一種深度卷積神經網絡,其能夠有效的解決中間隱藏層學習的特征丟失以及梯度消失問題。
[0009]本專利技術通過如下技術方案實現上述目的:一種深度卷積神經網絡,順序串聯的多個池卷積層,每個池卷積層接收第一輸入并生成一個池輸出,每個所述池卷積層包括:
[0010]一個隱藏塊,其包括至少一個卷積層,所述卷積層被配置為使用激活函數將至少一個卷積操作應用于所述第一輸入;及
[0011]一個池化層,其被配置為對所述隱藏塊的輸出進一步的應用池操作生成所述池輸出;
[0012]終端隱藏塊,其被配置為接收最后順序串聯的池卷積層的匯集輸出作為第二輸入,所述最終隱藏塊包括至少一個卷積層,其被配置為使用所述激活函數將至少一個卷積操作應用于所述第二輸入;
[0013]多個全局平均池層,每個全局平均池層對隱藏塊的輸出或終端隱藏塊的輸出進行全局平均池操作;
[0014]終端隱藏層,接收組合全局平均池層的輸出;和
[0015]softmax層,配置為對終端隱藏層的輸出進行softmax操作處理。
[0016]進一步的,所述激活函數是多分段線性函數,其表達式為:
[0017][0018]進一步的,所述激活函數的每一部分基于輸入屬于多個端點范圍中的哪一個,端點是可學習的參數。
[0019]進一步的,如果輸入落入端點的中心范圍,則激活函數為恒等映射,否則,激活函數為基于端點范圍和相應斜率的線性函數,相應斜率為可學習參數。
[0020]進一步的,使用多分段線性函數將具有梯度下降的反向傳播應用于人工卷積神經網絡的層。
[0021]進一步的,如果反向傳播的輸出落入端點的中心范圍,則反向傳播函數為1,否則,反向傳播函數基于各自的斜率,各自的斜率為可學習參數。
[0022]進一步的,用于反向傳播的多分段線性函數的表達式為:
[0023][0024]進一步的,全局平均池包括通過級聯將輸出平坦化為一維向量。
[0025]進一步的,將輸入組合到端子塊包括生成輸入到端子塊的每個一維向量的最終權重矩陣。
[0026]本專利技術的另一目的在于提供一種用于執行深度卷積神經網絡的系統,所述系統包括一個或多個處理器和一個或多個非暫時性計算機存儲介質,所述一個或多個非暫時性計算機存儲介質導致所述一個或多個處理器執行:
[0027]輸入模塊,用于接收訓練數據;
[0028]卷積神經網絡模塊,用于:
[0029]將訓練數據的至少一部分傳遞給順序連接的多個池卷積層,每個池卷積層獲取輸入并生成池輸出,每個池卷積層包括:
[0030]卷積塊,其包括至少一個卷積層,所述卷積層被配置為使用激活函數將至少一個卷積操作應用于所述輸入;及
[0031]池層,其被配置為對卷積塊應用池操作以生成池輸出;
[0032]將最后順序連接的池卷積層的輸出傳遞給最終卷積塊,最終卷積塊包括至少一個卷積層,該卷積層被配置為使用激活函數將至少一個卷積操作應用于輸入;
[0033]將多個卷積塊中的每一個的輸出和最終卷積塊的輸出傳遞到多個全局平均池層中的相應一個,每個全局平均池層被配置為將全局平均池操作應用到相應卷積塊的輸出;
[0034]將全局平均池層的輸出傳遞給終端隱藏層,終端隱藏層配置為組合全局平均池層的輸出;和
[0035]將終端隱藏層的輸出傳遞到s本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種深度卷積神經網絡,其特征在于:順序串聯的多個池卷積層,每個池卷積層接收第一輸入并生成一個池輸出,每個所述池卷積層包括:一個隱藏塊,其包括至少一個卷積層,所述卷積層被配置為使用激活函數將至少一個卷積操作應用于所述第一輸入;及一個池化層,其被配置為對所述隱藏塊的輸出進一步的應用池操作生成所述池輸出;終端隱藏塊,其被配置為接收最后順序串聯的池卷積層的匯集輸出作為第二輸入,所述最終隱藏塊包括至少一個卷積層,其被配置為使用所述激活函數將至少一個卷積操作應用于所述第二輸入;多個全局平均池層,每個全局平均池層對隱藏塊的輸出或終端隱藏塊的輸出進行全局平均池操作;終端隱藏層,接收組合全局平均池層的輸出;和softmax層,配置為對終端隱藏層的輸出進行softmax操作處理。2.如權利要求1所述的一種深度卷積神經網絡,其特征在于:所述激活函數是多分段線性函數,其表達式為:3.如權利要求1所述的一種深度卷積神經網絡,其特征在于:所述激活函數的每一部分基于輸入屬于多個端點范圍中的哪一個,端點是可學習的參數。4.如權利要求3所述的一種深度卷積神經網絡,其特征在于:如果輸入落入端點的中心范圍,則激活函數為恒等映射,否則,激活函數為基于端點范圍和相應斜率的線性函數,相應斜率為可學習參數。5.如權利要求1所述的一種深度卷積神經網絡,其特征在于:使用多分段線性函數將具有梯度下降的反向傳播應用于人工卷積神經網絡的層。6.如權利要求5所述的一種深度卷積神經網絡,其特征在于:如果反向傳播的輸出落入端點的中心范圍,則反向傳播函數為1,否則,反向傳播函數基于各自的斜率,各自的斜...
【專利技術屬性】
技術研發人員:何品翰,陳智,
申請(專利權)人:蘇州卓晉通信有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。