System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及神經(jīng)網(wǎng)絡(luò)?,尤其涉及一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置。
技術(shù)介紹
1、隨著智能設(shè)備的普及和計(jì)算機(jī)視覺、語音識(shí)別等技術(shù)的快速發(fā)展,終端設(shè)備(如智能手機(jī)、平板電腦、智能家居設(shè)備和嵌入式系統(tǒng)等)上的分類任務(wù)成為一個(gè)重要的研究領(lǐng)域。
2、分類模型通常會(huì)先在云端進(jìn)行訓(xùn)練,然后部署到終端設(shè)備上使用。盡管模型可以在云端進(jìn)行高效訓(xùn)練,然后部署到終端設(shè)備上,但在終端設(shè)備上進(jìn)行進(jìn)一步訓(xùn)練仍然有其必要性和優(yōu)勢(shì),具體原因包括:隱私保護(hù)、減少數(shù)據(jù)傳輸和延遲還有保持模型的個(gè)性化;然而,終端設(shè)備的計(jì)算能力相對(duì)較弱,難以承載復(fù)雜深度學(xué)習(xí)模型的訓(xùn)練和推理。
3、相關(guān)技術(shù)中,終端設(shè)備采用傳統(tǒng)的深度學(xué)習(xí)模型部署相關(guān)的分類模型,但由于模型計(jì)算能力相對(duì)較弱,針對(duì)復(fù)雜的模型訓(xùn)練和推理場(chǎng)景,通常需要大量的計(jì)算資源來處理高維數(shù)據(jù)和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),這對(duì)于計(jì)算能力有限的終端設(shè)備來說是一個(gè)巨大的挑戰(zhàn),例如,圖片分類任務(wù)中的模型通常包含大量的卷積層和全連接層,需要大量的浮點(diǎn)運(yùn)算,這在計(jì)算資源受限分類模型在終端設(shè)備上表現(xiàn)出的性能低,難以適應(yīng)復(fù)雜場(chǎng)景下的分類需求。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置,用以解決現(xiàn)有技術(shù)中采用傳統(tǒng)的深度學(xué)習(xí)模型在復(fù)雜場(chǎng)景執(zhí)行分類任務(wù)時(shí)計(jì)算資源受限,導(dǎo)致模型訓(xùn)練和推理效率低的缺陷,提高了復(fù)雜場(chǎng)景下的分類模型的訓(xùn)練效率和推理性能。
2、本專利技術(shù)提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,包括:
3、以樣本
4、根據(jù)所述第一量化數(shù)據(jù)和所述第二量化數(shù)據(jù)更新激活值梯度和權(quán)重梯度,并在滿足最大訓(xùn)練次數(shù)的情況下,得到訓(xùn)練完成的二值化網(wǎng)絡(luò)。
5、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,在所述將所述激活值梯度進(jìn)行量化之前,所述方法還包括:
6、將全精度模型在反向傳播過程中輸出的多個(gè)激活值梯度對(duì)應(yīng)的位寬分別與位寬閾值進(jìn)行比較;在目標(biāo)激活值梯度對(duì)應(yīng)的位寬小于所述位寬閾值的情況下,從所述多個(gè)激活值梯度中剔除所述目標(biāo)激活值梯度,得到新的激活值梯度。
7、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,在所述得到新的激活值梯度之后,所述方法還包括:
8、通過下式對(duì)所述新的激活值梯度進(jìn)行無損分解,以更新所述全精度模型在反向傳播過程中的激活值梯度和權(quán)重梯度的計(jì)算策略:
9、;
10、其中,為位元素第 i位的值, i為元素位數(shù), i∈{0,…, b}。
11、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,在所述得到具備目標(biāo)位寬的第一量化數(shù)據(jù)之后,所述方法還包括:
12、在所述全精度模型根據(jù)所述第一量化數(shù)據(jù)進(jìn)行反向傳播的情況下,對(duì)模型的多個(gè)輸出激活值之間的梯度進(jìn)行通道分組量化,得到所述輸出激活值梯度;對(duì)模型的多個(gè)權(quán)重之間的梯度進(jìn)行樣本分組量化,得到權(quán)重梯度。
13、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,在所述以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練之前,所述方法還包括:
14、對(duì)所述樣本圖像進(jìn)行去除無效數(shù)據(jù)、處理缺失值和消除重復(fù)項(xiàng)的處理,得到處理后的樣本圖像。
15、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,所述全精度模型在反向傳播過程中的激活值梯度計(jì)算策略通過下式表示:
16、;
17、其中,為第 l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的激活值梯度,為第 l層網(wǎng)絡(luò)對(duì)應(yīng)權(quán)重的轉(zhuǎn)置,sign為函數(shù);為第 l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的激活值梯度,為 b位的樣本分組量化器;為剪枝掩碼;
18、所述全精度模型在反向傳播過程中的權(quán)重梯度的計(jì)算策略通過下式表示:
19、;
20、其中,為第l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的權(quán)重梯度,為第 l-1層的激活值,為 b比特的通道分組量化操作,為剪枝掩碼。
21、本專利技術(shù)還提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練裝置,包括:
22、量化模塊,用于以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練,在全量化訓(xùn)練的前向傳播過程中,將所述全精度模型的權(quán)重和輸入激活值進(jìn)行量化,得到具備目標(biāo)位寬的第一量化數(shù)據(jù);在通過對(duì)所述具備目標(biāo)位寬的第一量化數(shù)據(jù)進(jìn)行反向傳播并輸出激活值梯度的情況下,將所述激活值梯度進(jìn)行量化,得到具備所述目標(biāo)位寬的第二量化數(shù)據(jù);
23、訓(xùn)練模塊,用于根據(jù)所述第一量化數(shù)據(jù)和所述第二量化數(shù)據(jù)更新所述輸入激活值,并在滿足最大訓(xùn)練次數(shù)的情況下,得到訓(xùn)練完成的二值化網(wǎng)絡(luò)。
24、本專利技術(shù)還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。
25、本專利技術(shù)還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。
26、本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。
27、本專利技術(shù)提供的基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置,通過在對(duì)全精度模型進(jìn)行全量化訓(xùn)練的前向傳播過程中,將權(quán)重和輸入激活值進(jìn)行量化至目標(biāo)位寬;在通過對(duì)具備目標(biāo)位寬的第一量化數(shù)據(jù)進(jìn)行反向傳播并輸出激活值梯度的情況下,將激活值梯度進(jìn)行量化至相同的位寬,并以此更新輸入激活值的梯度和權(quán)重的梯度,實(shí)現(xiàn)了二值化梯度訓(xùn)練,并有效降低模型的訓(xùn)練功耗以及內(nèi)存和算力的需求,進(jìn)而提高了復(fù)雜場(chǎng)景下的分類模型的訓(xùn)練效率和推理性能。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述將所述激活值梯度進(jìn)行量化之前,所述方法還包括:
3.根據(jù)權(quán)利要求2所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述得到新的激活值梯度之后,所述方法還包括:
4.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述得到具備目標(biāo)位寬的第一量化數(shù)據(jù)之后,所述方法還包括:
5.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練之前,所述方法還包括:
6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,所述全精度模型在反向傳播過程中的激活值梯度計(jì)算策略通過下式表示:
7.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。
...【技術(shù)特征摘要】
1.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述將所述激活值梯度進(jìn)行量化之前,所述方法還包括:
3.根據(jù)權(quán)利要求2所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述得到新的激活值梯度之后,所述方法還包括:
4.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述得到具備目標(biāo)位寬的第一量化數(shù)據(jù)之后,所述方法還包括:
5.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法,其特征在于,在所述以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練之前,所述方法還包括:
6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述基于梯度量化的二...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:景麗萍,陳鍵飛,高暢,蘇若愚,
申請(qǐng)(專利權(quán))人:北京交通大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。