基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置制造方法及圖紙

技術(shù)編號(hào)：44506451 閱讀：4 留言：0更新日期：2025-03-07 13:04

本發(fā)明專利技術(shù)提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置，該方法包括：以樣本圖像為訓(xùn)練樣本、以樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練過程中，將全精度模型的權(quán)重和輸入激活值進(jìn)行量化，得到具備目標(biāo)位寬的第一量化數(shù)據(jù)；在通過對(duì)具備目標(biāo)位寬的第一量化數(shù)據(jù)進(jìn)行反向傳播并輸出激活值梯度的情況下，將激活值梯度進(jìn)行量化，得到具備目標(biāo)位寬的第二量化數(shù)據(jù)；根據(jù)第一量化數(shù)據(jù)和第二量化數(shù)據(jù)更新激活值梯度和權(quán)重梯度，得到訓(xùn)練完成的二值化網(wǎng)絡(luò)。本發(fā)明專利技術(shù)所述方法實(shí)現(xiàn)了二值化梯度訓(xùn)練，并有效降低模型的訓(xùn)練功耗以及內(nèi)存和算力的需求，進(jìn)而提高了復(fù)雜場(chǎng)景下的分類模型的訓(xùn)練效率和推理性能。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及神經(jīng)網(wǎng)絡(luò)?，尤其涉及一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置。

技術(shù)介紹

1、隨著智能設(shè)備的普及和計(jì)算機(jī)視覺、語音識(shí)別等技術(shù)的快速發(fā)展，終端設(shè)備（如智能手機(jī)、平板電腦、智能家居設(shè)備和嵌入式系統(tǒng)等）上的分類任務(wù)成為一個(gè)重要的研究領(lǐng)域。

2、分類模型通常會(huì)先在云端進(jìn)行訓(xùn)練，然后部署到終端設(shè)備上使用。盡管模型可以在云端進(jìn)行高效訓(xùn)練，然后部署到終端設(shè)備上，但在終端設(shè)備上進(jìn)行進(jìn)一步訓(xùn)練仍然有其必要性和優(yōu)勢(shì)，具體原因包括：隱私保護(hù)、減少數(shù)據(jù)傳輸和延遲還有保持模型的個(gè)性化；然而，終端設(shè)備的計(jì)算能力相對(duì)較弱，難以承載復(fù)雜深度學(xué)習(xí)模型的訓(xùn)練和推理。

3、相關(guān)技術(shù)中，終端設(shè)備采用傳統(tǒng)的深度學(xué)習(xí)模型部署相關(guān)的分類模型，但由于模型計(jì)算能力相對(duì)較弱，針對(duì)復(fù)雜的模型訓(xùn)練和推理場(chǎng)景，通常需要大量的計(jì)算資源來處理高維數(shù)據(jù)和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，這對(duì)于計(jì)算能力有限的終端設(shè)備來說是一個(gè)巨大的挑戰(zhàn)，例如，圖片分類任務(wù)中的模型通常包含大量的卷積層和全連接層，需要大量的浮點(diǎn)運(yùn)算，這在計(jì)算資源受限分類模型在終端設(shè)備上表現(xiàn)出的性能低，難以適應(yīng)復(fù)雜場(chǎng)景下的分類需求。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置，用以解決現(xiàn)有技術(shù)中采用傳統(tǒng)的深度學(xué)習(xí)模型在復(fù)雜場(chǎng)景執(zhí)行分類任務(wù)時(shí)計(jì)算資源受限，導(dǎo)致模型訓(xùn)練和推理效率低的缺陷，提高了復(fù)雜場(chǎng)景下的分類模型的訓(xùn)練效率和推理性能。

2、本專利技術(shù)提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，包括：

3、以樣本

4、根據(jù)所述第一量化數(shù)據(jù)和所述第二量化數(shù)據(jù)更新激活值梯度和權(quán)重梯度，并在滿足最大訓(xùn)練次數(shù)的情況下，得到訓(xùn)練完成的二值化網(wǎng)絡(luò)。

5、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，在所述將所述激活值梯度進(jìn)行量化之前，所述方法還包括：

6、將全精度模型在反向傳播過程中輸出的多個(gè)激活值梯度對(duì)應(yīng)的位寬分別與位寬閾值進(jìn)行比較；在目標(biāo)激活值梯度對(duì)應(yīng)的位寬小于所述位寬閾值的情況下，從所述多個(gè)激活值梯度中剔除所述目標(biāo)激活值梯度，得到新的激活值梯度。

7、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，在所述得到新的激活值梯度之后，所述方法還包括：

8、通過下式對(duì)所述新的激活值梯度進(jìn)行無損分解，以更新所述全精度模型在反向傳播過程中的激活值梯度和權(quán)重梯度的計(jì)算策略：

9、；

10、其中，為位元素第 i位的值， i為元素位數(shù)， i∈{0,…, b}。

11、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，在所述得到具備目標(biāo)位寬的第一量化數(shù)據(jù)之后，所述方法還包括：

12、在所述全精度模型根據(jù)所述第一量化數(shù)據(jù)進(jìn)行反向傳播的情況下，對(duì)模型的多個(gè)輸出激活值之間的梯度進(jìn)行通道分組量化，得到所述輸出激活值梯度；對(duì)模型的多個(gè)權(quán)重之間的梯度進(jìn)行樣本分組量化，得到權(quán)重梯度。

13、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，在所述以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練之前，所述方法還包括：

14、對(duì)所述樣本圖像進(jìn)行去除無效數(shù)據(jù)、處理缺失值和消除重復(fù)項(xiàng)的處理，得到處理后的樣本圖像。

15、根據(jù)本專利技術(shù)提供的一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，所述全精度模型在反向傳播過程中的激活值梯度計(jì)算策略通過下式表示：

16、；

17、其中，為第 l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的激活值梯度，為第 l層網(wǎng)絡(luò)對(duì)應(yīng)權(quán)重的轉(zhuǎn)置，sign為函數(shù)；為第 l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的激活值梯度，為 b位的樣本分組量化器；為剪枝掩碼；

18、所述全精度模型在反向傳播過程中的權(quán)重梯度的計(jì)算策略通過下式表示：

19、；

20、其中，為第l層網(wǎng)絡(luò)對(duì)應(yīng)的量化后的權(quán)重梯度，為第 l-1層的激活值，為 b比特的通道分組量化操作，為剪枝掩碼。

21、本專利技術(shù)還提供一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練裝置，包括：

22、量化模塊，用于以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練，在全量化訓(xùn)練的前向傳播過程中，將所述全精度模型的權(quán)重和輸入激活值進(jìn)行量化，得到具備目標(biāo)位寬的第一量化數(shù)據(jù)；在通過對(duì)所述具備目標(biāo)位寬的第一量化數(shù)據(jù)進(jìn)行反向傳播并輸出激活值梯度的情況下，將所述激活值梯度進(jìn)行量化，得到具備所述目標(biāo)位寬的第二量化數(shù)據(jù)；

23、訓(xùn)練模塊，用于根據(jù)所述第一量化數(shù)據(jù)和所述第二量化數(shù)據(jù)更新所述輸入激活值，并在滿足最大訓(xùn)練次數(shù)的情況下，得到訓(xùn)練完成的二值化網(wǎng)絡(luò)。

24、本專利技術(shù)還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。

25、本專利技術(shù)還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。

26、本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。

27、本專利技術(shù)提供的基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法及裝置，通過在對(duì)全精度模型進(jìn)行全量化訓(xùn)練的前向傳播過程中，將權(quán)重和輸入激活值進(jìn)行量化至目標(biāo)位寬；在通過對(duì)具備目標(biāo)位寬的第一量化數(shù)據(jù)進(jìn)行反向傳播并輸出激活值梯度的情況下，將激活值梯度進(jìn)行量化至相同的位寬，并以此更新輸入激活值的梯度和權(quán)重的梯度，實(shí)現(xiàn)了二值化梯度訓(xùn)練，并有效降低模型的訓(xùn)練功耗以及內(nèi)存和算力的需求，進(jìn)而提高了復(fù)雜場(chǎng)景下的分類模型的訓(xùn)練效率和推理性能。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，在所述將所述激活值梯度進(jìn)行量化之前，所述方法還包括：

3.根據(jù)權(quán)利要求2所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，在所述得到新的激活值梯度之后，所述方法還包括：

4.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，在所述得到具備目標(biāo)位寬的第一量化數(shù)據(jù)之后，所述方法還包括：

5.根據(jù)權(quán)利要求1所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，在所述以樣本圖像為訓(xùn)練樣本、以所述樣本圖像的類標(biāo)簽為訓(xùn)練標(biāo)簽對(duì)全精度模型進(jìn)行全量化訓(xùn)練之前，所述方法還包括：

6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，所述全精度模型在反向傳播過程中的激活值梯度計(jì)算策略通過下式表示：

7.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練裝置，其特征在于，包括：

8.一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，其特征

9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。

10.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法。

...

【技術(shù)特征摘要】

1.一種基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，包括：

3.根據(jù)權(quán)利要求2所述基于梯度量化的二值化網(wǎng)絡(luò)訓(xùn)練方法，其特征在于，在所述得到新的激活值梯度之后，所述方法還包括：

6.根據(jù)權(quán)利要求1-4任一項(xiàng)所述基于梯度量化的二...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：景麗萍，陳鍵飛，高暢，蘇若愚，
申請(qǐng)(專利權(quán))人：北京交通大學(xué)，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)