深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)制造方法及圖紙

技術(shù)編號：44514879 閱讀：0 留言：0更新日期：2025-03-07 13:10

本發(fā)明專利技術(shù)涉及人工智能技術(shù)領(lǐng)域，公開了一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。通過將初始時序數(shù)據(jù)對應(yīng)的第一分解變量和第二分解變量，依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層進(jìn)行向前傳播，預(yù)測得出第N高層激活特征和第N低層激活特征，以完成對初始時序數(shù)據(jù)的預(yù)測處理；依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層，對第N高層激活特征、第N低層激活特征以及根據(jù)第N高層激活特征所計算的目標(biāo)損失值進(jìn)行逆向傳播，依次計算出每一可逆注意力層對應(yīng)的高層反解特征和低層反解特征，從而無需保持每層可逆注意力層的載入狀態(tài)下，完成對原始神經(jīng)網(wǎng)絡(luò)模型更新，提高了神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于邊端設(shè)備的適用性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及人工智能，尤其涉及一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。

技術(shù)介紹

1、邊緣計算具有處理延遲低、數(shù)據(jù)泄露風(fēng)險低和數(shù)據(jù)傳輸成本低的特點(diǎn)，且由于不過度依賴網(wǎng)絡(luò)，邊緣計算還可以應(yīng)對設(shè)備在離線狀態(tài)時，及時執(zhí)行本地的數(shù)據(jù)處理任務(wù)的優(yōu)勢，邊緣計算得到廣泛的應(yīng)用。

2、由于基于注意力機(jī)制的transformer模型，無論在自然語言處理還是計算機(jī)視覺方面都有較為強(qiáng)勢的特點(diǎn)，但完善的transformer模型參數(shù)極為龐大，常見的業(yè)務(wù)的處理方式為用戶在客戶端輸入數(shù)據(jù)，通過網(wǎng)絡(luò)將待處理數(shù)據(jù)發(fā)送至服務(wù)器，利用服務(wù)器的transformer模型進(jìn)行處理。而上述方式存在延遲高、依賴網(wǎng)絡(luò)和數(shù)據(jù)泄露風(fēng)險高的問題，尤其是在處理金融領(lǐng)域的業(yè)務(wù)時，不能滿足金融領(lǐng)域業(yè)務(wù)的低延遲性、高安全性的特點(diǎn)。

3、現(xiàn)有技術(shù)中，由于transformer模型具有參數(shù)和結(jié)構(gòu)復(fù)雜程度高、計算復(fù)雜程度高以及能耗較高的特點(diǎn)，邊緣設(shè)備受限于算力、內(nèi)存和能耗等方面的限制，無法直接將transformer模型的多層神經(jīng)網(wǎng)絡(luò)直接進(jìn)行載入；并且由于transformer模型的每層神經(jīng)網(wǎng)絡(luò)的在數(shù)據(jù)傳遞期間，還需要緩存各層所輸出的特征表示，以用于各層神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。由上述可知，當(dāng)前transformer模型直接應(yīng)用于邊緣設(shè)備，對于邊端設(shè)備的配置要求極為苛刻，因此在transformer模型應(yīng)用于邊端設(shè)備時，transformer模型存在適用性差的問題。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)實施例提供一種深度

2、本專利技術(shù)實施例提供了一種深度學(xué)習(xí)模型訓(xùn)練方法，包括：

3、獲取初始時序數(shù)據(jù)；

4、對所述初始時序數(shù)據(jù)進(jìn)行分解，獲取第一分解變量和第二分解變量；

5、依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播，獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征；根據(jù)所述第n高層激活特征，獲取目標(biāo)損失值；其中，n為正整數(shù)；

6、依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播，獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征；

7、根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征，對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新，獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

8、本專利技術(shù)實施例還提供了一種深度學(xué)習(xí)模型訓(xùn)練裝置，包括：

9、初始時序數(shù)據(jù)獲取模塊，用于獲取初始時序數(shù)據(jù)；

10、初始時序數(shù)據(jù)分解模塊，用于對所述初始時序數(shù)據(jù)進(jìn)行分解，獲取第一分解變量和第二分解變量；

11、前向傳播模塊，用于依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播，獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征；根據(jù)所述第n高層激活特征，獲取目標(biāo)損失值；其中，n為正整數(shù)；

12、逆向傳播模塊，用于依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播，獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征；

13、目標(biāo)神經(jīng)網(wǎng)絡(luò)模型獲取模塊，用于根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征，對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新，獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

14、本專利技術(shù)實施例還提供了一種計算機(jī)設(shè)備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。

15、本專利技術(shù)實施例還提供了一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。

16、上述的深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)，通過將初始時序數(shù)據(jù)分解為第一分解變量和第二分解變量后，依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對第一分解變量和第二分解變量進(jìn)行向前傳播，預(yù)測得出第n高層激活特征和第n低層激活特征，以完成對初始時序數(shù)據(jù)的預(yù)測處理；依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對第n高層激活特征、第n低層激活特征以及根據(jù)第n高層激活特征所計算的目標(biāo)損失值進(jìn)行逆向傳播，依次計算出每一可逆注意力層對應(yīng)的高層反解特征和低層反解特征，從而無需保持每層可逆注意力層的載入狀態(tài)下，完成對原始神經(jīng)網(wǎng)絡(luò)模型更新，提高了神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于邊端設(shè)備的適用性。

17、在通過常用邊端設(shè)備加載神經(jīng)網(wǎng)絡(luò)模型（transformer模型）時，可以通過內(nèi)存依次載入transformer模型的各層可逆神經(jīng)網(wǎng)絡(luò)，不必同時載入整個transformer模型。解決了邊緣設(shè)備上部署神經(jīng)網(wǎng)絡(luò)模型，所存在的模型體積大、計算成本高、能耗問題、實時性要求差和傳輸成本高等問題。而在將神經(jīng)網(wǎng)絡(luò)模型部署在邊端設(shè)備上時，滿足了在金融領(lǐng)域中的欺詐檢測、風(fēng)險評估和個性化金融等業(yè)務(wù)的低延遲性、高安全性的需求。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種深度學(xué)習(xí)模型的訓(xùn)練方法，其特征在于，包括：

2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層，對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播，獲取所述第一分解變量對應(yīng)的第N高層激活特征和所述第二分解變量對應(yīng)的第N低層激活特征，包括：

3.如權(quán)利要求2所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述對所述第一分解變量和所述第二分解變量進(jìn)行前向計算，輸出所述第一分解變量對應(yīng)的第1高層激活特征和所述第二分解變量對應(yīng)的第1低層激活特征，包括：

4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層，對所述目標(biāo)損失值、所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播，獲取所述第N高層激活特征對應(yīng)的第1高層反解特征和所述第N低層激活特征對應(yīng)的第1低層反解特征，包括：

5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述對所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播，輸出所述第N高層激活特征對應(yīng)的第N高層反解特征和所

6.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征，對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新，獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型，包括：

7.如權(quán)利要求6所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述對所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征進(jìn)行梯度計算，獲取第1目標(biāo)梯度值；根據(jù)所述第1目標(biāo)梯度值，對所述第1層原始參數(shù)進(jìn)行更新處理，獲取第1層目標(biāo)參數(shù)，包括：

8.一種深度學(xué)習(xí)模型訓(xùn)練裝置，其特征在于，包括：

9.一種計算機(jī)設(shè)備，包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。

10.一種計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序，其特征在于，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。

...

【技術(shù)特征摘要】

1.一種深度學(xué)習(xí)模型的訓(xùn)練方法，其特征在于，包括：

2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播，獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征，包括：

4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層，對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播，獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征，包括：

5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述對所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播，輸出所述第n高層激活特征對應(yīng)的...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：瞿曉陽，王健宗，
申請(專利權(quán))人：平安科技深圳有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)