System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及人工智能,尤其涉及一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。
技術(shù)介紹
1、邊緣計算具有處理延遲低、數(shù)據(jù)泄露風(fēng)險低和數(shù)據(jù)傳輸成本低的特點(diǎn),且由于不過度依賴網(wǎng)絡(luò),邊緣計算還可以應(yīng)對設(shè)備在離線狀態(tài)時,及時執(zhí)行本地的數(shù)據(jù)處理任務(wù)的優(yōu)勢,邊緣計算得到廣泛的應(yīng)用。
2、由于基于注意力機(jī)制的transformer模型,無論在自然語言處理還是計算機(jī)視覺方面都有較為強(qiáng)勢的特點(diǎn),但完善的transformer模型參數(shù)極為龐大,常見的業(yè)務(wù)的處理方式為用戶在客戶端輸入數(shù)據(jù),通過網(wǎng)絡(luò)將待處理數(shù)據(jù)發(fā)送至服務(wù)器,利用服務(wù)器的transformer模型進(jìn)行處理。而上述方式存在延遲高、依賴網(wǎng)絡(luò)和數(shù)據(jù)泄露風(fēng)險高的問題,尤其是在處理金融領(lǐng)域的業(yè)務(wù)時,不能滿足金融領(lǐng)域業(yè)務(wù)的低延遲性、高安全性的特點(diǎn)。
3、現(xiàn)有技術(shù)中,由于transformer模型具有參數(shù)和結(jié)構(gòu)復(fù)雜程度高、計算復(fù)雜程度高以及能耗較高的特點(diǎn),邊緣設(shè)備受限于算力、內(nèi)存和能耗等方面的限制,無法直接將transformer模型的多層神經(jīng)網(wǎng)絡(luò)直接進(jìn)行載入;并且由于transformer模型的每層神經(jīng)網(wǎng)絡(luò)的在數(shù)據(jù)傳遞期間,還需要緩存各層所輸出的特征表示,以用于各層神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。由上述可知,當(dāng)前transformer模型直接應(yīng)用于邊緣設(shè)備,對于邊端設(shè)備的配置要求極為苛刻,因此在transformer模型應(yīng)用于邊端設(shè)備時,transformer模型存在適用性差的問題。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)實施例提供一種深度
2、本專利技術(shù)實施例提供了一種深度學(xué)習(xí)模型訓(xùn)練方法,包括:
3、獲取初始時序數(shù)據(jù);
4、對所述初始時序數(shù)據(jù)進(jìn)行分解,獲取第一分解變量和第二分解變量;
5、依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征;根據(jù)所述第n高層激活特征,獲取目標(biāo)損失值;其中,n為正整數(shù);
6、依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征;
7、根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。
8、本專利技術(shù)實施例還提供了一種深度學(xué)習(xí)模型訓(xùn)練裝置,包括:
9、初始時序數(shù)據(jù)獲取模塊,用于獲取初始時序數(shù)據(jù);
10、初始時序數(shù)據(jù)分解模塊,用于對所述初始時序數(shù)據(jù)進(jìn)行分解,獲取第一分解變量和第二分解變量;
11、前向傳播模塊,用于依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征;根據(jù)所述第n高層激活特征,獲取目標(biāo)損失值;其中,n為正整數(shù);
12、逆向傳播模塊,用于依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征;
13、目標(biāo)神經(jīng)網(wǎng)絡(luò)模型獲取模塊,用于根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。
14、本專利技術(shù)實施例還提供了一種計算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。
15、本專利技術(shù)實施例還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。
16、上述的深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),通過將初始時序數(shù)據(jù)分解為第一分解變量和第二分解變量后,依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對第一分解變量和第二分解變量進(jìn)行向前傳播,預(yù)測得出第n高層激活特征和第n低層激活特征,以完成對初始時序數(shù)據(jù)的預(yù)測處理;依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對第n高層激活特征、第n低層激活特征以及根據(jù)第n高層激活特征所計算的目標(biāo)損失值進(jìn)行逆向傳播,依次計算出每一可逆注意力層對應(yīng)的高層反解特征和低層反解特征,從而無需保持每層可逆注意力層的載入狀態(tài)下,完成對原始神經(jīng)網(wǎng)絡(luò)模型更新,提高了神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于邊端設(shè)備的適用性。
17、在通過常用邊端設(shè)備加載神經(jīng)網(wǎng)絡(luò)模型(transformer模型)時,可以通過內(nèi)存依次載入transformer模型的各層可逆神經(jīng)網(wǎng)絡(luò),不必同時載入整個transformer模型。解決了邊緣設(shè)備上部署神經(jīng)網(wǎng)絡(luò)模型,所存在的模型體積大、計算成本高、能耗問題、實時性要求差和傳輸成本高等問題。而在將神經(jīng)網(wǎng)絡(luò)模型部署在邊端設(shè)備上時,滿足了在金融領(lǐng)域中的欺詐檢測、風(fēng)險評估和個性化金融等業(yè)務(wù)的低延遲性、高安全性的需求。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種深度學(xué)習(xí)模型的訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第N高層激活特征和所述第二分解變量對應(yīng)的第N低層激活特征,包括:
3.如權(quán)利要求2所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第一分解變量和所述第二分解變量進(jìn)行前向計算,輸出所述第一分解變量對應(yīng)的第1高層激活特征和所述第二分解變量對應(yīng)的第1低層激活特征,包括:
4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層,對所述目標(biāo)損失值、所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播,獲取所述第N高層激活特征對應(yīng)的第1高層反解特征和所述第N低層激活特征對應(yīng)的第1低層反解特征,包括:
5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播,輸出所述第N高層激活特征對應(yīng)的第N高層反解特征和所
6.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,包括:
7.如權(quán)利要求6所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征進(jìn)行梯度計算,獲取第1目標(biāo)梯度值;根據(jù)所述第1目標(biāo)梯度值,對所述第1層原始參數(shù)進(jìn)行更新處理,獲取第1層目標(biāo)參數(shù),包括:
8.一種深度學(xué)習(xí)模型訓(xùn)練裝置,其特征在于,包括:
9.一種計算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。
10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。
...【技術(shù)特征摘要】
1.一種深度學(xué)習(xí)模型的訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征,包括:
3.如權(quán)利要求2所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第一分解變量和所述第二分解變量進(jìn)行前向計算,輸出所述第一分解變量對應(yīng)的第1高層激活特征和所述第二分解變量對應(yīng)的第1低層激活特征,包括:
4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征,包括:
5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,輸出所述第n高層激活特征對應(yīng)的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:瞿曉陽,王健宗,
申請(專利權(quán))人:平安科技深圳有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。