System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻少妇久久中文字幕蜜桃,免费A级毛片无码专区,久久久无码精品亚洲日韩京东传媒
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)制造方法及圖紙

    技術(shù)編號:44514879 閱讀:0 留言:0更新日期:2025-03-07 13:10
    本發(fā)明專利技術(shù)涉及人工智能技術(shù)領(lǐng)域,公開了一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)。通過將初始時序數(shù)據(jù)對應(yīng)的第一分解變量和第二分解變量,依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層進(jìn)行向前傳播,預(yù)測得出第N高層激活特征和第N低層激活特征,以完成對初始時序數(shù)據(jù)的預(yù)測處理;依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層,對第N高層激活特征、第N低層激活特征以及根據(jù)第N高層激活特征所計算的目標(biāo)損失值進(jìn)行逆向傳播,依次計算出每一可逆注意力層對應(yīng)的高層反解特征和低層反解特征,從而無需保持每層可逆注意力層的載入狀態(tài)下,完成對原始神經(jīng)網(wǎng)絡(luò)模型更新,提高了神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于邊端設(shè)備的適用性。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及人工智能,尤其涉及一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)


    技術(shù)介紹

    1、邊緣計算具有處理延遲低、數(shù)據(jù)泄露風(fēng)險低和數(shù)據(jù)傳輸成本低的特點(diǎn),且由于不過度依賴網(wǎng)絡(luò),邊緣計算還可以應(yīng)對設(shè)備在離線狀態(tài)時,及時執(zhí)行本地的數(shù)據(jù)處理任務(wù)的優(yōu)勢,邊緣計算得到廣泛的應(yīng)用。

    2、由于基于注意力機(jī)制的transformer模型,無論在自然語言處理還是計算機(jī)視覺方面都有較為強(qiáng)勢的特點(diǎn),但完善的transformer模型參數(shù)極為龐大,常見的業(yè)務(wù)的處理方式為用戶在客戶端輸入數(shù)據(jù),通過網(wǎng)絡(luò)將待處理數(shù)據(jù)發(fā)送至服務(wù)器,利用服務(wù)器的transformer模型進(jìn)行處理。而上述方式存在延遲高、依賴網(wǎng)絡(luò)和數(shù)據(jù)泄露風(fēng)險高的問題,尤其是在處理金融領(lǐng)域的業(yè)務(wù)時,不能滿足金融領(lǐng)域業(yè)務(wù)的低延遲性、高安全性的特點(diǎn)。

    3、現(xiàn)有技術(shù)中,由于transformer模型具有參數(shù)和結(jié)構(gòu)復(fù)雜程度高、計算復(fù)雜程度高以及能耗較高的特點(diǎn),邊緣設(shè)備受限于算力、內(nèi)存和能耗等方面的限制,無法直接將transformer模型的多層神經(jīng)網(wǎng)絡(luò)直接進(jìn)行載入;并且由于transformer模型的每層神經(jīng)網(wǎng)絡(luò)的在數(shù)據(jù)傳遞期間,還需要緩存各層所輸出的特征表示,以用于各層神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。由上述可知,當(dāng)前transformer模型直接應(yīng)用于邊緣設(shè)備,對于邊端設(shè)備的配置要求極為苛刻,因此在transformer模型應(yīng)用于邊端設(shè)備時,transformer模型存在適用性差的問題。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)實施例提供一種深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),解決了在transformer模型應(yīng)用于邊端設(shè)備時,transformer模型存在適用性差的問題。

    2、本專利技術(shù)實施例提供了一種深度學(xué)習(xí)模型訓(xùn)練方法,包括:

    3、獲取初始時序數(shù)據(jù);

    4、對所述初始時序數(shù)據(jù)進(jìn)行分解,獲取第一分解變量和第二分解變量;

    5、依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征;根據(jù)所述第n高層激活特征,獲取目標(biāo)損失值;其中,n為正整數(shù);

    6、依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征;

    7、根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

    8、本專利技術(shù)實施例還提供了一種深度學(xué)習(xí)模型訓(xùn)練裝置,包括:

    9、初始時序數(shù)據(jù)獲取模塊,用于獲取初始時序數(shù)據(jù);

    10、初始時序數(shù)據(jù)分解模塊,用于對所述初始時序數(shù)據(jù)進(jìn)行分解,獲取第一分解變量和第二分解變量;

    11、前向傳播模塊,用于依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征;根據(jù)所述第n高層激活特征,獲取目標(biāo)損失值;其中,n為正整數(shù);

    12、逆向傳播模塊,用于依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征;

    13、目標(biāo)神經(jīng)網(wǎng)絡(luò)模型獲取模塊,用于根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型。

    14、本專利技術(shù)實施例還提供了一種計算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。

    15、本專利技術(shù)實施例還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述實現(xiàn)深度學(xué)習(xí)模型訓(xùn)練方法。

    16、上述的深度學(xué)習(xí)模型訓(xùn)練方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì),通過將初始時序數(shù)據(jù)分解為第一分解變量和第二分解變量后,依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對第一分解變量和第二分解變量進(jìn)行向前傳播,預(yù)測得出第n高層激活特征和第n低層激活特征,以完成對初始時序數(shù)據(jù)的預(yù)測處理;依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對第n高層激活特征、第n低層激活特征以及根據(jù)第n高層激活特征所計算的目標(biāo)損失值進(jìn)行逆向傳播,依次計算出每一可逆注意力層對應(yīng)的高層反解特征和低層反解特征,從而無需保持每層可逆注意力層的載入狀態(tài)下,完成對原始神經(jīng)網(wǎng)絡(luò)模型更新,提高了神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于邊端設(shè)備的適用性。

    17、在通過常用邊端設(shè)備加載神經(jīng)網(wǎng)絡(luò)模型(transformer模型)時,可以通過內(nèi)存依次載入transformer模型的各層可逆神經(jīng)網(wǎng)絡(luò),不必同時載入整個transformer模型。解決了邊緣設(shè)備上部署神經(jīng)網(wǎng)絡(luò)模型,所存在的模型體積大、計算成本高、能耗問題、實時性要求差和傳輸成本高等問題。而在將神經(jīng)網(wǎng)絡(luò)模型部署在邊端設(shè)備上時,滿足了在金融領(lǐng)域中的欺詐檢測、風(fēng)險評估和個性化金融等業(yè)務(wù)的低延遲性、高安全性的需求。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種深度學(xué)習(xí)模型的訓(xùn)練方法,其特征在于,包括:

    2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第N高層激活特征和所述第二分解變量對應(yīng)的第N低層激活特征,包括:

    3.如權(quán)利要求2所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第一分解變量和所述第二分解變量進(jìn)行前向計算,輸出所述第一分解變量對應(yīng)的第1高層激活特征和所述第二分解變量對應(yīng)的第1低層激活特征,包括:

    4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的N個可逆注意力層,對所述目標(biāo)損失值、所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播,獲取所述第N高層激活特征對應(yīng)的第1高層反解特征和所述第N低層激活特征對應(yīng)的第1低層反解特征,包括:

    5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第N高層激活特征和所述第N低層激活特征進(jìn)行逆向傳播,輸出所述第N高層激活特征對應(yīng)的第N高層反解特征和所述第N低層激活特征對應(yīng)的第N低層反解特征,包括:

    6.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述根據(jù)所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征,對所述原始神經(jīng)網(wǎng)絡(luò)模型中的第1層原始參數(shù)進(jìn)行更新,獲取目標(biāo)神經(jīng)網(wǎng)絡(luò)模型,包括:

    7.如權(quán)利要求6所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述目標(biāo)損失值、所述第1高層反解特征和所述第1低層反解特征進(jìn)行梯度計算,獲取第1目標(biāo)梯度值;根據(jù)所述第1目標(biāo)梯度值,對所述第1層原始參數(shù)進(jìn)行更新處理,獲取第1層目標(biāo)參數(shù),包括:

    8.一種深度學(xué)習(xí)模型訓(xùn)練裝置,其特征在于,包括:

    9.一種計算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。

    10.一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述深度學(xué)習(xí)模型訓(xùn)練方法。

    ...

    【技術(shù)特征摘要】

    1.一種深度學(xué)習(xí)模型的訓(xùn)練方法,其特征在于,包括:

    2.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述第一分解變量和所述第二分解變量進(jìn)行前向傳播,獲取所述第一分解變量對應(yīng)的第n高層激活特征和所述第二分解變量對應(yīng)的第n低層激活特征,包括:

    3.如權(quán)利要求2所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第一分解變量和所述第二分解變量進(jìn)行前向計算,輸出所述第一分解變量對應(yīng)的第1高層激活特征和所述第二分解變量對應(yīng)的第1低層激活特征,包括:

    4.如權(quán)利要求1所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述依次載入所述原始神經(jīng)網(wǎng)絡(luò)模型中的n個可逆注意力層,對所述目標(biāo)損失值、所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,獲取所述第n高層激活特征對應(yīng)的第1高層反解特征和所述第n低層激活特征對應(yīng)的第1低層反解特征,包括:

    5.如權(quán)利要求4所述深度學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述對所述第n高層激活特征和所述第n低層激活特征進(jìn)行逆向傳播,輸出所述第n高層激活特征對應(yīng)的...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:瞿曉陽王健宗
    申請(專利權(quán))人:平安科技深圳有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码av中文一区二区三区桃花岛| 亚洲人成人伊人成综合网无码| 中文字幕人妻无码专区| 亚洲大尺度无码无码专区| 蜜臀AV无码精品人妻色欲| 亚洲Av无码乱码在线播放| 精品人体无码一区二区三区| 亚洲AV无码一区二区三区DV| 无码人妻精品一区二| 亚洲成在人线在线播放无码| 久久久久久亚洲av成人无码国产| 精品少妇人妻av无码专区| 亚洲人成人伊人成综合网无码| 国产爆乳无码视频在线观看 | 亚洲国产91精品无码专区| 久久亚洲精品无码aⅴ大香 | 精品无码三级在线观看视频| 中文无码热在线视频| 无码人妻丰满熟妇精品区| 日本爆乳j罩杯无码视频| 亚洲一级特黄大片无码毛片| 亚洲AV无码一区二区三区久久精品| 亚洲AV无码专区在线播放中文 | 中文字幕AV中文字无码亚| 无码视频在线播放一二三区| 一本一道VS无码中文字幕| 无码福利写真片视频在线播放| 国产AV无码专区亚洲AV男同| 亚洲韩国精品无码一区二区三区 | 无码少妇一区二区浪潮免费| 97人妻无码一区二区精品免费| 无码日韩精品一区二区三区免费| 中文午夜乱理片无码| 亚洲国产精品无码久久一区二区| 一本加勒比HEZYO无码人妻| 国产精品va无码一区二区| 国产AV无码专区亚洲AVJULIA| 日韩人妻精品无码一区二区三区 | av区无码字幕中文色| 无码人妻啪啪一区二区| 韩国精品一区二区三区无码视频 |