System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及人工智能,尤其涉及深度學習、大模型等計算領域,更具體地,本公開提供了一種基于深度學習模型的數據處理方法、電子設備、存儲介質以及計算機程序產品。
技術介紹
1、自然語言領域發展走向超大規模模型時代,通過算力在海量文本數據上訓練超大參數量模型,可以使得產出的大模型具有多任務、少樣本學習的通用語義理解與生成能力。
2、然而在實際訓練和推理過程中,大模型的超大規模的參數量導致巨大計算開銷和存儲開銷。
技術實現思路
1、本公開提供了一種基于深度學習模型的數據處理方法、電子設備、存儲介質以及計算機程序產品。
2、根據本公開的一方面,提供了一種基于深度學習模型的數據處理方法,深度學習模型包括專家網絡層,專家網絡層包括多個專家網絡;處理器將表征一個詞元的輸入特征切分為分別與多個專家網絡對應的多個子特征;根據多個子特征各自的評估值,處理器從多個子特征中確定至少一個目標子特征;其中,評估值表征子特征相對于輸入特征的重要性;根據至少一個目標子特征,以及多個專家網絡中對應于至少一個目標子特征的至少一個目標專家網絡的網絡參數,處理器執行模型訓練任務或模型推理任務,得到處理結果。
3、根據本公開的另一個方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行本公開提供的方法。
4、根據本公開的另一個方面,提供了一種存儲有計算
5、根據本公開的另一個方面,提供了一種計算機程序產品,包括計算機程序,計算機程序在被處理器執行時實現本公開提供的方法。
6、應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網...【技術保護點】
1.一種基于深度學習模型的數據處理方法,所述深度學習模型包括專家網絡層,所述專家網絡層包括多個專家網絡;
2.根據權利要求1所述的方法,其中,所述根據所述至少一個目標子特征,以及所述多個專家網絡中對應于所述至少一個目標子特征的至少一個目標專家網絡的網絡參數,所述處理器執行模型訓練任務或模型推理任務,得到處理結果包括:
3.根據權利要求2所述的方法,其中,所述根據所述第一運算結果,確定所述處理結果包括:
4.根據權利要求1所述的方法,其中,所述根據所述至少一個目標子特征,以及所述多個專家網絡中對應于所述至少一個目標子特征的至少一個目標專家網絡的網絡參數,所述處理器執行模型訓練任務或模型推理任務,得到處理結果包括:
5.根據權利要求4所述的方法,其中,所述深度學習模型包括子模型,所述子模型包括所述專家網絡層和合并網絡層;所述根據所述第二運算結果,確定所述處理結果包括:
6.根據權利要求5所述的方法,其中,所述處理器對基于所述至少一個目標子特征確定的至少一個第二運算結果進行融合,得到融合數據包括:
7.根據權利要求
8.根據權利要求1所述的方法,其中,所述多個專家網絡包括共享專家網絡和除所述共享專家網絡之外的剩余專家網絡;所述多個子特征包括:與所述共享專家網絡相對應的第一子特征和與所述剩余專家網絡相對應的第二子特征;所述根據所述多個子特征各自的評估值,所述處理器從所述多個子特征中確定至少一個目標子特征包括:
9.根據權利要求1所述的方法,其中,所述根據所述多個子特征各自的評估值,所述處理器從所述多個子特征中確定至少一個目標子特征包括:
10.根據權利要求8至9中任意一項所述的方法,其中,所述預定條件包括以下之一:
11.根據權利要求1所述的方法,其中,所述處理器將表征一個詞元的輸入特征切分為分別與所述多個專家網絡對應的多個子特征包括:
12.根據權利要求1至11中任意一項所述的方法,其中,所述深度學習模型包括至少一個子模型,所述子模型包括多個所述專家網絡層;在同一個所述子模型中,任意兩個所述專家網絡層中的所述目標專家網絡一一對應。
13.根據權利要求12所述的方法,其中,所述深度學習模型為基于Transformer的模型,所述至少一個子模型包括前饋神經網絡子模型,所述前饋神經網絡子模型中的多個所述專家網絡層包括:上采樣網絡層、下采樣網絡層和門控網絡層。
14.根據權利要求12所述的方法,其中,所述深度學習模型為基于Transformer的模型,所述至少一個子模型包括注意力子模型,所述注意力子模型中的多個所述專家網絡層包括:查詢網絡層、鍵網絡層、值網絡層和下采樣網絡層。
15.根據權利要求12所述的方法,其中,所述子模型還包括路由網絡層;所述方法還包括:
16.根據權利要求1至15中任意一項所述的方法,其中,所述多個專家網絡的網絡參數是基于行對所述專家網絡層的網絡參數進行切分得到的。
17.根據權利要求1所述的方法,其中,所述輸入特征中的所述多個子特征與所述專家網絡層中的所述多個專家網絡一一對應。
18.一種電子設備,包括:
19.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行根據權利要求1至17中任一項所述的方法。
20.一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現根據權利要求1至17中任一項所述的方法。
...【技術特征摘要】
1.一種基于深度學習模型的數據處理方法,所述深度學習模型包括專家網絡層,所述專家網絡層包括多個專家網絡;
2.根據權利要求1所述的方法,其中,所述根據所述至少一個目標子特征,以及所述多個專家網絡中對應于所述至少一個目標子特征的至少一個目標專家網絡的網絡參數,所述處理器執行模型訓練任務或模型推理任務,得到處理結果包括:
3.根據權利要求2所述的方法,其中,所述根據所述第一運算結果,確定所述處理結果包括:
4.根據權利要求1所述的方法,其中,所述根據所述至少一個目標子特征,以及所述多個專家網絡中對應于所述至少一個目標子特征的至少一個目標專家網絡的網絡參數,所述處理器執行模型訓練任務或模型推理任務,得到處理結果包括:
5.根據權利要求4所述的方法,其中,所述深度學習模型包括子模型,所述子模型包括所述專家網絡層和合并網絡層;所述根據所述第二運算結果,確定所述處理結果包括:
6.根據權利要求5所述的方法,其中,所述處理器對基于所述至少一個目標子特征確定的至少一個第二運算結果進行融合,得到融合數據包括:
7.根據權利要求6所述的方法,其中,所述目標權重是基于所述目標子特征的所述評估值和預定縮放參數中的至少一個確定的。
8.根據權利要求1所述的方法,其中,所述多個專家網絡包括共享專家網絡和除所述共享專家網絡之外的剩余專家網絡;所述多個子特征包括:與所述共享專家網絡相對應的第一子特征和與所述剩余專家網絡相對應的第二子特征;所述根據所述多個子特征各自的評估值,所述處理器從所述多個子特征中確定至少一個目標子特征包括:
9.根據權利要求1所述的方法,其中,所述根據所述多個子特征各自的評估值,所述處理器從所述多個子特征中確定至少一個目標子特征包括:
10.根據權利...
【專利技術屬性】
技術研發人員:尚駿遠,陳奕龍,張振宇,王碩寰,孫宇,
申請(專利權)人:北京百度網訊科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。