System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及大模型領域、數(shù)據(jù)處理領域,具體而言,涉及一種預訓練模型中參數(shù)的更新和預訓練模型的數(shù)據(jù)處理方法。
技術介紹
1、目前,針對大規(guī)模預訓練模型的參數(shù)高效遷移,通常是依據(jù)預訓練模型執(zhí)行任務的不同,對大規(guī)模預訓練模型的原始訓練架構中的不同部分進行輕量化調(diào)整,但是,在預訓練模型訓練時,仍需要通過初始主干網(wǎng)絡對不同任務進行冗余的計算,使得模型的訓練過程資源消耗多,導致生成式對話產(chǎn)品中獲取反饋結(jié)果的效率低,從而存在模型的訓練過程資源消耗多、計算效率低的技術問題。
2、針對上述的問題,目前尚未提出有效的解決方案。
技術實現(xiàn)思路
1、本專利技術實施例提供了一種預訓練模型中參數(shù)的更新和預訓練模型的數(shù)據(jù)處理方法,以至少解決模型的訓練過程資源消耗多、計算效率的技術問題。
2、根據(jù)本專利技術實施例的一個方面,提供了一種預訓練模型中參數(shù)的更新方法。該方法可以包括:獲取預訓練模型的主干網(wǎng)絡輸出的特征數(shù)據(jù),其中,主干網(wǎng)絡來自初始主干網(wǎng)絡;調(diào)用初始旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,其中,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出;基于轉(zhuǎn)換后的特征數(shù)據(jù)更新初始旁路網(wǎng)絡的參數(shù),得到目標旁路網(wǎng)絡,其中,在更新初始旁路網(wǎng)絡的參數(shù)的過程中,初始旁路網(wǎng)絡的數(shù)據(jù)流獨立于主干網(wǎng)絡的數(shù)據(jù)流,初始旁路網(wǎng)絡的參數(shù)用于表征調(diào)優(yōu)模塊對特征數(shù)據(jù)的影響情況。
3、根據(jù)本專利技術實施例的另一方面,還提供了一種預訓練模型的數(shù)據(jù)處理方法。該方法可以包括:響應生成式交互界面中接收
4、根據(jù)本專利技術實施例的另一方面,還提供了另一種預訓練模型的數(shù)據(jù)處理方法。該方法可以包括:獲取預訓練模型中主干網(wǎng)絡對條件數(shù)據(jù)進行處理,得到的特征數(shù)據(jù),其中,主干網(wǎng)絡來自初始主干網(wǎng)絡,條件數(shù)據(jù)用于確定目標數(shù)據(jù)的生成條件;調(diào)用目標旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,其中,目標旁路網(wǎng)絡為對初始旁路網(wǎng)絡的參數(shù)進行更新后得到,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出;基于轉(zhuǎn)換后的特征數(shù)據(jù),生成與條件數(shù)據(jù)對應的目標數(shù)據(jù),其中,目標數(shù)據(jù)的類型包括如下至少之一:文本信息、圖像信息、視頻信息和語音信息。
5、根據(jù)本專利技術實施例的另一方面,還提供了另一種預訓練模型的數(shù)據(jù)處理方法。該方法可以包括:在對話界面中輸入多模態(tài)信息,其中,多模態(tài)信息的類型包括如下至少之一:包含字符信息的文本信息、包含幀圖像信息的視頻幀信息、音頻信息;調(diào)用預訓練模型中的主干網(wǎng)絡至少對多模態(tài)信息進行分析處理,得到特征數(shù)據(jù),其中,主干網(wǎng)絡來自初始主干網(wǎng)絡;調(diào)用目標旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,其中,目標旁路網(wǎng)絡為對初始旁路網(wǎng)絡的參數(shù)進行更新后得到,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出;基于轉(zhuǎn)換后的特征數(shù)據(jù),生成與多模態(tài)信息對應的答復信息,其中,答復信息的類型包括如下至少之一:文本信息、圖像信息、視頻信息和語音信息。
6、根據(jù)本專利技術實施例的另一方面,還提供了一種預訓練模型的數(shù)據(jù)處理系統(tǒng)。該系統(tǒng)可以包括:前端客戶端,顯示對話界面,并捕獲在對話界面中輸入的多模態(tài)信息,其中,多模態(tài)信息的類型包括如下至少之一:包含字符信息的詢問信息、包含幀圖像信息的視頻幀信息、音頻信息;后端服務端,用于調(diào)用預訓練模型中的主干網(wǎng)絡至少對多模態(tài)信息進行分析處理,得到特征數(shù)據(jù),且調(diào)用目標旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,基于轉(zhuǎn)換后的特征數(shù)據(jù),生成與多模態(tài)信息對應的答復信息,其中,主干網(wǎng)絡來自初始主干網(wǎng)絡,目標旁路網(wǎng)絡為對初始旁路網(wǎng)絡的參數(shù)進行更新后得到,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出,答復信息的類型包括如下至少之一:文本信息、圖像信息、視頻信息和語音信息。
7、根據(jù)本專利技術實施例的另一方面,還提供了另一種預訓練模型的數(shù)據(jù)處理方法。該方法可以包括:在虛擬現(xiàn)實vr設備或增強現(xiàn)實ar設備上輸入待轉(zhuǎn)換語音;使用預訓練模型中的主干模型從待轉(zhuǎn)換語音中提取出特征數(shù)據(jù),其中,主干網(wǎng)絡來自初始主干網(wǎng)絡;調(diào)用預訓練模型中的目標旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,其中,目標旁路網(wǎng)絡為對初始旁路網(wǎng)絡的參數(shù)進行更新后得到,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出;基于轉(zhuǎn)換后的特征數(shù)據(jù),確定待轉(zhuǎn)換語音對應的圖像信息;使用圖像信息激活vr設備或ar設備,并將圖像信息展示在vr設備或ar設備中。
8、根據(jù)本專利技術實施例的另一方面,還提供了一種電子設備,該電子設備可以包括存儲器和處理器;存儲器用于存儲計算機可執(zhí)行指令,處理器用于執(zhí)行計算機可執(zhí)行指令,上述計算機可執(zhí)行指令被處理器執(zhí)行時,實現(xiàn)上述任意一項的上述方法。
9、根據(jù)本專利技術實施例的另一方面,還提供了一種處理器,該處理器用于運行程序,其中,在程序運行時執(zhí)行上述任意一項的上述方法。
10、根據(jù)本專利技術實施例的另一方面,還提供了一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)包括存儲的程序,其中,在程序運行時控制存儲介質(zhì)所在設備執(zhí)行上述任意一項的上述方法。
11、在本專利技術實施例中,獲取預訓練模型的主干網(wǎng)絡輸出的特征數(shù)據(jù),其中,主干網(wǎng)絡來自初始主干網(wǎng)絡;調(diào)用初始旁路網(wǎng)絡對特征數(shù)據(jù)進行轉(zhuǎn)換,其中,初始旁路網(wǎng)絡為基于至少一調(diào)優(yōu)模塊構建得到,調(diào)優(yōu)模塊為從初始主干網(wǎng)絡中提取出;基于轉(zhuǎn)換后的特征數(shù)據(jù)更新初始旁路網(wǎng)絡的參數(shù),得到目標旁路網(wǎng)絡,其中,在更新初始旁路網(wǎng)絡的參數(shù)的過程中,初始旁路網(wǎng)絡的數(shù)據(jù)流獨立于主干網(wǎng)絡的數(shù)據(jù)流,初始旁路網(wǎng)絡的參數(shù)用于表征調(diào)優(yōu)模塊對特征數(shù)據(jù)的影響情況。也即,在該實施例中使用了從主干網(wǎng)絡中抽離的調(diào)優(yōu)模塊構建初始旁路網(wǎng)絡,同時,在初始旁路網(wǎng)絡參數(shù)調(diào)整的過程中,將初始旁路網(wǎng)絡到主干網(wǎng)絡的數(shù)據(jù)流進行截斷,得到與主干網(wǎng)絡完全獨立的目標旁路網(wǎng)絡(新調(diào)優(yōu)模塊),從而使得在初始旁路網(wǎng)絡訓練過程中,不需要進一步計算主干網(wǎng)絡的參數(shù)梯度,實現(xiàn)了內(nèi)存的節(jié)省和訓練速度的提升,進而達到了減少模型的訓練過程中的資源消耗技術效果,解決了模型的訓練過程資源消耗多、計算效率的技術問題。
12、容易注意到的是,上面的通用描述和后面的詳細描述僅僅是為了對本專利技術進行舉例和解釋,并不構成對本專利技術的限定。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種預訓練模型中參數(shù)的更新方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,調(diào)用所述初始旁路網(wǎng)絡對所述特征數(shù)據(jù)進行轉(zhuǎn)換,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,調(diào)用所述初始旁路網(wǎng)絡中的所述調(diào)優(yōu)模塊對所述特征數(shù)據(jù)進行調(diào)整,包括:
4.根據(jù)權利要求3所述的方法,其特征在于,基于所述初始旁路網(wǎng)絡的權重,對調(diào)整后的所述特征數(shù)據(jù)進行加權求和,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
6.根據(jù)權利要求4所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
7.根據(jù)權利要求1所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
8.根據(jù)權利要求1所述的方法,其特征在于,所述主干網(wǎng)絡和所述至少一調(diào)優(yōu)模塊之間基于殘差進行連接。
9.根據(jù)權利要求1所述的方法,其特征在于,在將所述特征
10.一種預訓練模型中數(shù)據(jù)的處理方法,其特征在于,包括:
11.根據(jù)權利要求10所述的方法,其特征在于,其中,
12.根據(jù)權利要求11所述的方法,其特征在于,調(diào)用所述目標旁路網(wǎng)絡對所述文本特征數(shù)據(jù)進行轉(zhuǎn)換,包括:
13.根據(jù)權利要求12所述的方法,其特征在于,基于轉(zhuǎn)換后的所述文本特征數(shù)據(jù),生成至少一與所述詢問指令匹配的所述答復結(jié)果,包括:
14.根據(jù)權利要求11所述的方法,其特征在于,基于轉(zhuǎn)換后的所述文本特征數(shù)據(jù),確定所述答復結(jié)果,包括:
15.一種預訓練模型的數(shù)據(jù)處理方法,其特征在于,包括:
16.根據(jù)權利要求15所述的方法,其特征在于,調(diào)用所述目標旁路網(wǎng)絡對所述特征數(shù)據(jù)進行轉(zhuǎn)換,包括:
17.根據(jù)權利要求15所述的方法,其特征在于,基于轉(zhuǎn)換后的特征數(shù)據(jù),生成與所述多模態(tài)信息對應的答復信息,包括:
18.一種預訓練模型的數(shù)據(jù)處理系統(tǒng),其特征在于,包括:
19.一種電子設備,其特征在于,包括:存儲器和處理器;所述存儲器用于存儲計算機可執(zhí)行指令,所述處理器用于執(zhí)行所述計算機可執(zhí)行指令,該計算機可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)權利要求1至17中任意一項所述方法的步驟。
...【技術特征摘要】
1.一種預訓練模型中參數(shù)的更新方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,調(diào)用所述初始旁路網(wǎng)絡對所述特征數(shù)據(jù)進行轉(zhuǎn)換,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,調(diào)用所述初始旁路網(wǎng)絡中的所述調(diào)優(yōu)模塊對所述特征數(shù)據(jù)進行調(diào)整,包括:
4.根據(jù)權利要求3所述的方法,其特征在于,基于所述初始旁路網(wǎng)絡的權重,對調(diào)整后的所述特征數(shù)據(jù)進行加權求和,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
6.根據(jù)權利要求4所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
7.根據(jù)權利要求1所述的方法,其特征在于,基于轉(zhuǎn)換后的所述特征數(shù)據(jù)更新所述初始旁路網(wǎng)絡的參數(shù),得到所述目標旁路網(wǎng)絡,包括:
8.根據(jù)權利要求1所述的方法,其特征在于,所述主干網(wǎng)絡和所述至少一調(diào)優(yōu)模塊之間基于殘差進行連接。
9.根據(jù)權利要求1所述的方法,其特征在于,在將所述特征數(shù)據(jù)傳輸至初始旁路網(wǎng)絡的過程中,所述主干網(wǎng)絡的參數(shù)的狀態(tài)為鎖定狀態(tài)。
10...
【專利技術屬性】
技術研發(fā)人員:江澤胤子,黃子淵,馬傲,毛超杰,
申請(專利權)人:阿里巴巴達摩院杭州科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。