System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,特別涉及一種模型訓練方法、任務處理方法、模型訓練裝置、電子設備、計算機可讀存儲介質及計算機程序產品。
技術介紹
1、模型訓練是指使用一系列數據和算法訓練出一個特定的模型,使其能夠對輸入數據做出相應的預測或分類。在機器學習領域,模型訓練是實現自動化學習的一個重要步驟,通過將大量的樣本數據輸入算法模型中進行訓練,模型可以通過學習數據之間的模式和關系,從而提取出有用的特征和知識,對未知的數據進行預測或分類。對于較為復雜的任務,通常需要較大的計算開銷和存儲開銷,且訓練效率較為低下。
技術實現思路
1、本申請提供一種模型訓練方法、任務處理方法、模型訓練裝置、電子設備、計算機可讀存儲介質及計算機程序產品,可以提高模型訓練效果。
2、第一方面,本申請提供了一種模型訓練方法,該模型訓練方法包括:獲取預設模型的訓練任務和訓練集數據;將所述訓練任務劃分為多個子任務;根據所述訓練集數據,確定各個所述子任務的指令集;通過當前迭代狀態的預設模型對多個所述指令集進行處理,得到多個所述子任務的指令集預測結果和所述訓練任務的樣本預測結果,所述樣本預測結果用于表征多個所述子任務之間的邏輯關系信息;根據所述訓練集數據、所述指令集、多個所述子任務的指令集預測結果和所述訓練任務的樣本預測結果,得到下一迭代狀態的預設模型,以訓練所述預設模型。
3、第二方面,本申請提供了一種任務處理方法,該任務處理方法包括:將待處理任務數據輸入預設模型,得到所述待處理任務的處理結果;其中,所述待處
4、第三方面,本申請提供了一種模型訓練裝置,該模型訓練裝置包括:獲取模塊,用于獲取預設模型的訓練任務和訓練集數據;劃分模塊,用于將所述訓練任務劃分為多個子任務;確定模塊,用于根據所述訓練集數據,確定各個所述子任務的指令集;處理模塊,用于通過當前迭代狀態的預設模型對多個所述指令集進行處理,得到多個所述子任務的指令集預測結果和所述訓練任務的樣本預測結果,所述樣本預測結果用于表征多個所述子任務之間的邏輯關系信息;迭代模塊,用于根據所述訓練集數據、所述指令集、多個所述子任務的指令集預測結果和所述訓練任務的樣本預測結果,得到下一迭代狀態的預設模型,以訓練所述預設模型。
5、第四方面,本申請提供了一種任務處理裝置,該任務處理裝置包括:處理模塊,用于將待處理任務數據輸入預設模型,得到所述待處理任務的處理結果;其中,所述待處理任務包括圖像處理任務、語音處理任務、文本處理任務、視頻處理任務中的任意一種,所述預設模型通過上述的模型訓練方法獲得。
6、第五方面,本申請提供了一種電子設備,該電子設備包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的一個或多個計算機程序,一個或多個所述計算機程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述的模型訓練方法或任務處理方法。
7、第六方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,其中,所述計算機程序在被處理器/處理核執行時實現上述的模型訓練方法或任務處理方法。
8、第七方面,本申請提供了一種計算機程序產品,其特征在于,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質,當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執行上述的模型訓練方法或任務處理方法。
9、本申請所提供的實施例,獲取預設模型的訓練任務和訓練集數據;將訓練任務劃分為多個子任務;根據訓練集數據,確定各個子任務的指令集;通過當前迭代狀態的預設模型對多個指令集,得到多個子任務的指令集預測結果和訓練任務的樣本預測結果,樣本預測結果用于表征多個子任務之間的邏輯關系信息;根據訓練集數據、指令集、多個子任務的指令集預測結果和訓練任務的樣本預測結果,得到下一迭代狀態的預設模型,以訓練預設模型。由此可知,在本申請實施例中,通過將復雜任務拆分為粒度較小的子任務,并通過微調訓練的方式,實現對預設模型的參數在更低維度上的更新,可以有效減少數據處理量,減少資源開銷,另外,由于在訓練過程中學習了不同子任務之間的邏輯關系,因此,可以提高預設模型對復雜任務的處理能力,從而進一步提高了訓練效果,得到準確性和合理性更高的模型。
10、應當理解,本部分所描述的內容并非旨在標識本申請的實施例的關鍵或重要特征,也不用于限制本申請的范圍。本申請的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網...【技術保護點】
1.一種模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述預設模型包括與多個所述子任務對應的多個待調整網絡層以及用于連接多個所述待調整網絡層的全連接層;
3.根據權利要求2所述的方法,其特征在于,所述預設模型包括至少一個固定網絡層和多個所述待調整網絡層,且所述待調整網絡層與所述子任務一一對應,所述固定網絡層的網絡參數的取值為固定值,所述待調整網絡層的網絡參數的取值隨迭代狀態的變更而更新。
4.根據權利要求2所述的方法,其特征在于,所述訓練集數據包括樣本數據和樣本標注結果,所述子任務與所述指令集一一對應,且各個所述指令集中包括多個待處理指令和多個指令標注結果;
5.根據權利要求4所述的方法,其特征在于,所述預設模型包括至少一個固定網絡層和多個所述待調整網絡層;
6.一種任務處理方法,其特征在于,所述方法包括:
7.一種模型訓練裝置,其特征在于,所述裝置包括:
8.一種電子設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特
10.一種計算機程序產品,其特征在于,包括計算機可讀代碼,或者承載有計算機可讀代碼的非易失性計算機可讀存儲介質,當所述計算機可讀代碼在電子設備的處理器中運行時,所述電子設備中的處理器執行如權利要求1-5中任一項所述的模型訓練方法或如權利要求6所述的任務處理方法。
...【技術特征摘要】
1.一種模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述預設模型包括與多個所述子任務對應的多個待調整網絡層以及用于連接多個所述待調整網絡層的全連接層;
3.根據權利要求2所述的方法,其特征在于,所述預設模型包括至少一個固定網絡層和多個所述待調整網絡層,且所述待調整網絡層與所述子任務一一對應,所述固定網絡層的網絡參數的取值為固定值,所述待調整網絡層的網絡參數的取值隨迭代狀態的變更而更新。
4.根據權利要求2所述的方法,其特征在于,所述訓練集數據包括樣本數據和樣本標注結果,所述子任務與所述指令集一一對應,且各個所述指令集中包括多個待處理指令和多個指令標注結果;
5.根據權利要求4所述的方法,其特征在于,...
【專利技術屬性】
技術研發人員:于皓,張杰,崔明飛,羅華剛,
申請(專利權)人:北京中關村科金技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。