System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及視頻描述生成領(lǐng)域,尤其是涉及一種基于事實增強與情感覺醒的視頻描述生成方法及介質(zhì)。
技術(shù)介紹
1、視頻描述是“視覺-語言”多模態(tài)高層理解研究中的基礎(chǔ)任務。它是給定一段視頻,使用準確得體的自然語言對其中的內(nèi)容進行總結(jié)、歸納并表述出來。該任務在自動解說、自主導航、智能可穿戴設(shè)備開發(fā)等領(lǐng)域具有廣闊的應用前景。目前,研究者基于深度特征開發(fā)了多種效果顯著的模型和算法,生成的描述句子質(zhì)量不斷提升。但當前大部分工作多集中在對視頻事實內(nèi)容的描述上,對其中的情感信息關(guān)注不夠,或者僅簡單賦予如“正面的(positive)”、“負面的(negative)”和“中立的(neural)”等情感標簽,生成的句子缺乏更多的靈活性和生動性,語義豐富程度需要進一步改善。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)的目的就是針對目前視頻描述任務中,生成的描述句子情感不夠豐富,表達不夠生動等問題,而提供一種基于事實增強與情感覺醒的視頻描述生成方法及介質(zhì),能夠自然地將情感語義嵌入到生成的描述語句中,進而改善生成句子的整體質(zhì)量。
2、本專利技術(shù)的目的可以通過以下技術(shù)方案來實現(xiàn):
3、一種基于事實增強與情感覺醒的視頻描述生成方法,該方法包括以下步驟:
4、獲取待描述視頻的視覺特征;
5、以所述視覺特征作為經(jīng)訓練的視頻描述生成模型的輸入,獲得描述語句;
6、其中,所述視頻描述生成模型包括事實啟發(fā)模塊、事實增強模塊和情感覺醒模塊,基于所述事實啟發(fā)模塊、事實增強模塊和情感覺
7、以事實啟發(fā)模塊作為序列模型,采用第一數(shù)據(jù)集訓練所述序列模型,所述第一數(shù)據(jù)集為包含事實描述的數(shù)據(jù)集;
8、在所述序列模型的基礎(chǔ)上,添加事實增強模塊,形成增廣模型,采用第二數(shù)據(jù)集訓練所述增廣模型,所述第二數(shù)據(jù)集為包含事實描述的數(shù)據(jù)集,且其數(shù)據(jù)規(guī)模大于第一數(shù)據(jù)集的數(shù)據(jù)規(guī)模;
9、在所述增廣模型的基礎(chǔ)上,添加情感覺醒模塊,形成三層次模型,采用第三數(shù)據(jù)集訓練聯(lián)合所述三層次模型,所述第三數(shù)據(jù)集為在第一數(shù)據(jù)集的基礎(chǔ)上增加情感信息的數(shù)據(jù)集。
10、進一步地,所述事實啟發(fā)模塊為采用非因子分解的方式構(gòu)建的兩層lstm序列模型,基于第一數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
11、進一步地,訓練過程中,采用跨時間步的梯度回傳算法對所述事實啟發(fā)模塊中的參數(shù)進行更新優(yōu)化。
12、進一步地,所述事實增強模塊為采用非因子分解的方式構(gòu)建的兩層lstm序列模型,基于第二數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
13、進一步地,所述情感覺醒模塊為一層lstm序列模型,基于第三數(shù)據(jù)集中提取的語言特征進行模型優(yōu)化。
14、進一步地,所述視頻特征采用預訓練的cnn網(wǎng)絡(luò)提取,并使用線性層降維獲得。
15、進一步地,所述語言特征采用one-hot方式編碼,并使用嵌入層降維獲得。
16、進一步地,訓練所述增廣模型時,所述事實啟發(fā)模塊采用微調(diào)方式進行參數(shù)更新,所述事實增強模塊采用全訓練方式進行參數(shù)更新。
17、進一步地,獲得描述語句時,采用多層次深度序列融合的方式對所述視頻描述生成模型中每個模塊在每個時間步上的概率輸出向量進行逐元素后期融合,其最終概率分值的最大值所對應的詞匯作為該時間步上的預測輸出。
18、本專利技術(shù)還提供一種計算機可讀存儲介質(zhì),包括供電子設(shè)備的一個或多個處理器執(zhí)行的一個或多個程序,所述一個或多個程序包括用于執(zhí)行如上所述基于事實增強與情感覺醒的視頻描述生成方法的指令。
19、與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益效果:
20、本專利技術(shù)設(shè)計深度增量學習策略,通過逐層添加深度序列模塊,構(gòu)建具有更深序列網(wǎng)絡(luò)的視頻描述生成模型,對訓練的數(shù)據(jù)集進行增強處理、情感描述處理,并采用逐層增加或擴大樣本空間的方式對模型進行聯(lián)合優(yōu)化,有效提供模型表達能力,能夠為視頻生成比同類其他視頻描述模型蘊含更多情感語義、更豐富表達的描述語句,準確性更高。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述事實啟發(fā)模塊為采用非因子分解的方式構(gòu)建的兩層LSTM序列模型,基于第一數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
3.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,訓練過程中,采用跨時間步的梯度回傳算法對所述事實啟發(fā)模塊中的參數(shù)進行更新優(yōu)化。
4.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述事實增強模塊為采用非因子分解的方式構(gòu)建的兩層LSTM序列模型,基于第二數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
5.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述情感覺醒模塊為一層LSTM序列模型,基于第三數(shù)據(jù)集中提取的語言特征進行模型優(yōu)化。
6.根據(jù)權(quán)利要求1、2、4任一所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述視頻特征采用預訓練的CNN網(wǎng)絡(luò)提取
7.根據(jù)權(quán)利要求2、4、5任一所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述語言特征采用One-hot方式編碼,并使用嵌入層降維獲得。
8.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,訓練所述增廣模型時,所述事實啟發(fā)模塊采用微調(diào)方式進行參數(shù)更新,所述事實增強模塊采用全訓練方式進行參數(shù)更新。
9.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,獲得描述語句時,采用多層次深度序列融合的方式對所述視頻描述生成模型中每個模塊在每個時間步上的概率輸出向量進行逐元素后期融合,其最終概率分值的最大值所對應的詞匯作為該時間步上的預測輸出。
10.一種計算機可讀存儲介質(zhì),其特征在于,包括供電子設(shè)備的一個或多個處理器執(zhí)行的一個或多個程序,所述一個或多個程序包括用于執(zhí)行如權(quán)利要求1-9任一所述基于事實增強與情感覺醒的視頻描述生成方法的指令。
...【技術(shù)特征摘要】
1.一種基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述事實啟發(fā)模塊為采用非因子分解的方式構(gòu)建的兩層lstm序列模型,基于第一數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
3.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,訓練過程中,采用跨時間步的梯度回傳算法對所述事實啟發(fā)模塊中的參數(shù)進行更新優(yōu)化。
4.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述事實增強模塊為采用非因子分解的方式構(gòu)建的兩層lstm序列模型,基于第二數(shù)據(jù)集中提取的語言特征和視頻特征進行模型優(yōu)化。
5.根據(jù)權(quán)利要求1所述的基于事實增強與情感覺醒的視頻描述生成方法,其特征在于,所述情感覺醒模塊為一層lstm序列模型,基于第三數(shù)據(jù)集中提取的語言特征進行模型優(yōu)化。
6.根據(jù)權(quán)利要求1、2、4任一所述的基于事實增強與情感覺醒的視頻描述生...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:湯鵬杰,譚云蘭,張艾,
申請(專利權(quán))人:井岡山大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。