System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能的,尤其一種基于運動先驗的文本驅動動作生成方法。
技術介紹
1、文本驅動動作生成是屬于aigc領域下的子領域,它將文本內容轉化為人體動作序列的方法。這里的文本內容包含眾多日常生活的動作場景,比如彎腰,跑步,跳高,踢球等動作。這項任務是一個具有挑戰性的前沿研究領域,它涉及自然語言處理、計算機圖形學、計算機視覺等多項研究領域,有潛力在虛擬現實、增強現實、游戲開發、數字藝術等領域產生重大影響。
2、2021年1月,openai?推出了dall-e模型,通過120億參數版本的?gpt-3transformer?模型來理解自然語言輸入并生成相應的圖片。但是它的推出主要用于研究,所以訪問權限僅限于小部分測試版用戶。這個模型不穩定對于細節理解處理不完善,且會出現嚴重的邏輯或者事實錯誤,但是作為開創者,還是得專門提出來的。在發布dall-e時還發布了clip?(contrastive?language-image?pre-training,對比圖文預訓練)。clip是一種基于對比學習的多模態模型,與計算機視覺中的一些對比學習方法如moco和simclr不同的是,clip的訓練數據是文本-圖像對:一張圖像和它對應的文本描述,這里希望通過對比學習,模型能夠學習到文本-圖像對的匹配關系,引入?clip?的目的是為了學習物體的視覺和文字表示之間的聯系。
3、隨著文本生成圖像技術的發展,文本生成動作任務也不斷擴張。其中比較具有代表性的便是openai推出的dreamfusion模型,這項工作開發將預訓練的2d圖像
4、在文本生成動作相關技術中,首先是文本理解任務,使用詞嵌入或其他自然語言處理技術將文本描述轉化為向量表示,以便模型能夠理解文本特征。然后進行動作模型生成工作,通常使用生成對抗網絡(gan)或變換器(transformer)等深度學習架構來生成動作。這個生成器接受文本嵌入和隨機噪聲作為輸入,并輸出3d模型。在某些場景中可能會使用判別器,用于評估生成的3d模型的質量,以便生成器能夠可以改進生成過程。
5、然而,該相關技術中,生成動作的準確性和平滑度等無法得到保障,即使在生成動作后加入判別器進行評估,但由于模型本身可調節性不足,仍然無法完成更加細致的優化工作,最終降低了文本驅動的人體動作更具逼真度和多樣性。
技術實現思路
1、有鑒于此,本申請一種基于運動先驗的文本驅動動作生成方法,能夠提高文本驅動的人體動作更具逼真度和多樣性。
2、本申請提供一種基于運動先驗的文本驅動動作生成方法,包括:
3、獲取文本特征,所述文本特征來源于包含動作信息的輸入文本;
4、根據所述文本特征和預置的人體姿態,獲得預選動作;
5、以所述預選動作,對由所述文本特征輸入至運動先驗模型所生成運動序列進行優化,生成文本驅動動作。
6、可選地,獲取文本特征具體為,采用雙向語言特征表征模型從輸入文本中提取文本特征。
7、可選地,采用雙向語言特征表征模型從輸入文本中提取文本特征,包括:
8、將文本訓練數據分割成多個token序列,每個token序列包含至少一個句子;
9、為所有token序列添加嵌入標記;
10、根據預置的子任務,將經過標記的token序列輸入transformer模型進行訓練,所述子任務包括隨機遮擋和/或下一句預測;
11、為經過訓練transformer模型添加指定任務層以微調;
12、將輸入文本中輸入經過微調的transformer模型,生成所述文本特征。
13、可選地,構建所述雙向語言特征表征模型,具體為:在深度自然語言處理模型基礎上進行參數縮減所得。
14、可選地,所述參數縮減的方式,包括:
15、基于詞向量分解將詞嵌入矩陣進行分解;
16、和/或,基于參數共享在深層網絡中通過共享部分參數。
17、可選地,根據所述文本特征和預置的人體姿態獲得預選動作,包括:
18、采用clip模型分別對文本特征和人體姿態進行編碼;
19、根據文本特征的編碼、人體姿態的編碼二者之間相似性測度,確定預選動作。
20、可選地,在采用clip模型分別對文本特征和人體姿態進行編碼之前,根據所述文本特征和預置的人體姿態獲得預選動作還包括:
21、采用vposer編碼器對人體姿態進行編碼;
22、采用k-means聚類方法對經過編碼的人體姿態進行重聚類;
23、采用vposer解碼器對經過重聚類的人體姿態進行解碼。
24、可選地,所述運動先驗模型,包括:
25、運動編碼器,用以將輸入的運動序列映射到潛在空間中以潛在表示,并捕捉運動序列中的重要特征和變化;
26、重參數化模塊,用以產生高斯分布,從標準正態分布中采樣固定的隨機噪聲,使用學習的參數來將這個隨機噪聲轉換為潛在變量的樣本,將梯度直接傳播到模型參數,使用反向傳播算法進行訓練;
27、運動解碼器,用以針對給定單個潛在向量和的動作標簽,將潛在變量映射回原始運動數據的空間,還原為原始先驗運動序列。
28、可選地,對運動序列進行優化,基于損失項來執行;
29、所述損失項任意選自以下項目中的至少之一:
30、相似度指標,用以表征運動序列和預選動作之間的歐式距離;
31、平滑度指標,用以表征相鄰運動序列之間的歐氏距離;
32、一致性指標,用以確定運動序列中的每個單一姿勢與輸入的運動描述相匹配度;
33、周期性約束指標,通過損失函數表征,所述損失函數以關鍵點位置、速度的周期性度量為變量。
34、可選地,所述損失項為由相似度指標、平滑度指標、一致性指標和周期性約束指標按照各自的權重相加所得。
35、本申請所公開方法中,獲取文本特征,文本特征來源于包含動作信息的輸入文本,再根據文本特征和預置的人體姿態,獲得預選動作;以預選動作,對由文本特征輸入至運動先驗模型所生成運動序列進行優化,生成文本驅動動作。由此,提高了文本驅動的人體動作更具逼真度和多樣性。
本文檔來自技高網...【技術保護點】
1.一種基于運動先驗的文本驅動動作生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取文本特征具體為,采用雙向語言特征表征模型從輸入文本中提取文本特征。
3.根據權利要求2所述的方法,其特征在于,采用雙向語言特征表征模型從輸入文本中提取文本特征,包括:
4.根據權利要求3所述的方法,其特征在于,構建所述雙向語言特征表征模型,具體為:在深度自然語言處理模型基礎上進行參數縮減所得。
5.根據權利要求4所述的方法,其特征在于,所述參數縮減的方式,包括:
6.根據權利要求1所述的方法,其特征在于,根據所述文本特征和預置的人體姿態獲得預選動作,包括:
7.根據權利要求6所述的方法,其特征在于,在采用CLIP模型分別對文本特征和人體姿態進行編碼之前,根據所述文本特征和預置的人體姿態獲得預選動作還包括:
8.根據權利要求1所述的方法,其特征在于,所述運動先驗模型,包括:
9.根據權利要求1所述的方法,其特征在于,對運動序列進行優化,基于損失項來執行;
10.根據權
...【技術特征摘要】
1.一種基于運動先驗的文本驅動動作生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取文本特征具體為,采用雙向語言特征表征模型從輸入文本中提取文本特征。
3.根據權利要求2所述的方法,其特征在于,采用雙向語言特征表征模型從輸入文本中提取文本特征,包括:
4.根據權利要求3所述的方法,其特征在于,構建所述雙向語言特征表征模型,具體為:在深度自然語言處理模型基礎上進行參數縮減所得。
5.根據權利要求4所述的方法,其特征在于,所述參數縮減的方式,包括:
6.根據權利要求1所述...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。