System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及音視頻轉換,具體而言,涉及一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質。
技術介紹
1、目前音頻生成和視頻生成大都是給定文本生成對應的音頻或者視頻,目前有2種常用框架,一是通過擴散模型框架來分別生成音頻和視頻;二是通過自回歸結構來分別生成音頻和視頻。
2、在擴散模型架構中沒有同時可以生成音頻和視頻的結構,都是輸入文本來分別生成音頻和視頻,使得音頻和視頻存在獨立無關,從而導致生成的音頻和視頻沒有直接的關聯,進而造成生成的音頻和視頻存在音畫不同步、質量低的問題。
技術實現思路
1、本申請實施例的目的在于提供一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質,用以解決目前擴散模型框架生成音頻和視頻無直接關聯造成的音頻和視頻存在音畫不同步、質量低的問題。
2、第一方面,本專利技術提供一種音頻和視頻生成方法,該方法包括:獲取目標文本,其中,目標文本包括目標文本特征;將目標文本輸入預先訓練完成的音視頻生成擴散模型,獲得音視頻生成擴散模型輸出的目標視頻特征以及目標音頻特征,其中,目標視頻特征通過音視頻生成擴散模型根據初始視頻特征、初始音頻特征以及目標文本特征進行時空擴散變換生成,目標音頻特征通過音視頻生成擴散模型根據初始音頻特征、初始視頻特征以及目標文本特征進行擴散變換生成,初始視頻特征通過音視頻生成擴散模型根據第一高斯噪聲和目標文本特征進行時空擴散變換生成,初始音頻特征通過音視頻生成擴散模型根據第二高斯噪聲和目標文本特征進行擴散變換生成;對目標視頻特
3、上述設計的音頻和視頻生成方法,本方案首先獲取具有文本特征的目標文本,然后將目標文本輸入預先訓練完成的音視頻生成擴散模型中,通過音視頻生成擴散模型生成輸出目標文本對應的目標視頻特征以及目標音頻特征,進而對目標視頻特征以及目標音頻特征分別進行解碼,獲得目標文本對應的目標視頻和目標音頻。由于該音視頻生成擴散模型在生成目標音頻特征的擴散變換過程中將視頻特征作為擴散考慮條件,因此,生成的目標音頻特征與視頻特征實現關聯,同理,音視頻生成擴散模型在生成目標視頻特征的時空擴散變換過程中將音頻特征作為擴散考慮條件,因此,生成的目標視頻特征與音頻特征實現關聯,進而實現生成的目標視頻特征與目標音頻特征之間具備關聯性,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。
4、在第一方面的可選實施方式中,音視頻生成擴散模型的訓練過程,包括:獲取訓練集,其中,訓練集包括多個樣本,每個樣本包括文本樣本特征以及文本樣本特征對應的視頻樣本特征以及音頻樣本特征;對每個樣本的視頻樣本特征進行時空切分并加入第一高斯噪聲,獲得每個樣本的視頻噪聲的隱空間特征;對每個樣本的音頻樣本特征進行時空切分并加入第二高斯噪聲,獲得每個樣本的音頻噪聲的隱空間特征;根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型。
5、在第一方面的可選實施方式中,根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:獲取目標擴散步數;根據文本樣本特征以及視頻噪聲的隱空間特征進行時空擴散變換實現噪聲去除,得到初始視頻噪聲去除特征,并根據文本樣本特征以及音頻噪聲的隱空間特征進行擴散變換噪聲去除,得到初始音頻噪聲去除特征;判斷擴散步數是否達到預設擴散步數;若擴散步數達到預設擴散步數,則根據初始視頻噪聲去除特征、初始音頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得初始視頻交互特征,并根據初始視頻噪聲去除特征、初始音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得初始音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據初始視頻交互特征、視頻樣本特征、初始音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。
6、在第一方面的可選實施方式中,在判斷擴散步數是否達到預設擴散步數之后,該方法還包括:若判定擴散步數沒有達到預設擴散步數,則根據初始視頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得第二視頻噪聲去除特征,并根據初始音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得第二音頻噪聲去除特征;判斷擴散步數是否達到預設擴散步數;若擴散步數達到預設擴散步數,則根據第二視頻噪聲去除特征、第二音頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得初始視頻交互特征,并根據第二視頻噪聲去除特征、第二音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得初始音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據初始視頻交互特征、視頻樣本特征、初始音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。
7、在第一方面的可選實施方式中,在判斷擴散步數是否達到目標擴散步數之后,該方法還包括:若判定擴散步數未達到目標擴散步數,則根據初始視頻交互特征、初始音頻交互特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得第二視頻交互特征,并根據初始視頻交互特征、初始音頻交互特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得第二音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據第二視頻交互特征、視頻樣本特征、第二音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。
8、在第一方面的可選實施方式中,在判斷預設擴散模型的損失值是否達到目標損失值之后,該方法還包括:若判定預設擴散模型的損失值未達到目標損失值,則對預設擴散模型的時空擴散變換參數以及擴散變換參數進行更新;根據更新的時空擴散變換參數、更新的擴散變換參數以及多個樣本中的下一樣本對預設擴散模型進行訓練,直至計算得到的損失值達到目標損失值,獲得音視頻生成擴散模型。
9、上述多種實施方式,本方案在訓練預設擴散模型的過程中,通過在達到預設擴散步數的情況下,在生成目標音頻特征的擴散變換過程中將視頻特征作為擴散考慮條件,并在生成目標視頻特征的時空擴散變換過程中將音頻特征作為擴散考慮條件,從而使得視頻特征與音頻特征進行關聯,進而使得訓練得到的預設擴散模型對于輸入的文本而輸出的視頻特征與音頻特征也相應進行關聯,使得本方案訓練得到的音視頻生成擴散模型識別輸出的目標視頻特征和目標音頻特征具備關聯性,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。
10、在第一方面的可選實施方式中,獲取文本樣本本文檔來自技高網...
【技術保護點】
1.一種音頻和視頻生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述音視頻生成擴散模型的訓練過程,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:
4.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到預設擴散步數之后,所述方法還包括:
5.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到目標擴散步數之后,所述方法還包括:
6.根據權利要求3所述的方法,其特征在于,在所述判斷預設擴散模型的損失值是否達到目標損失值之后,所述方法還包括:
7.根據權利要求2所述的方法,其特征在于,其中,獲取文本樣本特征,包括:
8.根據權利要求2所述的方法,其特征在于,其中,獲取文本樣本特征對應的視頻樣本特征以及音頻樣本特征,包括:
9.一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至8中任一項所述的方法。
...【技術特征摘要】
1.一種音頻和視頻生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述音視頻生成擴散模型的訓練過程,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:
4.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到預設擴散步數之后,所述方法還包括:
5.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到目標擴散步數之后,所述方法還包括:
6.根據權利要求3所...
【專利技術屬性】
技術研發人員:肖杰,
申請(專利權)人:成都開心音符科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。