System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 少妇精品无码一区二区三区,精品无人区无码乱码大片国产,久久久久亚洲av无码专区蜜芽
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    音頻和視頻生成方法、電子設備和計算機可讀存儲介質技術

    技術編號:44062356 閱讀:22 留言:0更新日期:2025-01-17 16:02
    本申請提供一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質,該方法包括:獲取目標文本,其中,目標文本包括目標文本特征;將目標文本輸入預先訓練完成的音視頻生成擴散模型,獲得音視頻生成擴散模型輸出的目標視頻特征以及目標音頻特征;對目標視頻特征以及目標音頻特征分別進行解碼,獲得目標文本對應的目標視頻以及目標音頻,由于音視頻生成擴散模型在生成目標音頻特征的擴散變換過程中將視頻特征作為擴散考慮條件,音視頻生成擴散模型在生成目標視頻特征的時空擴散變換過程中將音頻特征作為擴散考慮條件,因此,生成的目標音頻特征與視頻特征實現關聯,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。

    【技術實現步驟摘要】

    本申請涉及音視頻轉換,具體而言,涉及一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質


    技術介紹

    1、目前音頻生成和視頻生成大都是給定文本生成對應的音頻或者視頻,目前有2種常用框架,一是通過擴散模型框架來分別生成音頻和視頻;二是通過自回歸結構來分別生成音頻和視頻。

    2、在擴散模型架構中沒有同時可以生成音頻和視頻的結構,都是輸入文本來分別生成音頻和視頻,使得音頻和視頻存在獨立無關,從而導致生成的音頻和視頻沒有直接的關聯,進而造成生成的音頻和視頻存在音畫不同步、質量低的問題。


    技術實現思路

    1、本申請實施例的目的在于提供一種音頻和視頻生成方法、電子設備和計算機可讀存儲介質,用以解決目前擴散模型框架生成音頻和視頻無直接關聯造成的音頻和視頻存在音畫不同步、質量低的問題。

    2、第一方面,本專利技術提供一種音頻和視頻生成方法,該方法包括:獲取目標文本,其中,目標文本包括目標文本特征;將目標文本輸入預先訓練完成的音視頻生成擴散模型,獲得音視頻生成擴散模型輸出的目標視頻特征以及目標音頻特征,其中,目標視頻特征通過音視頻生成擴散模型根據初始視頻特征、初始音頻特征以及目標文本特征進行時空擴散變換生成,目標音頻特征通過音視頻生成擴散模型根據初始音頻特征、初始視頻特征以及目標文本特征進行擴散變換生成,初始視頻特征通過音視頻生成擴散模型根據第一高斯噪聲和目標文本特征進行時空擴散變換生成,初始音頻特征通過音視頻生成擴散模型根據第二高斯噪聲和目標文本特征進行擴散變換生成;對目標視頻特征以及目標音頻特征分別進行解碼,獲得目標文本對應的目標視頻以及目標音頻。

    3、上述設計的音頻和視頻生成方法,本方案首先獲取具有文本特征的目標文本,然后將目標文本輸入預先訓練完成的音視頻生成擴散模型中,通過音視頻生成擴散模型生成輸出目標文本對應的目標視頻特征以及目標音頻特征,進而對目標視頻特征以及目標音頻特征分別進行解碼,獲得目標文本對應的目標視頻和目標音頻。由于該音視頻生成擴散模型在生成目標音頻特征的擴散變換過程中將視頻特征作為擴散考慮條件,因此,生成的目標音頻特征與視頻特征實現關聯,同理,音視頻生成擴散模型在生成目標視頻特征的時空擴散變換過程中將音頻特征作為擴散考慮條件,因此,生成的目標視頻特征與音頻特征實現關聯,進而實現生成的目標視頻特征與目標音頻特征之間具備關聯性,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。

    4、在第一方面的可選實施方式中,音視頻生成擴散模型的訓練過程,包括:獲取訓練集,其中,訓練集包括多個樣本,每個樣本包括文本樣本特征以及文本樣本特征對應的視頻樣本特征以及音頻樣本特征;對每個樣本的視頻樣本特征進行時空切分并加入第一高斯噪聲,獲得每個樣本的視頻噪聲的隱空間特征;對每個樣本的音頻樣本特征進行時空切分并加入第二高斯噪聲,獲得每個樣本的音頻噪聲的隱空間特征;根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型。

    5、在第一方面的可選實施方式中,根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:獲取目標擴散步數;根據文本樣本特征以及視頻噪聲的隱空間特征進行時空擴散變換實現噪聲去除,得到初始視頻噪聲去除特征,并根據文本樣本特征以及音頻噪聲的隱空間特征進行擴散變換噪聲去除,得到初始音頻噪聲去除特征;判斷擴散步數是否達到預設擴散步數;若擴散步數達到預設擴散步數,則根據初始視頻噪聲去除特征、初始音頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得初始視頻交互特征,并根據初始視頻噪聲去除特征、初始音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得初始音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據初始視頻交互特征、視頻樣本特征、初始音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。

    6、在第一方面的可選實施方式中,在判斷擴散步數是否達到預設擴散步數之后,該方法還包括:若判定擴散步數沒有達到預設擴散步數,則根據初始視頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得第二視頻噪聲去除特征,并根據初始音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得第二音頻噪聲去除特征;判斷擴散步數是否達到預設擴散步數;若擴散步數達到預設擴散步數,則根據第二視頻噪聲去除特征、第二音頻噪聲去除特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得初始視頻交互特征,并根據第二視頻噪聲去除特征、第二音頻噪聲去除特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得初始音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據初始視頻交互特征、視頻樣本特征、初始音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。

    7、在第一方面的可選實施方式中,在判斷擴散步數是否達到目標擴散步數之后,該方法還包括:若判定擴散步數未達到目標擴散步數,則根據初始視頻交互特征、初始音頻交互特征以及文本樣本特征進行時空擴散變換實現噪聲去除,獲得第二視頻交互特征,并根據初始視頻交互特征、初始音頻交互特征以及文本樣本特征進行擴散變換實現噪聲去除,獲得第二音頻交互特征;判斷擴散步數是否達到目標擴散步數;若擴散步數達到目標擴散步數,則根據第二視頻交互特征、視頻樣本特征、第二音頻交互特征與音頻樣本特征計算預設擴散模型的損失值;判斷預設擴散模型的損失值是否達到目標損失值;若預設擴散模型的損失值達到目標損失值,則獲得音視頻生成擴散模型。

    8、在第一方面的可選實施方式中,在判斷預設擴散模型的損失值是否達到目標損失值之后,該方法還包括:若判定預設擴散模型的損失值未達到目標損失值,則對預設擴散模型的時空擴散變換參數以及擴散變換參數進行更新;根據更新的時空擴散變換參數、更新的擴散變換參數以及多個樣本中的下一樣本對預設擴散模型進行訓練,直至計算得到的損失值達到目標損失值,獲得音視頻生成擴散模型。

    9、上述多種實施方式,本方案在訓練預設擴散模型的過程中,通過在達到預設擴散步數的情況下,在生成目標音頻特征的擴散變換過程中將視頻特征作為擴散考慮條件,并在生成目標視頻特征的時空擴散變換過程中將音頻特征作為擴散考慮條件,從而使得視頻特征與音頻特征進行關聯,進而使得訓練得到的預設擴散模型對于輸入的文本而輸出的視頻特征與音頻特征也相應進行關聯,使得本方案訓練得到的音視頻生成擴散模型識別輸出的目標視頻特征和目標音頻特征具備關聯性,使得本方案生成的目標視頻和音頻同步性高,進而使得音畫同步性和質量更高。

    10、在第一方面的可選實施方式中,獲取文本樣本本文檔來自技高網...

    【技術保護點】

    1.一種音頻和視頻生成方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述音視頻生成擴散模型的訓練過程,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:

    4.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到預設擴散步數之后,所述方法還包括:

    5.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到目標擴散步數之后,所述方法還包括:

    6.根據權利要求3所述的方法,其特征在于,在所述判斷預設擴散模型的損失值是否達到目標損失值之后,所述方法還包括:

    7.根據權利要求2所述的方法,其特征在于,其中,獲取文本樣本特征,包括:

    8.根據權利要求2所述的方法,其特征在于,其中,獲取文本樣本特征對應的視頻樣本特征以及音頻樣本特征,包括:

    9.一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至8中任一項所述的方法。

    10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至8中任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種音頻和視頻生成方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述音視頻生成擴散模型的訓練過程,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據多個樣本的文本樣本特征、視頻噪聲的隱空間特征以及音頻噪聲的隱空間特征對預設擴散模型進行訓練,獲得音視頻生成擴散模型,包括:

    4.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到預設擴散步數之后,所述方法還包括:

    5.根據權利要求3所述的方法,其特征在于,在所述判斷擴散步數是否達到目標擴散步數之后,所述方法還包括:

    6.根據權利要求3所...

    【專利技術屬性】
    技術研發人員:肖杰
    申請(專利權)人:成都開心音符科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久午夜夜伦鲁鲁片无码免费| 无码精品久久久久久人妻中字| 免费无码午夜福利片 | 无码专区永久免费AV网站| yy111111电影院少妇影院无码 | 国产av无码久久精品| 日韩精品无码一区二区三区不卡 | 久久精品无码一区二区无码| 国产午夜无码片在线观看影院| 色欲A∨无码蜜臀AV免费播 | 无码被窝影院午夜看片爽爽jk| 国产激情无码视频在线播放性色| 国模无码视频一区| 亚洲AV无码AV吞精久久| 99久久无码一区人妻a黑| 亚洲AV无码久久精品色欲| 国产精品无码素人福利不卡| 国产aⅴ激情无码久久久无码| 无码人妻精品内射一二三AV| 亚洲AV无码成人专区| 激情无码人妻又粗又大中国人| 午夜无码伦费影视在线观看| 免费看无码特级毛片| 乱人伦人妻中文字幕无码久久网| 精品国产性色无码AV网站| 亚洲中文字幕久久精品无码A| 高清无码中文字幕在线观看视频| 无码GOGO大胆啪啪艺术| 乱色精品无码一区二区国产盗| 亚洲AV综合色区无码另类小说| 国产精品无码AV一区二区三区| 亚洲人成人无码网www电影首页| 亚洲精品无码久久久久| 亚洲av日韩av无码| 精品无码人妻一区二区三区| 2019亚洲午夜无码天堂| 精品少妇人妻AV无码专区不卡| 五月婷婷无码观看| 亚洲成a人片在线观看无码| 无码丰满少妇2在线观看| 亚洲精品无码不卡在线播放|