System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及圖像生成,尤其涉及一種多模態圖像生成方法及裝置。
技術介紹
1、隨著圖像生成技術的飛速進步,生成個性化圖像因其在人工智能肖像照片、圖像動畫和虛擬試穿等應用中的廣泛應用潛力而受到極大關注。在這一領域,圖像定制技術正面臨著一個核心挑戰:如何在生成過程中巧妙地結合參考圖像的關鍵特征與文本描述的定制化要求,以創造出既忠實于參考圖像又滿足文本描述的個性化人臉圖像。這要求算法不僅要精確捕捉并保留參考圖像的關鍵特征,還要能夠理解和執行文本描述中的定制化指令,同時確保生成的圖像在視覺上與參考圖像高度一致,實現自然且符合用戶期望的個性化效果。
技術實現思路
1、有鑒于此,本申請實施例提供了一種多模態圖像生成方法、裝置、電子設備及計算機可讀存儲介質,以解決現有技術中生成圖像無法在保留參考圖像的關鍵特征的基礎上符合文本描述的個性化效果的問題。
2、本申請實施例的第一方面,提供了一種多模態圖像生成方法,包括:構建圖像特征提取網絡,利用圖像特征提取網絡、文本編碼器、噪聲圖生成網絡、注意力層和兩個交叉注意力層構建多模態圖像生成模型;獲取待生成目標圖像的參考圖像和文本描述,將參考圖像和文本描述輸入多模態圖像生成模型:通過圖像特征提取網絡提取參考圖像的圖像特征;通過文本編碼器提取文本描述的文本特征;通過噪聲圖生成網絡隨機生成噪聲圖;通過注意力層處理噪聲圖,得到噪聲特征;通過第一個交叉注意力層處理文本特征和噪聲特征,得到注意力特征;通過第二個交叉注意力層處理圖像特征和注意力特征,得到目標圖像。
3、本申請實施例的第二方面,提供了一種多模態圖像生成裝置,包括:構建模塊,被配置為構建圖像特征提取網絡,利用圖像特征提取網絡、文本編碼器、噪聲圖生成網絡、注意力層和兩個交叉注意力層構建多模態圖像生成模型;獲取模塊,被配置為獲取待生成目標圖像的參考圖像和文本描述,將參考圖像和文本描述輸入多模態圖像生成模型:第一提取模塊,被配置為通過圖像特征提取網絡提取參考圖像的圖像特征;第二提取模塊,被配置為通過文本編碼器提取文本描述的文本特征;生成模塊,被配置為通過噪聲圖生成網絡隨機生成噪聲圖;第一處理模塊,被配置為通過注意力層處理噪聲圖,得到噪聲特征;第二處理模塊,被配置為通過第一個交叉注意力層處理文本特征和噪聲特征,得到注意力特征;第三處理模塊,被配置為通過第二個交叉注意力層處理圖像特征和注意力特征,得到目標圖像。
4、本申請實施例的第三方面,提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序,該處理器執行計算機程序時實現上述方法的步驟。
5、本申請實施例的第四方面,提供了一種計算機可讀存儲介質,該計算機可讀存儲介質存儲有計算機程序,該計算機程序被處理器執行時實現上述方法的步驟。
6、本申請實施例與現有技術相比存在的有益效果是:構建圖像特征提取網絡,利用圖像特征提取網絡、文本編碼器、噪聲圖生成網絡、注意力層和兩個交叉注意力層構建多模態圖像生成模型;獲取待生成目標圖像的參考圖像和文本描述,將參考圖像和文本描述輸入多模態圖像生成模型:通過圖像特征提取網絡提取參考圖像的圖像特征;通過文本編碼器提取文本描述的文本特征;通過噪聲圖生成網絡隨機生成噪聲圖;通過注意力層處理噪聲圖,得到噪聲特征;通過第一個交叉注意力層處理文本特征和噪聲特征,得到注意力特征;通過第二個交叉注意力層處理圖像特征和注意力特征,得到目標圖像。采用上述技術手段,可以解決現有技術中,生成圖像無法在保留參考圖像的關鍵特征的基礎上符合文本描述的個性化效果的問題,進而生成即忠實于參考圖像又能體現文本描述的個性化效果的圖像,提高生成圖像的質量。
本文檔來自技高網...【技術保護點】
1.一種多模態圖像生成方法,其特征在于,包括:
2.根據權利要求1的方法,其特征在于,構建圖像特征提取網絡,包括:
3.根據權利要求2的方法,其特征在于,通過圖像特征提取網絡提取參考圖像的圖像特征,包括:
4.根據權利要求3的方法,其特征在于,通過第一圖像編碼網絡處理參考圖像和查詢向量,得到第一圖像編碼特征,包括:
5.根據權利要求3的方法,其特征在于,通過第二圖像編碼網絡處理參考圖像和第一圖像編碼特征,得到第二圖像編碼特征,包括:
6.根據權利要求1的方法,其特征在于,將參考圖像和文本描述輸入多模態圖像生成模型之前,方法還包括:
7.根據權利要求2的方法,其特征在于,通過圖像特征提取網絡提取訓練參考圖像的訓練圖像特征,包括:
8.一種多模態圖像生成裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序,其特征在于,處理器執行計算機程序時實現如權利要求1至7中任一項方法的步驟。
10.一種計算機可讀存儲介質,計算機可
...【技術特征摘要】
1.一種多模態圖像生成方法,其特征在于,包括:
2.根據權利要求1的方法,其特征在于,構建圖像特征提取網絡,包括:
3.根據權利要求2的方法,其特征在于,通過圖像特征提取網絡提取參考圖像的圖像特征,包括:
4.根據權利要求3的方法,其特征在于,通過第一圖像編碼網絡處理參考圖像和查詢向量,得到第一圖像編碼特征,包括:
5.根據權利要求3的方法,其特征在于,通過第二圖像編碼網絡處理參考圖像和第一圖像編碼特征,得到第二圖像編碼特征,包括:
6.根據權利要求1的方法,其特征在于,將參考圖像和文...
【專利技術屬性】
技術研發人員:石雅潔,
申請(專利權)人:北京龍智數科科技服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。