一種基于擴散模型的文本增強圖像生成方法技術

技術編號：44193512 閱讀：13 留言：0更新日期：2025-02-06 18:32

本發明專利技術公開了一種基于擴散模型的文本增強圖像生成方法，通過場景文本解析與關系建模機制，本框架通過深度整合大語言模型，顯著提升了文本理解能力，實現了對復雜場景關系的精確解析和語義理解，創新性地設計了物體提取、關系提取和物體定位等核心模塊，實現了對場景中物體位置、屬性等細節的精確把控、通過巧妙集成外部搜索引擎和專業的文本生成模塊，有效突破了傳統模型在圖像文字渲染和專有名詞物體生成方面的局限性，顯著提升了生成內容的準確性和真實性，通過整合知識圖譜，將物體關系表示為圖結構，并以入度最多的物體為核心錨點生成場景布局。本機制顯著提升了場景布局的語義一致性與視覺美觀性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能領域，具體涉及一種基于擴散模型的文本增強圖像生成方法。

技術介紹

1、利用文本到圖像生成模型生成圖像時，經常出現生成結果與輸入文本提示詞不一致的問題。例如用戶輸入"一只藍色的貓坐在紅色的椅子上"，但生成的圖像可能會出現棕色的貓或綠色的椅子等屬性不匹配的情況；輸入"兩個蘋果放在籃子里"，可能會生成三個或更多蘋果；要求生成"印有'happy?birthday'字樣的生日蛋糕"，文字可能模糊不清或顯示錯誤內容；期望生成"埃菲爾鐵塔"的圖像，但塔身結構與真實世界的完全不符。這些不一致性問題嚴重影響了模型的可靠性和實用性，尤其在醫療影像、法庭科學、刑事偵查等高精度高風險領域。現有的注意力機制或對抗訓練等解決方案在處理復雜場景時仍表現欠佳，亟需一個能確保生成圖像與輸入文本高度一致的技術方案。本文針對這些一致性問題，提出了一種基于大語言模型和擴散模型的統一框架，以確保生成圖像與輸入文本的高度一致性。

2、在現有的文本到圖像生成技術中，主流方案采用擴散概率模型結合注意力機制的架構。該方案首先使用clip等編碼器將輸入的文本提示轉換為條件向量，然后在擴散模型的迭代去噪過程中，通過交叉注意力機制動態計算文本和視覺特征之間的關聯。這種方案通過注意力機制增強了擴散過程中文本特征的引導作用，試圖提高生成圖像與輸入文本的一致性，代表性模型包括dall-e和stable?diffusion等。

3、目前最接近的現有技術主要存在三個關鍵的技術缺點：

4、一方面是語義理解能力不足，現有模型對復雜文本描述缺

5、另一方面是生成控制精度不夠理想，在處理物體位置、屬性等細節時往往不夠精確，特別是在多物體場景中，難以實現準確的布局控制，無法有效保證生成內容與輸入文本描述的一致性。

6、此外，現有技術在生成清晰可讀的文字內容和表現專有名詞對應的不常見物體時存在明顯不足。這些技術缺陷導致生成結果常常偏離用戶的預期，限制了技術在實際應用中的可靠性。

技術實現思路

1、本專利技術針對現有技術的不足，提供了一種基于擴散模型的文本增強圖像生成方法，本專利技術是通過以上技術方案來實現的：

2、本專利技術公開了一種基于擴散模型的文本增強圖像生成方法，包括：

3、獲得提示詞文本；

4、對提示詞文本中的物體單詞進行提取，輸出結構化形式的物體的名稱、數量、屬性特征信息；

5、根據得到物體的名稱，將物體分類為一般物體類別、圖像中的文字內容類別、現實世界中存在的專有名詞物體類別，輸出分類后的物體清單；

6、根據分類后的物體清單和提示詞文本，預測物體之間的空間關系和交互關系；

7、基于物體之間的空間關系和交互關系，構建以三元組形式表示的物體關系結構；

8、根據物體關系結構，構建完整的關系圖并分析圖結構，輸出場景中的核心錨點物體的位置及其在畫布中的基準位置；

9、根據核心錨點物體的位置以及物體之間的空間關系，計算每個物體的具體邊界框參數，輸出所有物體的空間布局信息和尺寸比例，邊界框參數包括坐標位置和尺寸大小；

10、根據分類后的物體清單和所有物體的空間布局信息和尺寸比例，針對不同的物體類別采用相應的生成策略，輸出與提示詞文本相符的完整的圖像內容。

11、作為進一步地改進，本專利技術所述的對提示詞文本中的物體單詞進行提取具體為：通過大語言模型對提示詞文本進行分析識別，物體的名稱通過大語言模型和實體識別方法，識別提示詞中的核心名詞。

12、作為進一步地改進，本專利技術所述的一般物體類別是指日常生活中常見的普通物體，圖像中的文字內容類別指需要以文字圖形形式呈現的內容，專有名詞物體類別則代表顯示中有特殊指代的物體。

13、作為進一步地改進，本專利技術所述的物體清單包括物體名稱、屬性、數量和類別，物體清單用于后續知識圖譜生成和圖像生成模塊的調用與處理。

14、作為進一步地改進，本專利技術所述的三元組由主體物體、關系謂詞及客體物體組成。作為進一步地改進，本專利技術所述的根據物體關系結構，構建完整的關系圖并分析圖結構具體為：整合所有三元組后，生成物體關系的知識圖譜，最終生成的知識圖譜為后續步驟中物體定位和圖像生成提供語義關系輸入，從而確保生成的場景符合提示詞描述的語義；關系圖以物體作為節點、關系作為邊，完整表示物體之間的關系結構。

15、作為進一步地改進，本專利技術所述的輸出場景中的核心錨點物體的位置及其在畫布中的基準位置具體為：通過分析知識圖譜，識別場景中與其他物體連接關系最多的物體，即在知識圖譜中入度最多的節點，作為核心錨點物體，首先通過大語言模型對錨點物體的位置進行分析并生成對應物體大小以及坐標。

16、作為進一步地改進，本專利技術所述的根據核心錨點物體的位置以及物體之間的空間關系，計算每個物體的具體邊界框參數，輸出所有物體的空間布局信息和尺寸比例；

17、具體為：

18、基于核心錨點的位置和知識圖譜中的空間關系，逐一計算其他物體的邊界框參數，邊界框參數包括位置坐標?(x,?y)?和尺寸比例?(w,?h)；通過調整物體的相對位置和大小，平衡物體間關系的語義準確性與場景整體的視覺美觀性，最終輸出所有物體的邊界框參數，邊界框用于指導后續的圖像生成，確保物體在場景中的布局合理且符合提示詞描述的語義。

19、作為進一步地改進，本專利技術所述的據分類后的物體清單和所有物體的空間布局信息和尺寸比例，針對不同的物體類別采用相應的生成策略，輸出與提示詞文本相符的完整的圖像內容具體為：

20、針對一般物體類別，將物體的邊界框參數和物體的名稱、數量、屬性特征信息輸入到可控擴散模型中，生成符合提示詞描述的高質量物體圖像；

21、針對圖像中的文字內容類別，使用視覺文本生成模塊生成清晰可讀的文字圖像，同時保證文字與場景樣式協調一致；

22、針對現實世界中存在的專有名詞物體類別，通過搜索引擎獲取參考圖像，結合邊界框參數和提示詞語義信息生成專有名詞物體的圖像，通過可控生成模型與即插即用的文本生成模塊相結合；

23、通過上述三類輸入直接輸出最終的完整場景圖像，場景圖像能夠準確反映提示詞描述，并具備高視覺質量，滿足多種復雜場景的生成需求。

24、本專利技術的有益效果如下：

25、（1）場景文本解析與關系建模機制，在語義理解層面，相比傳統僅依賴clip編碼器和注意力機制的方案，本框架通過深度整合大語言模型，顯著提升了文本理解能力，實現了對復雜場景關系的精確解析和語義理解；

26、（2）精確的物體定位與空間約束系統，在生成控制精度方面，創新性地設計了物體提取、關系提取和物體定位等核心模塊，實現了對場景中物體位置、屬性等細節的精確把控，同時有效解決了多物體場景的布局控制問題；

27、（3）多模型協同的融本文檔來自技高網...

【技術保護點】

1.一種基于擴散模型的文本增強圖像生成方法，其特征在于，包括：

2.根據權利要求1所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

3.根據權利要求2所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

4.根據權利要求1或2或3所述的基于擴散模型的文本增強圖像生成方法，其特征在于，所述的物體清單包括物體名稱、屬性、數量和類別，所述的物體清單用于后續知識圖譜生成和圖像生成模塊的調用與處理。

5.根據權利要求4所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

6.根據權利要求5所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

7.根據權利要求6所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

8.根據權利要求1或2或3或5或6或7所述的基于擴散模型的文本增強圖像生成方法，其特征在于，所述的根據核心錨點物體的位置以及物體之間的空間關系，計算每個物體的具體邊界框參數，輸出所有物體的空間布局信息和尺寸比例；

9.根據權利要求8所述的基于擴散模型的文本增強圖像生成方法，

...

【技術特征摘要】

1.一種基于擴散模型的文本增強圖像生成方法，其特征在于，包括：

2.根據權利要求1所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

3.根據權利要求2所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

5.根據權利要求4所述的基于擴散模型的文本增強圖像生成方法，其特征在于，

6.根據權利要求5所述的基于擴散模型的文...

【專利技術屬性】
技術研發人員：褚志軒，孫浥塵，王渤軒，鄭昊倫，任奎，
申請(專利權)人：浙江大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術