System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于文生圖,尤其涉及基于令牌合并的免訓練文生圖語義綁定方法及系統。
技術介紹
1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息,不必然構成在先技術。
2、擴散模型的出現使文本生成圖像領域迅速發展,這些模型能夠使用文本提示詞作為控制條件生成高質量的圖像,但是將生成的圖像與文本提示詞對齊,仍然是一個顯著的挑戰;現有的文本生成圖像(text-to-image,t2i)中最常見的問題之一是缺乏適當的語義綁定,即給定對象未能正確與其屬性或相關對象綁定。
3、為了解決將t2i擴散模型與文本提示詞中復雜語義對齊的難題,提出了多種增強策略,包括優化潛在表示、通過布局先驗引導生成過程、或對t2i模型進行微調、盡管取得了一定進展,但這些方法在生成復雜場景,如多個對象以及多個屬性的高質量圖像時仍存在局限性。
4、基于優化的方法,例如通過調整文本嵌入或優化噪聲信號來加強注意力圖,這些方法主要受到基于文本的圖像編輯方法的啟發,表明對象的布局是由t2i擴散模型unet中的自注意力和交叉注意力圖確定的,然而,這些方法在處理生成多個對象或多個屬性的復雜場景時往往失效。
5、布局生成圖片方法,廣泛使用布局,尤其是以邊界框或分割圖的形式,作為彌合文本輸入與生成圖像之間差距的流行中間手段;盡管這些方法具有一定潛力,但它們顯著延長了訓練時間。更重要的是,當涉及全局背景描述或抽象元素時,布局先驗的應用變得具有挑戰性。這一限制約束了這些技術的通用性,使得它們在處理需要非特定空間布局的實際場景中難以有效部署
6、基于大語言模型的方法,首先利用大型語言模型(large?language?model,llms)生成布局,然后強制文本生成圖像(t2i)的生成過程遵循這些指導,類似于布局引導方法;基于微調的方法,通過在海量數據集上更新模型參數,增強語義對齊能力。還有一些改進的t2i模型從頭開始在大規模數據集上訓練,這些方法通過更好的架構設計和大量的訓練數據,隱式地提升了語義對齊能力。然而,這些方法需要極其龐大的計算資源來實現目標。
技術實現思路
1、為了解決上述
技術介紹
中存在的至少一項技術問題,本專利技術提供基于令牌合并的免訓練文生圖語義綁定方法及系統,其以無需訓練的方式解決了語義綁定問題,既不需要使用大型語言模型,也不需要在額外的數據集上進行訓練。此外,在應對復雜的t2i生成場景時表現更佳,尤其是用戶要求多個對象或一個對象的多個屬性綁定時,效果尤為顯著。
2、為了實現上述目的,本專利技術采用如下技術方案:
3、本專利技術的第一方面提供基于令牌合并的免訓練文生圖語義綁定方法,包括如下步驟:
4、對輸入的提示文本進行標記化處理并編碼得到文本嵌入;其中,對輸入的提示文本進行標記化處理包括在文本的開頭和結尾分別填充起始令牌和多個結束令牌;
5、對文本嵌入分析,得到文本嵌入的耦合性和語義可加性;
6、基于文本嵌入的耦合性和語義可加性構建得到復合令牌,同時,用不包含屬性信息的結束令牌替換原始結束令牌;
7、基于語義綁定損失和熵損失迭代更新復合令牌,基于更新后的復合令牌和替換后的結束令牌得到最終的文本嵌入;
8、基于最終文本嵌入生成對應的圖像。
9、進一步地,基于令牌嵌入的語義可加性,通過顯式綁定令牌將實體和屬性共同表達,采用逐元素相加的方式,進行令牌的語義融合,得到復合令牌。
10、進一步地,提示文本包含k個由名詞和其對應的令牌表示的實體,對于包含k個實體的提示詞,復合令牌的計算公式為:
11、
12、其中,表示復合令牌,每個實體與相關對象或屬性的令牌相關聯,表示為(nk,ak)。
13、進一步地,語義綁定損失的計算公式為:
14、
15、其中,t為時間步,∈θ表示擴散模型,zt表示潛在變量,表示復合令牌,為文本嵌入,k表示實體的個數。
16、進一步地,熵正則化損失的計算公式為:
17、
18、其中,ak表示第k個令牌對應的交叉注意力圖,表示每個令牌的熵。
19、進一步地,采用clip文本編碼器對輸入的文本提示進行編碼得到文本嵌入,每個嵌入對應一個令牌。
20、進一步地,采用sdxl模型和文本嵌入生成對應的圖像,其中,sdxl模型包括自動編碼器和擴散模型。
21、本專利技術的第二方面提供一種基于令牌合并的免訓練文本生成圖像的系統,包括:
22、文本嵌入提取模塊,其用于對輸入的提示文本進行標記化處理并編碼得到文本嵌入;其中,對輸入的提示文本進行標記化處理包括在文本的開頭和結尾分別填充起始令牌和多個結束令牌;
23、文本嵌入分析模塊,其用于對文本嵌入分析,得到文本嵌入的耦合性和語義可加性;
24、文生圖語義綁定模塊,其用于基于文本嵌入的耦合性和語義可加性構建得到復合令牌,同時,用不包含屬性信息的結束令牌替換原始結束令牌;基于語義綁定損失和熵損失迭代更新復合令牌,基于更新后的復合令牌和替換后的結束令牌得到最終的文本嵌入;基于最終文本嵌入生成對應的圖像。
25、本專利技術的第三方面提供一種計算機可讀存儲介質。
26、一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上述所述的一種基于令牌合并的免訓練文本生成圖像的方法中的步驟。
27、本專利技術的第四方面提供一種計算機設備。
28、一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述所述的一種基于令牌合并的免訓練文本生成圖像的方法中的步驟。
29、與現有技術相比,本專利技術的有益效果是:
30、1、本專利技術提出了一種無需訓練的方法,稱為令牌合并,作為解決語義綁定問題的更高效且穩健的方法,通過提出的結束令牌替換和迭代的復合令牌更新技術,進一步提升了該方法的效果。
31、2、本專利技術分析了語義綁定問題,本專利技術基于對文本嵌入分析,得到文本嵌入的耦合性和語義可加性,得到擴散模型能夠解釋由多個令牌相加生成的復合令牌,整合組合令牌的語義屬性。
32、3、本專利技術將語義綁定定義為將某一對象與其屬性關聯起來(稱為屬性綁定)或將其與其他相關子對象聯系起來(稱為對象綁定)的任務,提出了一種新的方法,稱為令牌合并。通過將相關的令牌聚合為一個復合令牌來增強語義綁定。這種方法能夠確保對象、其屬性及子對象共享相同的交叉注意力圖。
33、4、本專利技術為了進一步優化t2i,還引入了兩種輔助損失:熵損失和語義綁定損失。這些損失會迭代更新復合令牌,以提升生成的完整性。
34、本專利技術附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。
本文檔來自技高網...【技術保護點】
1.基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,基于令牌嵌入的語義可加性,通過顯式綁定令牌將實體和屬性共同表達,采用逐元素相加的方式,進行令牌的語義融合,得到復合令牌。
3.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,提示文本包含K個由名詞和其對應的令牌表示的實體,對于包含K個實體的提示詞,復合令牌的計算公式為:
4.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,語義綁定損失的計算公式為:
5.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,熵正則化損失的計算公式為:
6.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,采用CLIP文本編碼器對輸入的文本提示進行編碼得到文本嵌入,每個嵌入對應一個令牌。
7.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,采用SDXL模型和文本嵌入生成對應的圖像,其中
8.基于令牌合并的免訓練文生圖語義綁定系統,其特征在于,包括:
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-7中任一項所述的基于令牌合并的免訓練文生圖語義綁定方法中的步驟。
10.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1-7中任一項所述的基于令牌合并的免訓練文生圖語義綁定方法中的步驟。
...【技術特征摘要】
1.基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,基于令牌嵌入的語義可加性,通過顯式綁定令牌將實體和屬性共同表達,采用逐元素相加的方式,進行令牌的語義融合,得到復合令牌。
3.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,提示文本包含k個由名詞和其對應的令牌表示的實體,對于包含k個實體的提示詞,復合令牌的計算公式為:
4.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,語義綁定損失的計算公式為:
5.如權利要求1所述的基于令牌合并的免訓練文生圖語義綁定方法,其特征在于,熵正則化損失的計算公式為:
6.如權利要求1所述的基于令牌合并的免訓練文生圖語...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。