System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及圖文生成,更具體的說是涉及一種突出重點(diǎn)內(nèi)容的圖文混排布局生成方法及系統(tǒng)。
技術(shù)介紹
1、近年來,隨著人工智能技術(shù)的快速發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的文本、圖像生成技術(shù)有了顯著的突破,在實(shí)際場景中圖像生成技術(shù)已經(jīng)在一些細(xì)分領(lǐng)域有了較為成熟的應(yīng)用,但文本生成技術(shù)除了在翻譯、語音識別等傳統(tǒng)優(yōu)勢領(lǐng)域應(yīng)用廣泛外,其它方面特別是涉及語義生成應(yīng)用時(shí)難以達(dá)到較高的準(zhǔn)確度。業(yè)務(wù)文檔不同于其它創(chuàng)作型文檔,不僅格式規(guī)范、內(nèi)容質(zhì)量較高,而且其內(nèi)容存在較大的相關(guān)性和相似性,所以在已積累大量業(yè)務(wù)文檔的情況下,如何有效利用這些歷史業(yè)務(wù)文檔來輔助完成新的業(yè)務(wù)文檔創(chuàng)作任務(wù)是重點(diǎn)和關(guān)鍵。再者,非制式業(yè)務(wù)文檔雖然沒有固定的格式要求,但其排版也依據(jù)文檔類型遵循行間距、標(biāo)題大小、圖文比例、樣式風(fēng)格等一定的隱性規(guī)則,如何通過歷史文檔數(shù)據(jù)學(xué)習(xí)這種隱性規(guī)則,達(dá)到較好的視覺效果,也是業(yè)務(wù)文檔生成成敗的關(guān)鍵。最后,非制式圖文混排文檔生成本質(zhì)是一個(gè)復(fù)雜的系統(tǒng)工程,任務(wù)的約束信息由用戶方提出,導(dǎo)致問題求解難以有固化的客觀評價(jià)標(biāo)準(zhǔn),如何通過構(gòu)建人機(jī)協(xié)同環(huán)境,充分發(fā)揮人的經(jīng)驗(yàn)知識和創(chuàng)造力,生成符合主觀要求的文檔,是保障系統(tǒng)持續(xù)“好用”的關(guān)鍵。
2、對于圖文文檔的自動化混排布局,常用有基于啟發(fā)式規(guī)則、基于模板等傳統(tǒng)布局方法,以及當(dāng)前逐漸成為研究熱點(diǎn)的深度學(xué)習(xí)布局方法。
3、啟發(fā)式規(guī)則的方法雖然可捕獲布局圖像的豐富柵格屬性,但并未對布局結(jié)構(gòu)進(jìn)行建模,導(dǎo)致在布局?jǐn)?shù)據(jù)集的上下文搜索中產(chǎn)生嘈雜的建議。早期合成2d布局的早期工作依賴于范例和基于規(guī)則的啟發(fā)式,無法捕捉復(fù)
4、基于模板的方法,比如merrell等人應(yīng)用了一些簡單的設(shè)計(jì)指南來解決類似的問題。這些作品通常提供一個(gè)優(yōu)化框架以及一些設(shè)計(jì)指南,以綜合和評估合理的布局。然而,這些作品更多地關(guān)注圖形元素(如照片、家具),并將視覺美學(xué)放在首位。
5、深度學(xué)習(xí)布局方法隨著人工智能技術(shù)的興起而逐漸成為研究的主流,不僅在2d圖形布局上收效頗豐,也能夠進(jìn)行3d場景合成。wang最近提出了一種室內(nèi)場景合成的順序決策方法。在每一步中,訓(xùn)練一個(gè)cnn來預(yù)測位置或通過查看呈現(xiàn)的自上而下視圖來確定一個(gè)對象的類別。這類似于線框渲染鑒別器,在這個(gè)意義上,使用卷積來捕獲布局的空間模式。shed是另一種用于比較兩個(gè)3d形狀的細(xì)粒度子結(jié)構(gòu)相似性度量。這些工作為開發(fā)布局相似性的有效結(jié)構(gòu)度量提供了有價(jià)值的線索。
6、圖神經(jīng)網(wǎng)絡(luò)(gnn)通過消息傳遞對圖中的節(jié)點(diǎn)依賴關(guān)系進(jìn)行建模,是學(xué)習(xí)結(jié)構(gòu)化數(shù)據(jù)的完美工具。gnn提供粗略的圖嵌入,盡管對許多任務(wù)很有用,但如果每個(gè)圖都單獨(dú)處理,則可能會在上下文搜索中丟失有用的結(jié)構(gòu)信息。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本專利技術(shù)提供了一種突出重點(diǎn)內(nèi)容的圖文混排布局生成方法及系統(tǒng),可實(shí)現(xiàn)根據(jù)用戶意圖生成文檔布局,對關(guān)注內(nèi)容進(jìn)行突出顯示。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)采用如下技術(shù)方案:
3、第一方面,本專利技術(shù)提供一種突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,包括以下步驟:
4、基于wikipedia數(shù)據(jù)集,整合出圖文混合文檔,并從所述圖文混合文檔中抽取出整篇結(jié)構(gòu)信息、圖文數(shù)據(jù)對、關(guān)鍵詞句和共識信息;
5、將所述圖文混合文檔的整篇結(jié)構(gòu)信息、圖文數(shù)據(jù)對、關(guān)鍵詞句和共識信息輸入圖文生成模型,分別對圖像和文本進(jìn)行編碼,得到圖文內(nèi)容編碼信息;
6、將所述圖文混合文檔中標(biāo)題的關(guān)鍵詞、摘要的關(guān)鍵詞分別作為用戶意圖詞和文檔關(guān)鍵詞,對用戶意圖詞、文檔關(guān)鍵詞和文本風(fēng)格進(jìn)行編碼和特征融合后,連同所述圖文內(nèi)容編碼信息一起輸入至圖文混排布局生成模型,生成圖文混排布局。
7、進(jìn)一步的,所述圖文混合文檔的生成過程包括:
8、將wikipedia數(shù)據(jù)集進(jìn)行數(shù)據(jù)分類,將相似圖片打包為圖像包,并將相應(yīng)的文本進(jìn)行語義拼接形成合成文本;
9、將圖像包和合成文本通過數(shù)據(jù)歸集,形成圖文數(shù)據(jù)包;
10、根據(jù)圖文數(shù)據(jù)包中各個(gè)圖片和文本的位置關(guān)系,將各圖片和文本放在相應(yīng)的位置,整合為圖文混合文檔。
11、進(jìn)一步的,所述圖文生成模型包括全局注意力網(wǎng)絡(luò)、圖像生成器、文本生成器和判別器;
12、在所述圖文生成模型的訓(xùn)練階段,所述全局注意力網(wǎng)絡(luò)結(jié)合所述圖文混合文檔的整篇結(jié)構(gòu)信息和共識信息,生成全局注意力信息;
13、所述圖像生成器結(jié)合全局注意力信息對圖像數(shù)據(jù)進(jìn)行編碼,將編碼后的圖像特征與所述文本生成器編碼的文本特征進(jìn)行交叉注意力融合后,再解碼;
14、所述文本生成器結(jié)合全局注意力信息和關(guān)鍵詞對文本數(shù)據(jù)進(jìn)行編碼,將編碼后的文本特征與所述圖像生成器編碼的圖像特征進(jìn)行交叉注意力融合后,再解碼;
15、所述判別器度量解碼后的圖像數(shù)據(jù)和文本數(shù)據(jù)是否符合預(yù)設(shè)要求。
16、進(jìn)一步的,所述圖像生成器包括:圖像卷積網(wǎng)絡(luò)、圖像編碼器、圖像交叉注意力網(wǎng)絡(luò)和圖像解碼器;
17、所述圖像卷積網(wǎng)絡(luò)對圖像數(shù)據(jù)進(jìn)行卷積運(yùn)算提取圖像特征,提取的圖像特征與全局注意力信息融合后輸入所述圖像編碼器進(jìn)行編碼;
18、所述圖像交叉注意力模塊將編碼后的圖像特征與所述文本生成器編碼的文本特征進(jìn)行交叉注意力融合,將融合后的信息輸入至所述圖像解碼器進(jìn)行解碼。
19、進(jìn)一步的,所述文本生成器包括:注意力網(wǎng)絡(luò)、文本卷積網(wǎng)絡(luò)、文本編碼器、文本交叉注意力網(wǎng)絡(luò)和文本解碼器;
20、所述注意力網(wǎng)絡(luò)對所述圖文混合文檔的關(guān)鍵詞進(jìn)行重點(diǎn)標(biāo)識;
21、所述文本卷積網(wǎng)絡(luò)對文本數(shù)據(jù)進(jìn)行卷積運(yùn)算提取文本特征,提取的文本特征、關(guān)鍵詞重點(diǎn)標(biāo)識信息和全局注意力信息融合后輸入至所述文本編碼器進(jìn)行編碼;
22、所述文本交叉注意力網(wǎng)絡(luò)將編碼后的文本特征與所述圖像生成器編碼的圖像特征進(jìn)行交叉注意力融合,將融合后的信息輸入至所述文本解碼器進(jìn)行解碼。
23、進(jìn)一步的,所述判別器包括:圖像判別器、文本判別器和跨模態(tài)判別器;
24、所述圖像判別器判斷所述圖像生成器最終解碼的圖像數(shù)據(jù)與原始圖像數(shù)據(jù)特征之間的差異度是否在預(yù)設(shè)范圍內(nèi);
25、所述文本判別器判斷所述文本生成器最終解碼的文本數(shù)據(jù)與原始文本數(shù)據(jù)特征之間的差異度是否在預(yù)設(shè)范圍內(nèi);
26、所述跨模態(tài)判別器判斷所述圖像生成器輸出的交叉注意力融合特征與所述文本生成器輸出的交叉注意力融合特征是否匹配。
27、進(jìn)一步的,所述圖文混排布局生成模型包括:圖文生成器、圖文編碼器和圖文判別器;
28、在所述圖文混排布局生成模型的訓(xùn)練階段,所述圖文生成器根據(jù)用戶意圖詞、文檔關(guān)鍵詞和文本風(fēng)格的融合特征編碼信息以及所述圖文內(nèi)容編碼信息,生成圖文混排布局;
29、所述圖文編碼器對生成的圖文混排布局和原始圖文混排布局分別進(jìn)行編碼,分別得到向量z’和z;
30、所述圖文判別器判斷向量z’和z的差異度是否在預(yù)設(shè)范圍內(nèi)。
31、第二方面,本專利技術(shù)提供一種突出重點(diǎn)本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖文混合文檔的生成過程包括:
3.根據(jù)權(quán)利要求1所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖文生成模型包括全局注意力網(wǎng)絡(luò)、圖像生成器、文本生成器和判別器;
4.根據(jù)權(quán)利要求3所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖像生成器包括:圖像卷積網(wǎng)絡(luò)、圖像編碼器、圖像交叉注意力網(wǎng)絡(luò)和圖像解碼器;
5.根據(jù)權(quán)利要求3所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述文本生成器包括:注意力網(wǎng)絡(luò)、文本卷積網(wǎng)絡(luò)、文本編碼器、文本交叉注意力網(wǎng)絡(luò)和文本解碼器;
6.根據(jù)權(quán)利要求3所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述判別器包括:圖像判別器、文本判別器和跨模態(tài)判別器;
7.根據(jù)權(quán)利要求1所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖文混排布局生成模型包括:圖文生成器、圖文編碼器和圖文判別器;
8.一
...【技術(shù)特征摘要】
1.一種突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖文混合文檔的生成過程包括:
3.根據(jù)權(quán)利要求1所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖文生成模型包括全局注意力網(wǎng)絡(luò)、圖像生成器、文本生成器和判別器;
4.根據(jù)權(quán)利要求3所述的突出重點(diǎn)內(nèi)容的圖文混排布局生成方法,其特征在于,所述圖像生成器包括:圖像卷積網(wǎng)絡(luò)、圖像編碼器、圖像交叉注意力網(wǎng)絡(luò)和圖像解碼器;
5.根據(jù)權(quán)利要求3所述的突...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:魯克文,劉長江,韓淼,夏瑞航,
申請(專利權(quán))人:中國電子科技集團(tuán)公司第十五研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。