System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及信息,尤其涉及一種基于大模型的文本生成和信息恢復方法及系統。
技術介紹
1、受惡劣自然環境因素、人為干擾因素等的影響,在一些特殊場景中的通信基礎設備薄弱,且無法保證穩定可靠的通信質量,導致通信網絡中通信節點之間的信息傳遞受到了很大影響,與此同時,實時的、高速的信息傳輸需求卻與日俱增,特別是實時圖像的傳輸,可方便人們及時準確地了解現場狀態。如何在通信條件受限的特殊環境中保障通信單元之間信息及時傳遞成為當前亟待解決的技術難題。
2、在現有技術中,一般采用數據壓縮方法應對有限的通信帶寬,例如去除數據中的冗余信息,或對重復性高的數據進行量化編碼,或采用標準化、歸一化手段減少數據量。在具體的壓縮手段上,現有技術包括分塊壓縮、增量壓縮、字典編碼壓縮等技術。
3、現有技術雖然在一定程度上可以在通信條件受限情況下為通信單元之間的信息交互提供保障,但數據壓縮過程不可避免地存在信息損失,導致接收的信息不完整。
技術實現思路
1、本專利技術提供了一種基于大模型的文本生成和信息恢復方法及系統,能夠解決現有技術中數據壓縮過程不可避免地存在信息損失,導致接收的信息不完整的技術問題。
2、根據本專利技術的一方面,提供了一種基于大模型的文本生成和信息恢復方法,基于大模型的文本生成和信息恢復方法包括:利用文本生成模型將復雜的態勢信息轉化為簡潔、準確的文本描述;利用信息恢復模型從接收到的文本描述中重構出高質量、語義準確的態勢圖像,在信息恢復階段,使用預訓練的clip模
3、進一步地,文本生成模型使用minicpm系列的最新多模態版本minicpm-v2.0,該模型基于minicpm?2.4b和siglip-400m構建,共擁有2.8b參數,minicpm-v?2.0具有領先的光學字符識別(ocr)和多模態理解能力。
4、進一步地,信息恢復模型參考stable?diffusion圖像生成模型構建信息恢復模型,信息恢復模型包括語義提取器(text?extraction)、圖像去噪器(unet)和圖像編解碼器(vae),語義提取器(text?extraction)負責處理輸入的文本信息,并將其轉換為對應的token?embeddings(令牌嵌入),采用由openai開發實現的cliptext模型作為語義提取的主要工具,clip?encoder是在大規模的圖像-文本對數據集上預訓練得到的,在信息恢復模型中,clip?encoder接收輸入的態勢文本描述,并將其轉換為一個固定長度的向量表示。
5、進一步地,使用變分自編碼器(vae)的編碼器將噪聲圖像編碼為隱空間表示,學習圖像的壓縮表示具體包括:使用圖像壓縮算法對數據發送方采集的原始的信息圖像進行降低分辨率處理,得到壓縮后的低分辨率圖像;使用變分自編碼器(vae)的編碼器將這個低分辨率圖像編碼為隱空間表示,學習圖像的壓縮表示。
6、進一步地,將預訓練的clip模型生成的語義向量與變分自編碼器(vae)的編碼器生成的圖像隱空間表示進行融合,并使用訓練好的去噪unet網絡對融合后的隱空間表示進行優化具體包括:u-net接收兩部分輸入,一個是由變分自編碼器(vae)的編碼器生成的隱空間表示,另一個是由clip?encoder生成的語義向量;在u-net的編碼器(cnn)部分,變分自編碼器(vae)的編碼器生成的隱空間表示首先被解碼和上采樣,重建出原始圖像的初步估計;將原始圖像的初步估計與clip?encoder生成的語義向量進行融合,形成融合后的隱空間;u-net的解碼器(反卷積)部分逐步將融合后的隱空間上采樣和恢復,生成與原始圖像分辨率相同的高質量態勢圖像。
7、進一步地,通過concatenation、addition或attention實現原始圖像的初步估計與clip?encoder生成的語義向量的融合。
8、進一步地,融合后的隱空間包含了圖像內容和態勢描述的聯合表示,指導后續的恢復過程。
9、進一步地,在對融合后的隱空間恢復的過程中,u-net的解碼器利用u-net的編碼器提取的多尺度特征和跳躍連接傳遞的信息,逐步恢復圖像的細節和紋理,條件向量提供的語義指導幫助網絡生成符合描述內容的圖像,確保恢復結果與給定的態勢信息相一致。
10、進一步地,使用vae的解碼器將優化后的隱空間表示解碼為高質量的態勢信息圖像具體包括:使用vae的解碼器通過反卷積層和上采樣操作,從潛在空間中抽取和解釋圖像的關鍵特征和屬性,將優化后的隱空間表示解碼為高質量的態勢信息圖像。
11、根據本專利技術的另一方面,提供了一種基于大模型的文本生成和信息恢復系統,該基于大模型的文本生成和信息恢復系統使用如上所述的基于大模型的文本生成和信息恢復方法進行文本生成和信息恢復。
12、應用本專利技術的技術方案,提供了一種基于大模型的文本生成和信息恢復方法,該方法針對通信條件受限的特殊環境中通信單元之間的態勢圖像傳輸問題,利用大模型技術,實現低帶寬和高實時性通信需求。該方法由兩個關鍵組件構成:文本生成模型和信息恢復模型;文本生成模型旨在將復雜的態勢信息轉化為簡潔、準確的文本描述。通過利用自然語言處理技術和視覺大模型的語義理解能力,該模塊能夠自動提取態勢圖像中的關鍵信息,如目標類別、運動狀態等,并生成與之對應的文本表述。這種文本表述不僅語義豐富,而且數據量小,非常適合在低帶寬環境下進行傳輸;信息恢復模型則負責從接收到的文本描述中重構出高質量、語義準確的態勢圖像。該模塊采用了圖像壓縮和生成技術,如變分自編碼器(vae),通過學習圖像的低維表示和生成模型,實現了從緊湊的文本描述到逼真態勢圖像的轉化。生成的圖像不僅視覺質量高,而且與原始態勢信息在語義層面保持一致,確保了態勢感知的準確性。因此,本專利技術所提供的基于大模型的文本生成和信息恢復方法與現有技術相比,本方法一方面可以根據網絡條件自適應調整壓縮率,適應特殊環境中的彈性網絡條件,有效保證通信的實時性;另一方面,由于采用了信息恢復模型,最大程序保證了發送信息和接收信息的一致性。
本文檔來自技高網...【技術保護點】
1.一種基于大模型的文本生成和信息恢復方法,其特征在于,所述基于大模型的文本生成和信息恢復方法包括:
2.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,所述文本生成模型使用MiniCPM系列的最新多模態版本MiniCPM-V?2.0,該模型基于MiniCPM?2.4B和SigLip-400M構建,共擁有2.8B參數,MiniCPM-V?2.0具有領先的光學字符識別(OCR)和多模態理解能力。
3.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,所述信息恢復模型參考Stable?Diffusion圖像生成模型構建信息恢復模型,所述信息恢復模型包括語義提取器(Text?Extraction)、圖像去噪器(Unet)和圖像編解碼器(VAE),所述語義提取器(Text?Extraction)負責處理輸入的文本信息,并將其轉換為對應的TokenEmbeddings(令牌嵌入),采用由OpenAI開發實現的ClipText模型作為語義提取的主要工具,CLIP?Encoder是在大規模的圖像-文本對數據集上預訓練得到的,在信息恢
4.根據權利要求3所述的基于大模型的文本生成和信息恢復方法,其特征在于,使用變分自編碼器(VAE)的編碼器將噪聲圖像編碼為隱空間表示,學習圖像的壓縮表示具體包括:
5.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,將預訓練的CLIP模型生成的語義向量與變分自編碼器(VAE)的編碼器生成的圖像隱空間表示進行融合,并使用訓練好的去噪Unet網絡對融合后的隱空間表示進行優化具體包括:
6.根據權利要求5所述的基于大模型的文本生成和信息恢復方法,其特征在于,通過concatenation、addition或attention實現所述原始圖像的初步估計與CLIP?Encoder生成的語義向量的融合。
7.根據權利要求6所述的基于大模型的文本生成和信息恢復方法,其特征在于,所述融合后的隱空間包含了圖像內容和態勢描述的聯合表示,指導后續的恢復過程。
8.根據權利要求7所述的基于大模型的文本生成和信息恢復方法,其特征在于,在對融合后的隱空間恢復的過程中,U-Net的解碼器利用U-Net的編碼器提取的多尺度特征和跳躍連接傳遞的信息,逐步恢復圖像的細節和紋理,條件向量提供的語義指導幫助網絡生成符合描述內容的圖像,確保恢復結果與給定的態勢信息相一致。
9.根據權利要求8所述的基于大模型的文本生成和信息恢復方法,其特征在于,使用VAE的解碼器將優化后的隱空間表示解碼為高質量的態勢信息圖像具體包括:使用VAE的解碼器通過反卷積層和上采樣操作,從潛在空間中抽取和解釋圖像的關鍵特征和屬性,將優化后的隱空間表示解碼為高質量的態勢信息圖像。
10.一種基于大模型的文本生成和信息恢復系統,其特征在于,所述基于大模型的文本生成和信息恢復系統使用如權利要求1至9中任一項所述的基于大模型的文本生成和信息恢復方法進行文本生成和信息恢復。
...【技術特征摘要】
1.一種基于大模型的文本生成和信息恢復方法,其特征在于,所述基于大模型的文本生成和信息恢復方法包括:
2.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,所述文本生成模型使用minicpm系列的最新多模態版本minicpm-v?2.0,該模型基于minicpm?2.4b和siglip-400m構建,共擁有2.8b參數,minicpm-v?2.0具有領先的光學字符識別(ocr)和多模態理解能力。
3.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,所述信息恢復模型參考stable?diffusion圖像生成模型構建信息恢復模型,所述信息恢復模型包括語義提取器(text?extraction)、圖像去噪器(unet)和圖像編解碼器(vae),所述語義提取器(text?extraction)負責處理輸入的文本信息,并將其轉換為對應的tokenembeddings(令牌嵌入),采用由openai開發實現的cliptext模型作為語義提取的主要工具,clip?encoder是在大規模的圖像-文本對數據集上預訓練得到的,在信息恢復模型中,clip?encoder接收輸入的態勢文本描述,并將其轉換為一個固定長度的向量表示。
4.根據權利要求3所述的基于大模型的文本生成和信息恢復方法,其特征在于,使用變分自編碼器(vae)的編碼器將噪聲圖像編碼為隱空間表示,學習圖像的壓縮表示具體包括:
5.根據權利要求1所述的基于大模型的文本生成和信息恢復方法,其特征在于,將預訓練...
【專利技術屬性】
技術研發人員:趙正,周廣蘊,劉雷,朱俊杰,孫燦,董鳳禹,
申請(專利權)人:航天科工集團智能科技研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。