深度學習與圖文大模型相結合的圖診方法、系統、介質及設備技術方案

技術編號：44375791 閱讀：2 留言：0更新日期：2025-02-25 09:52

本發明專利技術涉及計算機領域，公開了一種深度學習與圖文大模型相結合的圖診方法、系統、介質及設備，其包括：通過對圖診任務描述與故障定義，構建基于解耦建模的圖診數據并訓練相應的圖診算法，對圖像進行初步圖診；將初步圖診結果輸入通用圖文大模型中生成回復，通過人工核驗、數據清洗與增強，構建圖診指令數據集；于圖診指令數據集進行視覺指令微調，得到強化圖診情境和IQA方面能力的調優圖文大模型，調優圖文大模模型根據場景條件對初步圖診結果進行校正；基于校正后的圖診結果進行告警邏輯處理，對是否告警進行判決，并將告警信號傳輸至操作員。本發明專利技術提升了對依賴高層語義的干擾類別的識別效果，增強了圖診分析的可交互性和可解釋性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種計算機領域，特別是關于一種深度學習與圖文大模型相結合的圖診方法、系統、介質及設備。

技術介紹

1、圖像質量評估(image?quality?assessment,iqa)是計算機視覺領域的重要任務，旨在識別視頻或靜止圖像中的視覺干擾類別，并估計這些干擾的嚴重程度。現有的圖像質量評估方法通常使用質量分數來描述圖像質量，這些分數不僅用于對比不同模型的性能，還廣泛用作評測指標或訓練損失函數，促進了圖像生成、修復等領域的技術發展。

2、然而，質量分數這種描述形式存在一定的局限性，它只能提供圖像質量的綜合評估，無法詳細刻畫復雜的局部性和內容相關性。此外，傳統的圖像質量評估方法往往集中在低級視覺特征上，如亮度、對比度、噪點、模糊和色彩偏移等。這些特征相對容易總結和識別。但在實際應用中，例如鐵路監控圖像質量診斷，除了上述低級特征外，還需要關注無信號和遮擋等高級視覺特征，這些特征沒有明顯的模式化特征，傳統的計算機視覺算法難以有效識別。

技術實現思路

1、針對上述問題，本專利技術的目的是提供一種深度學習與圖文大模型相結合的圖診方法、系統、介質及設備，其提升了對依賴高層語義的干擾類別的識別效果，增強了圖診分析的可交互性和可解釋性。

2、為實現上述目的，本專利技術采取以下技術方案：一種深度學習與圖文大模型相結合的圖診方法，其包括：通過對圖診任務描述與故障定義，構建基于解耦建模的圖診數據并訓練相應的圖診算法，對圖像進行初步圖診；將初步圖診結果輸入通用圖文大模型中生

3、進一步，構建基于解耦建模的圖診數據，包括：基于對圖診任務描述與故障定義，以及具體的業務需求，通過解耦化的圖診數據標注方法，將圖像數據和診斷信息獨立處理，構建基于解耦建模的圖診數據。

4、進一步，構建圖診指令數據集，包括：

5、構建鐵路領域的預訓練數據集，包括鐵路領域的簡短場景描述、鐵路視頻監控圖像質量的簡要判斷、鐵路監控相關的管理規范以及與鐵路監控相關的新聞報導，所有行業知識數據均以圖文對的形式存在；

6、在預訓練階段的行業知識數據集基礎上，構建下游任務圖診指令數據集。

7、進一步，圖診指令數據集包括簡單部分和復雜部分；

8、簡單部分負責識別監控畫面是否存在圖像質量異常，存在哪些方面的質量異常，簡要說明異常問題的嚴重程度；

9、復雜部分為深度邏輯推理，回復需要根據輸入的指令提示信息生成有用、無害、精煉的信息；通過多輪對話的方式組建指令數據：通過self-instruct與sota的圖文大模型交互，生成數據后再進行人工復核；重新思考所需回復的關鍵方面和gpt-4v的相應能力，通過人工標注提示引入先驗的監督信息，以增強gpt-4v生成的準確性；高質量的詳細回復包括圖像內容、關鍵失真、失真對內容的影響以及結論。

10、進一步，基于圖診指令數據集進行視覺指令微調，包括：預訓練階段與微調階段；

11、預訓練階段，將行業領域的專業知識收集、清洗并整理為圖文對形式，以增量預訓練的方式對圖診指令數據集進行行業知識注入；

12、微調階段，構建推理深度各異、包含任務各方面的問答數據，以視覺指令微調的形式對齊任務需求。

13、進一步，微調階段，保持圖像編碼器的參數不變，訓練映射層與語言大模型；同時，引入高效微調與分布式訓練。

14、進一步，基于校正后的圖診結果進行告警邏輯處理，包括：

15、根據具體業務需求的定義，在依賴低階視覺特征的故障類中，對于“不能忍受”的部分，若初步圖診結果已報出且嚴重程度超出了可接受閾值，則直接告警；

16、對于其余的初步圖診結果判為“異常”的圖像進入圖文大模型分析，調優圖文大模型通過設定好的指令模板結合初步圖診結果，對初步圖診結果進行糾偏，得到校正后的圖診結果，將校正后的圖診結構依據故障等級閾值決定是否發送告警信號；

17、其中，指令模板的內容包括情境識別、監控時間戳ocr識別以及osd信息。

18、一種深度學習與圖文大模型相結合的圖診系統，其包括：深度學習初診模塊，通過對圖診任務描述與故障定義，構建基于解耦建模的圖診數據并訓練相應的圖診算法，對圖像進行初步圖診；數據集構建模塊，將初步圖診結果輸入通用圖文大模型中生成回復，通過人工核驗、數據清洗與增強，構建圖診指令數據集；圖文大模型調優模塊，基于圖診指令數據集進行視覺指令微調，得到強化圖診情境和iqa方面能力的調優圖文大模型，調優圖文大模模型根據場景條件對初步圖診結果進行校正；告警邏輯判決模塊，基于校正后的圖診結果進行告警邏輯處理，對是否告警進行判決，并將告警信號傳輸至操作員。

19、一種存儲一個或多個程序的計算機可讀存儲介質，所述一個或多個程序包括指令，所述指令當由計算設備執行時，使得所述計算設備執行上述方法中的任一方法。

20、一種計算設備，其包括：一個或多個處理器、存儲器及一個或多個程序，其中一個或多個程序存儲在所述存儲器中并被配置為所述一個或多個處理器執行，所述一個或多個程序包括用于執行上述方法中的任一方法的指令。

21、本專利技術由于采取以上技術方案，其具有以下優點：

22、1、本專利技術結合了基于傳統深度學習的圖診算法和先進的圖文大模型，組成了一種新型的圖診方法，不僅提升了對依賴高層語義的干擾類別的識別效果，還增強了圖診分析的可交互性和可解釋性，使其能夠自適應地應用于不同場景。同時，通過與傳統圖診算法的配合，有效規避了圖文大模型在密集推理任務中帶來的成本消耗。

23、2、本專利技術通過解耦化的圖診數據標注方法，將圖像數據和診斷信息獨立處理，采用模塊化標注流程，將圖像特征與診斷結果分離標注，減少人工干預，提升數據標注的效率與準確性。該標注方法靈活適應不同任務需求，確保數據質量的一致性，為后續模型訓練提供高質量的基礎數據。

24、3、本專利技術針對圖文大模型進行行業知識注入及下游任務指令微調的數據構建：通過匯集行業知識庫，注入圖文大模型，實現模型對特定領域知識的深度掌握。利用構建的多維數據源(圖像、文本、行業語料等)，通過分層注入方式將知識與大模型融合，并進行下游任務的微調，使模型在行業應用中的表現更具精準性和實用性。

25、4、本專利技術將傳統深度學習與圖文大模型相結合：首先通過傳統深度學習網絡進行初步圖像處理，提取關鍵特征信息，再輸入圖文大模型，利用其跨模態理解與推理能力進行進一步的診斷分析。這種結合不僅解決了傳統深度學習在處理復雜圖像任務時的局限，還增強了模型對文字、圖像及行業知識的多維度理解，實現更為準確的診斷結果。

26、綜上，本文檔來自技高網...

【技術保護點】

1.一種深度學習與圖文大模型相結合的圖診方法，其特征在于，包括：

2.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，構建基于解耦建模的圖診數據，包括：

3.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，構建圖診指令數據集，包括：

4.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，圖診指令數據集包括簡單部分和復雜部分；

5.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，基于圖診指令數據集進行視覺指令微調，包括：預訓練階段與微調階段；

6.如權利要求5所述深度學習與圖文大模型相結合的圖診方法，其特征在于，微調階段，保持圖像編碼器的參數不變，訓練映射層與語言大模型；同時，引入高效微調與分布式訓練。

7.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，基于校正后的圖診結果進行告警邏輯處理，包括：

8.一種深度學習與圖文大模型相結合的圖診系統，其特征在于，包括：

9.一種存儲一個或多個程序的計算機可

10.一種計算設備，其特征在于，包括：一個或多個處理器、存儲器及一個或多個程序，其中一個或多個程序存儲在所述存儲器中并被配置為所述一個或多個處理器執行，所述一個或多個程序包括用于執行如權利要求1至7所述方法中的任一方法的指令。

...

【技術特征摘要】

1.一種深度學習與圖文大模型相結合的圖診方法，其特征在于，包括：

2.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，構建基于解耦建模的圖診數據，包括：

3.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，構建圖診指令數據集，包括：

4.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，圖診指令數據集包括簡單部分和復雜部分；

5.如權利要求1所述深度學習與圖文大模型相結合的圖診方法，其特征在于，基于圖診指令數據集進行視覺指令微調，包括：預訓練階段與微調階段；

6.如權利要求5所述深度學習與圖文大模型相結合的圖診方法，其特征在于，微調階段，保持圖像編碼器的參數不變，訓練...

【專利技術屬性】
技術研發人員：羅靜，周銘坤，劉陽，李懿祖，
申請(專利權)人：通號通信信息集團有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術