一種面向病理全切片的語言大模型的多模態信息融合方法、系統、設備及介質技術方案

技術編號：44103289 閱讀：4 留言：0更新日期：2025-01-24 22:31

一種面向病理全切片的語言大模型的多模態信息融合方法、系統、設備及介質，其方法通過對病理圖像進行分割與處理，得到病理圖像區域塊局部表示的編碼向量：將得到病理圖像區域塊局部表示的編碼向量輸入病理圖像信息混合注意力層融合獲得病理圖像全切片的表示向量；再將得到病理圖像全切片的表示向量與大語言模型的文本向量通過交叉注意力機制實現多模態融合；其系統、設備及介質基于所述的面向病理全切片的語言大模型的多模態信息融合方法，根據病理圖像信息與使用者輸入的文本信息進行多模態信息融合；本發明專利技術有助于輔助醫生進行更快速、更準確的病理判斷。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于人工智能與醫學交叉的病理圖像多模態大模型，具體涉及一種面向病理全切片的語言大模型的多模態信息融合方法、系統、設備及介質。

技術介紹

1、近十年來，深度學習以及卷積神經網絡在計算機視覺領域的優勢突出，已被廣泛應用于醫學圖像分析。采用深度學習和計算機視覺技術能夠幫助醫生快速識別病變細胞，從而大幅提高醫生的診療效率，輔助醫生開展各種臨床診斷，在對于病理圖像的分類與分割上均取得了良好的效果。但是，病理圖像具有尺寸大、分辨率高的特點，現有技術在處理病理全切片(whole?slide?images,wsi)時，往往采用逐個分塊(patch)處理的方法，最終在各個分塊的輸出上取平均值，這種處理方法未充分利用病理圖像的信息，在不同的病理圖像塊之間存在信息丟失的現象，不利于對病理圖像做出完整的診斷或分析。

2、此外，臨床病理領域天然具有多模態的特性，在醫生的診斷過程中，往往需要結合針對病人的文本信息、病理圖像、以及其他各種檢驗結果最終做出綜合的判斷。現有的病理圖像處理的方法主要體現在人工智能在計算機視覺領域的運用，并未利用病理領域自身的多模態特征，從而導致無法充分利用臨床診斷中語言等多模態信息，缺乏有效的多模態數據融合機制。這限制了模型在模擬實際診斷場景中的應用能力。隨著人工智能技術與硬件計算能力的發展，人工智能模型的參數量不斷變大，展現出了增強的能力。chatgpt與llama在自然語言處理領域展現出強大的能力，大語言模型在多種自然語言處理的任務上展示了超出原有模型的能力，且大語言模型具有在不同任務之間建立起通用模型架

技術實現思路

1、為了克服上述現有的技術存在的缺陷，本專利技術提出了一種面向病理全切片的語言大模型的多模態信息融合方法、系統、設備及介質，通過對病理圖像進行分割與處理，得到病理圖像區域塊局部表示的編碼向量：將得到病理圖像區域塊局部表示的編碼向量輸入病理圖像信息混合注意力層融合獲得病理圖像全切片的表示向量；再將得到病理圖像全切片的表示向量與大語言模型的文本向量通過交叉注意力機制實現多模態融合；有助于輔助醫生進行更快速、更準確的病理判斷。

2、為了實現上述目的，本專利技術采取的技術方案為：

3、一種面向病理全切片的語言大模型的多模態信息融合方法，具體包括以下的步驟：

4、步驟一：對病理圖像進行分割與處理：給定一張完整的病理全切片，將該病理全切片按照固定的窗口大小切分，在完成分割后再對切分出的各個局部區域通過視覺編碼器編碼，得到病理圖像區域塊局部表示的編碼向量

5、步驟二、病理圖像的全切片信息融合：將步驟一得到病理圖像區域塊局部表示的編碼向量輸入病理圖像信息混合注意力層融合獲得病理圖像全切片的表示向量，引入信息瓶頸潛在表示模塊r將病理圖像區域塊局部表示編碼向量的壓縮維度作為固定長度的病理圖像全切片的表示向量；

6、步驟三：大語言模型與全切片信息的多模態融合：引入大語言模型，大語言模型輸入為文本內容，文本以向量形式在大語言模型不同層次之間傳遞；凍結原有大語言模型的各層權重，在大語言模型的各層之間建立可訓練的模態混合層，對未凍結部分的參數訓練，即，將步驟二得到病理圖像全切片的表示向量與大語言模型的文本向量通過tanh門控的交叉注意力實現多模態融合，得到模態融合向量；利用模態融合向量生成大語言模型最終的回答。

7、所述步驟一具體方法為：

8、第1)步，將一張包含完整信息的病人病理全切片按照固定步長、窗口大小分割，并分別進行中心裁切，得到n個病理圖像區域塊即patch；獲取各個病理圖像區域塊集合表示，經過裁切與歸一化得到表示為x＝{x1,x2,…,xn}病理圖像集合；

9、第2)步，將步驟一第1)步中得到的病理圖像集合輸入經過預訓練的視覺編碼器中，獲取各個病理圖像區域塊的局部表示的編碼向量，視覺編碼器采用在固定數據集上訓練的resnet模型，或對比學習得到的clip模型；將整張病理圖像區域塊經過視覺編碼器處理后得到的病理圖像區域塊局部表示的編碼向量記為其中，n為病理圖像切的病理圖像區域塊數目。

10、所述步驟二具體方法為：

11、將步驟一第2)步得到的病理圖像區域塊局部表示的編碼向量輸入病理圖像信息混合注意力層中，開展病理圖像的全切片信息融合過程；所述病理圖像信息混合注意力層包括信息瓶頸潛在表示模塊r與病理圖像區域塊局部表示編碼向量融合的交叉注意力層；以信息瓶頸潛在表示模塊r與病理圖像區域塊局部表示編碼向量拼接做為交叉注意力層的查詢向量query，以病理圖像區域塊局部表示編碼向量作為交叉注意力層中的鍵key和value，通過交叉注意力層以實現整張病理圖像融合的效果，并將經過交叉注意力層的結果與原有信息瓶頸潛在表示模塊r利用殘差求和；得到的結果再經過前向傳播層神經網絡(feed-forward?network，ffw)與殘差求和得到最終的融合向量作為固定長度的病理圖像全切片的表示向量。

12、所述信息瓶頸潛在表示模塊r用于壓縮經過視覺編碼器處理后的病理圖像區域塊局部表示編碼向量中的信息，降低病理圖像區域塊局部表示編碼向量維度；信息瓶頸潛在表示模塊r是一個維度為可學習的向量，將信息瓶頸潛在表示向量的值記為

13、供全切片信息融合過程使用。

14、所述病理圖像的全切片信息融合用公式表示為：

15、

16、v＝v'+ffw(v')

17、其中，v為病理圖像全切片的表示向量，是在建立病理圖像全切片過程中交叉注意力層的可學習投影參數。

18、所述步驟三具體方法為：

19、將步驟二最終獲得病理圖像全切片的表示向量v與大語言模型的本身在t時刻之前生成的文本的向量l＝{l1,l2,…,lt-1}通過tanh門控的交叉注意力實現模態融合；以大語言模型的本身在t時刻之前生成的文本的向量l作為交叉注意力層的查詢向量query，以病理圖像全切片的表示向量v作為交叉注意力層中的鍵key與value，然后再將得到的結果通過tanh門控并利用殘差求和；得到的結果再經過tanh門控的前向傳播層神經網絡與殘差求和得到多模態融合向量；用公式表示為：

20、

21、lmerge＝l'+tanh(ffw_para)·ffw(l)

<本文檔來自技高網...

【技術保護點】

1.一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，具體包括以下的步驟：

2.根據權利要求1所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述步驟一具體方法為：

3.根據權利要求1所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述步驟二具體方法為：

4.根據權利要求1或3所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述信息瓶頸潛在表示模塊r用于壓縮經過視覺編碼器處理后的病理圖像區域塊局部表示編碼向量中的信息，降低病理圖像區域塊局部表示編碼向量維度；信息瓶頸潛在表示模塊r為維度為可學習的向量，將信息瓶頸潛在表示向量的值記為供全切片信息融合過程使用。

5.根據權利要求1或3所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述病理圖像的全切片信息融合用公式表示為：

6.根據權利要求1所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述步驟三具體方法為：

7.根據權利要求1或6所述的一

8.一種面向病理全切片的語言大模型的多模態信息融合系統，其特征在于，包括，

9.一種面向病理全切片的語言大模型的多模態信息融合設備，其特征在于，包括：存儲器和處理器，所述存儲器存儲有計算機程序，使得所述處理器執行所述的面向病理全切片的語言大模型的多模態信息融合方法。

10.一種接收用戶輸入程序存儲介質，其特征在于，所存儲的計算機程序被處理器執行時能夠基于所述的面向病理全切片的語言大模型的多模態信息融合方法，根據病理圖像信息與使用者輸入的文本信息進行多模態信息融合。

...

【技術特征摘要】

1.一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，具體包括以下的步驟：

2.根據權利要求1所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述步驟一具體方法為：

3.根據權利要求1所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述步驟二具體方法為：

5.根據權利要求1或3所述的一種面向病理全切片的語言大模型的多模態信息融合方法，其特征在于，所述病理圖像的全切片信息融合用公式表示為：<...

【專利技術屬性】
技術研發人員：龔鐵梁，蘇煒恒，何忠江，宋雙永，劉江，張未展，李辰，
申請(專利權)人：西安交通大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術