本發明專利技術公開了基于原型的聯邦醫學多模態哈希檢索方法、系統、設備及介質,屬于聯邦學習及多模態哈希檢索技術領域,本發明專利技術要解決的技術問題為如何在多模態哈希檢索過程中有效地保障醫學數據的隱私性和安全性,避免因數據的不平衡造成的失衡缺陷,采用的技術方案為:構建醫學多模態數據集;構建基于原型的聯邦醫學多模態哈希檢索模型:利用神經網絡和深度學習技術構建基于原型的聯邦醫學多模態哈希檢索模型;訓練模型:利用最終的數據集對基于原型的聯邦醫學多模態哈希檢索模型進行訓練;構建基于原型的聯邦醫學多模態哈希檢索模型具體如下:醫學多模態融合;原型參數增強學習;哈希檢索查詢。
【技術實現步驟摘要】
本專利技術涉及聯邦學習及多模態哈希檢索,具體地說是一種基于原型的聯邦醫學多模態哈希檢索方法、系統、設備及介質。
技術介紹
1、隨著圖像、文本和音頻等多種數據類型的不斷增加,信息檢索技術已不再局限于單一模式。因此,在面對海量的多模態數據時,提升檢索速度和減少數據存儲消耗成為了當前信息檢索領域亟待解決的兩個重要挑戰。通過哈希技術,可以將高維的多模態數據編碼為哈希碼,這樣在保留不同模態數據之間語義相似性的同時,顯著降低了存儲空間的消耗,并加快了檢索過程。因此,哈希檢索已成為支持大規模信息檢索的關鍵技術。此外,考慮到多模態數據固有的低層表現差異性與高層語義一致性的特征,即同一對象可以通過多種表達方式和表現形式展現,這種多樣化的表現形式能夠從不同角度對同一數據實例進行表征,彌補每種模態可能存在的信息缺失,從而相互促進,豐富人們對模態語義信息的理解。因此,多模態檢索必須能夠跨越不同模態數據之間的語義隔閡,實現準確且高效的檢索。
2、不同于傳統的集中式處理方法,近年來,聯邦學習作為一種新興的分布式機器學習范式,引起了廣泛關注。聯邦學習允許在不直接共享原始數據的情況下,通過在本地設備上訓練模型并僅共享模型參數來實現模型協作。這種方法在保護用戶隱私和數據安全方面具有顯著優勢,尤其適用于多模態數據檢索場景。實際場景中多模態數據集往往是高度敏感且多源異構的,導致實際應用中的多模態數據很難集中應用。例如,醫院中有大量高度敏感的診斷報告分布在不同科室中很難集中使用。因此,通過聯邦哈希檢索可以實現在保證多模態數據的隱私安全下實現高效的檢索。p>3、近年來,基于聯邦學習架構模型已經被應用于哈希檢索系統中,但是都是聯邦跨模態哈希檢索,跨模態哈希檢索旨在通過一系列的哈希函數從一種模態來查詢另一種模態語義相關的模態實例,相比之下,多模態哈希利用多模態數據之間的互補和一致的相關性來學習哈希碼以用來進行檢索更具有實用性。此外,現有聯邦哈希檢索任務中忽略了客戶端數據存在類失衡的不平衡問題。
4、故如何在多模態哈希檢索過程中有效地保障醫學數據的隱私性和安全性,避免因數據的不平衡造成的缺陷是目前亟待解決的技術問題。
技術實現思路
1、本專利技術的技術任務是提供一種基于原型的聯邦醫學多模態哈希檢索方法、系統、設備及介質,來解決如何在多模態哈希檢索過程中有效地保障醫學數據的隱私性和安全性,避免因數據的不平衡造成的失衡缺陷的問題。
2、本專利技術的技術任務是按以下方式實現的,一種基于原型的聯邦醫學多模態哈希檢索方法,該方法具體如下:
3、構建醫學多模態數據集:獲取圖像模態和文本模態數據集,對圖像模態數據集進行標準化處理,對文本模態數據集進行醫學術語的標準化處理,并加入患者的臨床背景信息豐富上下文的預處理操作,再使用預訓練微調模型clip和預訓練微調模型gpt2分別對圖像模態和文本模態數據集進行深度特征提取,獲取深度圖像特征和深度文本特征,并按照類別及樣本數量均衡劃分數據集,構建包含訓練集、測試集和檢索集的最終數據集;
4、構建基于原型的聯邦醫學多模態哈希檢索模型:利用神經網絡和深度學習技術構建基于原型的聯邦醫學多模態哈希檢索模型;
5、訓練模型:利用最終的數據集對基于原型的聯邦醫學多模態哈希檢索模型進行訓練;
6、其中,構建基于原型的聯邦醫學多模態哈希檢索模型具體如下:
7、醫學多模態融合:將深度圖像特征和深度文本特征經過特征對齊后,將深度圖像特征和深度文本特征拼接融合生成特征融合矩陣,并通過哈希映射部分輸出哈希碼;
8、原型參數增強學習:將客戶端中的特征融合矩陣通過原型計算生成個性化原型,服務器收集各個客戶端的個性化原型生成集中原型,識別并填補在客戶端特定原型中缺失的類別原型,確保發送的客戶端生成的個性化原型包含所有類別;
9、哈希檢索查詢:哈希碼通過漢明距離進行相似性檢索,多次迭代計算平均精度,平均精度用于對檢索性能進行評估。
10、作為優選,構建醫學多模態數據集具體如下:
11、獲取公共數據集:從公共網絡資源中獲取并下載包含圖像模態和文本模態的公共數據集作為原始數據集;其中,公共數據集包括iu-xray數據集和chexpert數據集,iu-xray數據集和chexpert數據集包含豐富的臨床背景,確保數據集的專業性和完整性;
12、對下載的原始數據集進行數據劃分:在iu-xray數據集和chexpert數據集上隨機選擇設定比例的圖像-文本對作為測試集,確保涵蓋常見和罕見,以便全面評估模型性能;并排除iu-xray數據集和chexpert數據集重測試集圖像-文本對數據,從剩余數據中抽取部分作為檢索集,保證不同病癥的多樣性和代表性;再在檢索數據集中,將未選中的圖像-文本對劃分為訓練集,確保訓練數據的豐富性;
13、提取圖像模態深度特征:使用預訓練微調模型clip作為圖像編碼器,實現對圖像模態進行深度特征提取,獲取圖像模態深度特征;
14、提取文本模態深度特征:使用預訓練微調模型gpt2作為文本編碼器,實現對文本模態進行深度特征提取,獲取文本模態深度特征。
15、更優地,提取圖像模態深度特征具體如下:
16、預處理圖像模態數據:統一將輸入圖像剪裁重塑調整為h×h像素大小,根據醫學圖像處理標準對醫學圖像進行歸一化,使醫學圖像的像素值范圍在[0,1]之間,消除不同影像設備導致的亮度和對比度差異;再使用bm3d醫學圖像專用去噪算法,如非局部均值(nlm)或bm3d,針對醫學影像特有的噪聲進行去噪處理;
17、預訓練微調模型clip:加載預訓練clip模型,使用對比損失函數優化預訓練clip模型,獲取預訓練微調模型clip模型,通過預訓練微調模型clip模型優化圖像和文本的相似度,使得相似的圖像-文本對之間的相似度盡可能高,不相似的圖像-文本對之間的相似度盡可能低;其中,對比損失函數具體如下:
18、
19、其中,τ表示溫度超參數;n表示樣本數量;sim(ii,ti)表示圖像文本相似度;
20、提取深度圖像特征:加載經過預訓練微調模型clip,適應醫學影像特征提取,確保預訓練微調模型clip能夠識別影像中的病理特征,使用預訓練微調模型clip提取深度圖像特征,捕獲圖像中的細微變化,例如腫瘤形態、病變區域等,并記錄深度圖像特征,便于后續分析;
21、提取文本模態深度特征具體如下:
22、預處理文本模態數據:將輸入文本進行文本清洗、文本分詞和文本向量化的預處理操作,并將文本信息映射到文本向量;
23、預訓練微調模型gpt2:加載預訓練模型gpt2,將預訓練模型gpt2作為文本編碼器,通過醫學領域的病歷記錄及醫學文獻相關的數據集對預訓練模型gpt2進行微調,提高預訓練模型gpt2對醫學內容的理解能力,并采用有監督的學習方法使用交叉熵損失函數計算預訓練模型gpt2輸出與目標文本之間的誤差,進而獲本文檔來自技高網
...
【技術保護點】
1.一種基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,該方法具體如下:
2.根據權利要求1所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,構建醫學多模態數據集具體如下:
3.根據權利要求2所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,提取圖像模態深度特征具體如下:
4.根據權利要求1所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,醫學多模態融合具體如下:
5.根據權利要求1或4所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,原型參數增強學習具體如下:
6.根據權利要求5所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,訓練模型具體如下:
7.一種基于原型的聯邦醫學多模態哈希檢索系統,其特征在于,該系統包括:
8.根據權利要求7所述的基于原型的聯邦醫學多模態哈希檢索系統,其特征在于,醫學多模態融合模塊將深度圖像特征和深度文本特征經過特征對齊器獲取對齊深度圖像特征和對齊深度文本特征,再將對齊深度圖像特征和對齊深度文本特征經過特征拼接融合函數生成特征融合矩陣,再將特征融合矩陣經過哈希映射函數生成松散哈希碼,最后通過sign函數輸出哈希碼;
9.一種電子設備,其特征在于,包括:存儲器和至少一個處理器;
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,所述計算機程序可被處理器執行以實現如權利要求1至6中任一項所述的基于原型的聯邦醫學多模態哈希檢索方法。
...
【技術特征摘要】
1.一種基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,該方法具體如下:
2.根據權利要求1所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,構建醫學多模態數據集具體如下:
3.根據權利要求2所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,提取圖像模態深度特征具體如下:
4.根據權利要求1所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,醫學多模態融合具體如下:
5.根據權利要求1或4所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,原型參數增強學習具體如下:
6.根據權利要求5所述的基于原型的聯邦醫學多模態哈希檢索方法,其特征在于,訓練模型具體如下:
7.一種基于原...
【專利技術屬性】
技術研發人員:鄭超群,左瑞帆,鹿文鵬,張維玉,喬新曉,司加勝,
申請(專利權)人:山東省計算中心國家超級計算濟南中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。