System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于機器學習領域,具體涉及一種基于交換的多模態多尺度變換融合方法和系統。
技術介紹
1、近年來,數據驅動的人工智能(artificial?intelligence,ai)發展迅速,深刻地改變了多模態機器學習領域。多模態融合是這一領域的核心挑戰,其目的是將異構數據統一為單一表示形式,在有效降低維度的同時保留每種模態的語義特征。在醫療保健領域,患者數據通常包括成像(如放射掃描)和文本記錄(如電子健康記錄或診斷報告)。尤其是文本數據,包含了放射科醫生觀察到的醫療狀況的詳細描述,從而產生了復雜、不太透明的跨模態關系,使數據整合變得更加復雜。
2、為了應對這一挑戰,研究越來越多地采用深度多模態融合技術。深度多模態融合技術主要分為基于聚合和基于對齊的方法。基于聚合的方法通過子網絡表示每種模態,并使用各種運算符組合這些表示。然而,這種方法犧牲了對每種模態進行獨立預測的能力,導致了一些模態內信息的丟失。相比之下,基于對齊的方法使用對齊損失來保持多模態特征的一致性,同時保留多個子網絡的獨立輸出,并對最終預測進行加權。然而,基于對齊的融合只是為原始的單模態優化目標添加了一個正則化項,而沒有實現真正的跨模態融合或促進必要的模態間信息交換。此外,一些研究探索了基于通道的模態交換方法,以平衡模態內處理和模態間融合。例如,通過使用批歸一化(batch?normalization,bn)縮放因子來衡量信道重要性,將因子接近零的信道替換為另一種模態的平均信道。然而,這種通道交換技術往往忽視了圖像和文本數據之間的異質性,使得在統一的低維空間
3、作為一種解決方案,將多尺度結構集成到模型中已被證明可以有效地提高特征學習能力。多尺度網絡結構以不同的粒度對輸入數據進行采樣,這可能會導致感興趣區域(region?of?interest,roi)具有不同的細粒度和粗粒度特征。細粒度特征保留了更詳細的輸入數據,而粗粒度特征則捕捉了整體趨勢。大多數疾病檢測任務在圖像分類時都考慮了多尺度因素。
4、在醫學應用的人工智能訓練過程中,整合各種數據尺度的特征可以增強深度神經網絡的收斂性。細粒度特征捕獲詳細信息,而粗粒度特征揭示總體趨勢,這兩者對于優化模型性能都至關重要。這種認識導致人們越來越關注結合多模態和多尺度學習策略。然而,醫學人工智能中現有的多尺度方法主要側重于結合圖像模態,對圖像和文本報告之間的多尺度互補學習的探索有限。
技術實現思路
1、有鑒于此,本專利技術的目的是提供一種基于交換的多模態多尺度變換融合方法和系統。
2、本專利技術的目的是通過以下技術方案實現的:
3、一種基于交換的多模態多尺度變換融合方法,包括:
4、獲取多模態數據,即原始圖像數據和與原始圖像數據對應的原始文本數據;
5、將原始圖像數據和原始文本數據輸入多模態多尺度變換融合模型,生成融合結果,其中,所述多模態多尺度變換融合模型包括:多模態編碼器模塊、解碼器模塊、基于通道的信息交換模塊和多尺度融合模塊,
6、多模態編碼器模塊包括文本編碼器和雙分支圖像解碼器,
7、文本編碼器用于對輸入的文本數據進行編碼,生成文本嵌入;
8、雙分支圖像編碼器包括小分支圖像編碼器和大分支圖像編碼器,分別用于提取輸入的圖像數據的細粒度圖像嵌入和粗粒度圖像嵌入;
9、解碼器模塊包含兩個解碼器,分別對文本編碼器和雙分支圖像編碼器生成的嵌入進行解碼,從而根據文本生成圖像以及根據圖像生成文本兩個生成任務,以實現對文本編碼器和雙分支圖像解碼器生成的嵌入的正則化;
10、基于通道的信息交換模塊用于根據不同通道的注意力得分,對不同通道上的不同模態的嵌入進行信息交換,從而生成不同分支上的圖像特征和文本特征;
11、多尺度融合模塊,用于根據不同分支上的圖像特征和文本特征,融合來自一個分支的cls令牌和來自另一個分支中的補丁令牌。
12、本專利技術還提供了一種基于交換的多模態多尺度變換融合系統,包括:
13、多模態數據獲取引擎,用于獲取多模態數據,即圖像數據和與圖像數據對應的文本數據;
14、模型訓練引擎,用于對多模態多尺度變換融合模型進行訓練,
15、融合生成引擎,用于根據獲取的多模態數據,利用訓練好的多模態多尺度變換融合模型,生成融合結果,
16、其中,多模態多尺度變換融合模型包括:多模態編碼器模塊、解碼器模塊、基于通道的信息交換模塊和多尺度融合模塊,
17、多模態編碼器模塊包括文本編碼器和雙分支圖像解碼器,
18、文本編碼器用于對輸入的文本數據進行編碼,生成文本嵌入;
19、雙分支圖像編碼器包括小分支圖像編碼器和大分支圖像編碼器,分別用于提取輸入的圖像數據的細粒度圖像嵌入和粗粒度圖像嵌入;
20、解碼器模塊包含兩個解碼器,分別對文本編碼器和雙分支圖像編碼器生成的嵌入進行解碼,從而根據文本生成圖像以及根據圖像生成文本兩個生成任務,以實現對文本編碼器和雙分支圖像解碼器生成的嵌入的正則化;
21、基于通道的信息交換模塊用于根據不同通道的注意力得分,對不同通道上的不同模態的嵌入進行信息交換,從而生成不同分支上的圖像特征和文本特征;
22、多尺度融合模塊,用于根據不同分支上的圖像特征和文本特征,融合來自一個分支的cls令牌和來自另一個分支中的補丁令牌。
23、進一步地,對不同模態的嵌入進行信息交換包括將粗粒度圖像嵌入與文本嵌入的信息交換以及細粒度圖像嵌入與文本嵌入的信息交換,基于通道的信息交換模塊還通過兩個超參數η和μ,分別用于控制多模態信息交換的開始層和結束層。
24、進一步地,基于通道的信息交換模塊包括多頭自注意力單元和多模態信息交換單元,文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入加上各自對應的cls令牌之后被饋送到多頭自注意力單元,得到文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入中各個令牌的注意力分數,計算得到的注意力分數通過殘差連接的前饋網絡發送到多模態信息交換單元,多模態信息交換單元采用了共享參數的多個transformer編碼器,將不同尺度的多模態信息以互補的方式進行交換。
25、進一步地,多模態信息交換單元將不同尺度的多模態信息以互補的方式進行交換,包括:對于任一層的信息交換,對于任一通道,如果當前通道的注意力分數低于設定的閾值,則該通道的嵌入向量將被替換為另一種模態中預設百分比的令牌的平均嵌入,否則,其嵌入向量保持不變,從而得到更新后的嵌入矩陣。
26、進一步地,基于通道的信息交換模塊還包括ffn和cb單元,在當前層信息交換完成之后,ffn根據更新后的嵌入矩陣,生成下一層信息交換的輸入嵌入,cb用于向每個令牌廣播上下文。
27、進一步地,融合來自一個分支的cls令牌本文檔來自技高網...
【技術保護點】
1.一種基于交換的多模態多尺度變換融合方法,其特征在于,包括:
2.根據權利要求1所述的基于交換的多模態多尺度變換融合方法,其特征在于,對不同模態的嵌入進行信息交換包括將粗粒度圖像嵌入與文本嵌入的信息交換以及細粒度圖像嵌入與文本嵌入的信息交換,基于通道的信息交換模塊還通過兩個超參數η和μ,分別用于控制多模態信息交換的開始層和結束層。
3.根據權利要求1所述的基于交換的多模態多尺度變換融合方法,其特征在于,基于通道的信息交換模塊包括多頭自注意力單元和多模態信息交換單元,文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入加上各自對應的cls令牌之后被饋送到多頭自注意力單元,得到文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入中各個令牌的注意力分數,計算得到的注意力分數通過殘差連接的前饋網絡發送到多模態信息交換單元,多模態信息交換單元采用了共享參數的多個Transformer編碼器,將不同尺度的多模態信息以互補的方式進行交換。
4.根據權利要求3所述的基于交換的多模態多尺度變換融合方法,其特征在于,多模態信息交換單元將不同尺度的多模態信息以互補的方式進行交換,包括:對
5.根據權利要求4所述的基于交換的多模態多尺度變換融合方法,其特征在于,基于通道的信息交換模塊還包括FFN和CB單元,在當前層信息交換完成之后,FFN根據更新后的嵌入矩陣,生成下一層信息交換的輸入嵌入,CB用于向每個令牌廣播上下文。
6.根據權利要求4所述的基于交換的多模態多尺度變換融合方法,其特征在于,融合來自一個分支的cls令牌和來自另一個分支中的補丁令牌,具體包括:
7.一種基于交換的多模態多尺度變換融合系統,其特征在于,包括:
8.根據權利要求7所述的基于交換的多模態多尺度變換融合系統,其特征在于,基于通道的信息交換模塊包括多頭自注意力單元和多模態信息交換單元,文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入加上各自對應的cls令牌之后被饋送到多頭自注意力單元,得到文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入中各個令牌的注意力分數,計算得到的注意力分數通過殘差連接的前饋網絡發送到多模態信息交換單元,多模態信息交換單元采用了共享參數的多個Transformer編碼器,將不同尺度的多模態信息以互補的方式進行交換。
9.根據權利要求8所述的基于交換的多模態多尺度變換融合系統,其特征在于,多模態信息交換單元將不同尺度的多模態信息以互補的方式進行交換,包括:對于任一層的信息交換,對于任一通道,如果當前通道的注意力分數低于設定的閾值,則該通道的嵌入向量將被替換為另一種模態中預設百分比的令牌的平均嵌入,否則,該通道的嵌入向量保持不變。
10.根據權利要求9所述的基于交換的多模態多尺度變換融合系統,其特征在于,多尺度融合模塊執行如下操作:
...【技術特征摘要】
1.一種基于交換的多模態多尺度變換融合方法,其特征在于,包括:
2.根據權利要求1所述的基于交換的多模態多尺度變換融合方法,其特征在于,對不同模態的嵌入進行信息交換包括將粗粒度圖像嵌入與文本嵌入的信息交換以及細粒度圖像嵌入與文本嵌入的信息交換,基于通道的信息交換模塊還通過兩個超參數η和μ,分別用于控制多模態信息交換的開始層和結束層。
3.根據權利要求1所述的基于交換的多模態多尺度變換融合方法,其特征在于,基于通道的信息交換模塊包括多頭自注意力單元和多模態信息交換單元,文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入加上各自對應的cls令牌之后被饋送到多頭自注意力單元,得到文本嵌入、細粒度圖像嵌入和粗粒度圖像嵌入中各個令牌的注意力分數,計算得到的注意力分數通過殘差連接的前饋網絡發送到多模態信息交換單元,多模態信息交換單元采用了共享參數的多個transformer編碼器,將不同尺度的多模態信息以互補的方式進行交換。
4.根據權利要求3所述的基于交換的多模態多尺度變換融合方法,其特征在于,多模態信息交換單元將不同尺度的多模態信息以互補的方式進行交換,包括:對于任一層的信息交換,對于任一通道,如果當前通道的注意力分數低于設定的閾值,則該通道的嵌入向量將被替換為另一種模態中預設百分比的令牌的平均嵌入,否則,該通道的嵌入向量保持不變,從而得到更新后的嵌入矩陣。
5.根據權利要求4所述的基于交換的多模態多尺度變換融合方法,其特征在于,基于通道的信息交換模塊還...
【專利技術屬性】
技術研發人員:鐘代笛,李虓宇,黃智勇,仲元紅,韓術,王麗君,
申請(專利權)人:重慶大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。