一種基于超圖自編碼器的多模態聚類方法技術

技術編號：44128159 閱讀：21 留言：0更新日期：2025-01-24 22:46

本發明專利技術公開了一種基于超圖自編碼器的多模態聚類方法。首先獲取模態數據集合，基于模態數據集合形成超圖，并得到鄰接矩陣；然后通過自編碼器網絡得到每個模態數據集合的編碼器輸出和解碼器輸出；再者，融合每個模態數據對應的潛在表示為多模態數據潛在表示，得到相應的相似度矩陣；綜上更新自編碼器網絡的網絡參數和多模態潛在表示直到損失函數收斂，最后根據更新的多模態潛在表示將多模態數據分為k個類別。本發明專利技術通過數據的結構先驗來學習樣本間的潛在相似性，有效的結構先驗可以減輕樣本特征的偏差。我們利用預訓練模型的特征表示能力和超圖的卓越建模能力，將特征先驗和結構先驗集成到模型中。這提高了自監督學習算法的質量。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于數據挖掘，對比學習，超圖表示學習，多模態學習，自監督學習以及聚類算法領域，具體涉及一種基于超圖自編碼器的多模態聚類方法。

技術介紹

1、近年來，智能終端設備發展迅速，傳感器越來越多，多模態數據也越來越多。例如，攝像頭等傳感器可以捕捉深度圖像、各種角度、紅外信息等多種模態數據。同樣，在社交網絡中，一條消息可能包含圖像、文本、聲音、表情符號等多種數據模態。如何挖掘多模態數據之間的關聯性，有效分析多模態數據是一個亟待解決的問題。同時，由于多模態復雜數據的標注成本高、偏差大，自監督學習方法變得越來越重要。隨著多模態數據的獲取和自監督學習的發展，多模態自監督聚類受到了廣泛關注。

2、目前一些用于聚類的多模態自監督算法只是通過使用多模態自動編碼器將不同的模態編碼到同一個低維特征空間中來對齊它們，這導致多模態特征在特征空間中的分布邊界模糊。事實上，樣本的特征是有偏差的和嘈雜的。在這種情況下，如果模型只關注特征先驗，它就無法發現樣本間的潛在相關性。然而，這種潛在的數據相關性可以為表示學習提供有價值的指導。在聚類過程中，這種自監督算法僅僅依賴于特征信息，而忽略了多模態數據中固有的結構信息。這種缺陷往往導致魯棒性和泛化能力較弱。

技術實現思路

1、針對現有技術中存在的不足，本專利技術提供一種基于超圖自編碼器的多模態聚類方法。本專利技術提出了超圖對比自動編碼器(hgcae)，這是一個多功能多模態聚類框架，旨在學習低維子空間中各種模態的特征表示。在處理多模態數據時，數據的結構信息

2、首先，使用超圖來建模多模態數據。與單模態數據相比，多模態設置中的實例間關系更加復雜。針對這種情況，超圖可以更完整地表示多個節點之間的高階相關性，并將其編碼為關聯矩陣的形式。為了利用多模態數據之間的互補性，本專利技術通過連接每個模態的關聯矩陣將超圖擴展到多個模態。融合關聯矩陣可以利用多模態數據的互補性，更好地揭示它們的高階關聯。

3、然后，本專利技術從超圖在聚類領域的應用中汲取靈感。為了解決多模態自監督聚類模型中魯棒性和泛化能力較差的瓶頸，本專利技術提出了一個與模型無關的超圖關系重構模塊，允許將數據的結構先驗集成到模型中，增強其對數據的理解。目標是將結構先驗納入模型，從而能夠學習更穩健、更具判別力的特征。具有超圖重構的模型可以利用數據中的結構先驗來增強其數據分析能力。我們觀察到，對于具有強結構信息的輸入數據，超圖關系重構顯著提高了聚類質量。這證明了在復雜的多模態場景中建模高階關聯的意義。結構相似的數據在特征空間中應該更接近彼此，而不相似的數據應該相距更遠。通過對數據中的高階關聯進行建模，并將其作為結構先驗編碼到通用模型中，增強了模型對數據的理解和分析能力，從而進一步提高自監督算法的性能。

4、此外，本專利技術采用多模態自動編碼器將模態對齊到同一維度，并利用深度神經網絡(dnn)重構損失確保低維嵌入保留原始數據的特征，從而減輕維數災難。隨著大型模型的發展，它們的特征表示能力得到了增強。在嵌入層中選擇合適的大型模型大大提高了特征重構損失模塊中信息瓶頸的質量。

5、為了使從同一樣本中提取的不同模態更緊密地聯系在一起，同時保持不同樣本之間的分離。本專利技術借鑒了自我監督領域的對比學習方法，以減輕不同模態分布的異質性。我們發現，對于高度異構的數據，添加對比損失可以顯著提高聚類質量。

6、此外，為了進一步揭示樣本的內在結構信息，我們采用了自監督方法。我們將生成的聚類偽標簽作為監督信號添加到模型中，以進行端到端優化。

7、本專利技術提出的模型利用多模態數據中的特征和結構信息進行自監督聚類。首先，我們使用預訓練的模型獲取多個目標對象的m個模態對應的模態數據集合；然后采用最近鄰居算法計算模態數據集合中模態數據的最近鄰居，連接互為鄰居的的模態數據形成超圖，并得到鄰接矩陣；然后將每個模態數據集合分別輸入一個獨立的自編碼器網絡，得到每個模態數據集合的編碼器輸出和解碼器輸出；再者，融合每個模態數據對應的潛在表示為多模態數據潛在表示，并進一步得到多模態數據潛在表示的相似度矩陣；之后根據各模態數據對應的預訓練模型輸出、編碼器輸出、解碼器輸出、鄰接矩陣、相似度矩陣，采用損失函數計算損失值；并根據總損失值進行梯度反向傳播，更新自編碼器網絡的網絡參數和多模態潛在表示直到損失函數收斂；最后根據更新的多模態潛在表示，我們通過k-means聚類方法，將多模態數據分為k個類別。

8、一種基于超圖自編碼器的多模態聚類方法，包括以下步驟：

9、步驟一：使用預訓練的特征提取模型獲取多個目標對象的m個模態對應的模態數據集合。

10、步驟二:采用最近鄰居算法計算模態數據集合中模態數據的最近鄰居，連接互為鄰居的的模態數據形成超圖，得到鄰接矩陣。

11、步驟三：將每個模態數據集合分別輸入一個獨立的自編碼器網絡，得到每個模態數據集合的編碼器輸出和解碼器輸出。

12、步驟四：融合每個模態數據對應的潛在表示為多模態數據潛在表示，并進一步得到多模態數據潛在表示的相似度矩陣。

13、步驟五：根據各模態數據對應的預訓練模型輸出、編碼器輸出、解碼器輸出、鄰接矩陣以及相似度矩陣，采用損失函數計算損失值。

14、步驟六：根據總損失值進行梯度反向傳播，更新自編碼器網絡的網絡參數和多模態潛在表示直到損失函數收斂；

15、步驟七：根據更新的多模態潛在表示，通過k-means聚類方法，將多模態數據分為k個類別。

16、進一步的，步驟一具體步驟如下：

17、基于應用場景獲取相關數據集，對于給定由多模態數據樣本xi組成的數據集d＝{xi}i∈{1,…,n}，其中n為樣本總數，xi有m個模態。使用凍結參數的預訓練特征提取模型從多模態數據集d中提取特征集即每個模態的數據集合x＝{x1,..,xm}。

18、在一實施例中，所述的預訓練特征提取模型采用transformer或vgg16。

19、進一步的，步驟二具體步驟如下：

20、將數據集d＝{xi}i∈{1,…,n}中每單個模態映射到超圖的頂點集其中vi為超圖的頂點，并通過計算頂點特征間的歐幾里得距離來衡量頂點之間的距離，其中歐幾里得距離定義如下：

21、

22、其中d(vi,vj)表示頂點vi和vj之間的歐幾里得距離。和分別表示頂點vi和vj的特征，c表示特征的維度，和分別表示頂點vi和vj的特征在第c個維度的值，數據集中每單個模態數據均采用如上方法映射到各自超圖的頂點上。。

23、接下來對于每個頂點，將該頂點和其他頂點之間的歐幾里得距離縮放到[0,1]，具體公式如下所示：

24、...

【技術保護點】

1.一種基于超圖自編碼器的多模態聚類方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟一具體步驟如下：

3.根據權利要求2所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，所述的預訓練特征提取模型采用transformer或vgg16。

4.根據權利要求2所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟二具體步驟如下：

5.根據權利要求4所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟三具體步驟如下：

6.根據權利要求5所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟四具體步驟如下：

7.根據權利要求6所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟五具體步驟如下：

【技術特征摘要】

1.一種基于超圖自編碼器的多模態聚類方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，步驟一具體步驟如下：

3.根據權利要求2所述的一種基于超圖自編碼器的多模態聚類方法，其特征在于，所述的預訓練特征提取模型采用transformer或vgg16。

4.根據權利要求2所述的一種基于超圖自...

【專利技術屬性】
技術研發人員：吳旭，顏成鋼，曾龍健，江劭瑋，丁貴廣，王鴻奎，
申請(專利權)人：杭州電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術