一種基于遷移學習的小樣本數據癌癥分型方法技術

技術編號：44412311 閱讀：8 留言：0更新日期：2025-02-25 10:26

本發明專利技術公開了一種基于遷移學習的小樣本數據癌癥分型方法，屬于生命健康組學數據分析領域。該方法先對待整合的疾病組學數據進行特征選擇和降維處理，然后整合多個疾病組學數據構建疾病大數據集，基于此大數據集訓練深度學習基模型，最后將基模型經過一步或多步遷移，應用到疾病組學小樣本數據上，獲得最終的疾病分型。本發明專利技術考慮了疾病組學數據高維小樣本的特點，構建疾病大數據集，并將深度神經網絡和遷移學習應用到組學數據分析中，對疾病診斷分型和深度學習方法在組學數據上的應用提供了指導。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于生命健康組學數據分析，涉及一種基于遷移學習的小樣本數據癌癥分型方法。

技術介紹

1、隨著生物組學實驗技術的發展，不同的生物組學(基因組學，轉錄組學，蛋白質組學，代謝組學等)數據撲面而來，而不同的生物組學可以反映不同的生理病理狀態，其中，基因組學反映了什么是可以發生的，轉錄組學反映的是將要發生的，蛋白質組學指出了賴以發生的，代謝組學反映業已發生的。因此，對生物組學數據的挖掘和分析可以實現對癌癥等復雜疾病的分型，明確受影響的功能和通路，為疾病的早期診斷和治療提供支持。

2、隨著深度學習的不斷發展，越來越多的研究人員開始將深度學習模型應用到生命健康領域的研究中，例如循環神經網絡(rnn)模型應用于電子病歷數據分析，卷積神經網絡(cnn)模型應用于醫學ct圖像數據分析。然而，與醫學文本數據和醫學圖像數據不同的是，生物組學數據一般具有“高維度，小樣本，類別不平衡”等特點，即組學數據所包含的樣本數量較少，而特征的維數遠遠高于樣本數，同時疾病樣本和正常樣本分布不平衡，更是加大了對生物組學數據的分析的困難。而訓練數據的不足和維數災難不利于深度神經網絡的訓練。因此，需要應用一種合適的數據增強方法，增加訓練樣本的數量，提升深度模型訓練的效果。

3、為有效解決樣本量小的問題，許多研究人員采用增強技術來增加樣本量，提升后續分類器的性能。生成對抗網絡是主要的數據增強技術，它的核心思想是通過判別器和生成器兩個神經網絡形成對抗關系，并不停的迭代優化，從而生成逼近原始樣本的高質量新樣本。雖然采用生成對抗網絡可以增加樣本數量

4、在處理小樣本數據集時，除了采用數據增強技術來擴充數據集外，也可以使用遷移學習技術。遷移學習放寬了訓練數據與測試數據獨立同分布這樣的假設，它的核心思想是通過將已有的知識從源域遷移到目標域中，從而減少新任務的數據需求、提高模型性能或加快模型收斂速度。然而，現有遷移學習技術中，如果將深度模型如dnn、resnet(residual?network)網絡作為基模型，對訓練數據需求量仍然較大，對于單類別的生物組學數據，無法有效滿足訓練需求。同時，因源領域和目標領域具有一定相似性，故遷移的訓練方式仍需改進。

5、因此，本專利技術提出了基于遷移學習的癌癥組學小樣本分類算法(sdcm_tl)；sdcm_tl方法通過整合多個癌癥組學數據，構建癌癥大數據，并訓練深度神經網絡基模型，并遷移到癌癥組學小樣本上，用于癌癥的分型。

技術實現思路

1、本專利技術的目的是針對深度學習模型在處理小樣本疾病組學數據導致模型訓練不充分的問題，提出了疾病組學數據整合和遷移模型，構建疾病大數據，可以在一定程度上提升模型的訓練精度，并利用遷移學習，對小樣本組學數據進行有效的數據分析和挖掘。本專利技術結合當前高通量技術下轉錄組學數據變量多、樣本量小而無法訓練深度學習模型的實際特點，將公共的轉錄組學數據整合成大數據集，訓練深度學習模型，并將該模型遷移到小樣本的癌癥數據集，用于癌癥分型。該模型適用于小樣本生物組學數據的分析研究，可以用于蛋白質組學數據分析、基因組學數據分析、代謝組學數據分析以及精準醫療等領域。

2、該方法的核心技術是先對待整合的疾病組學數據進行特征選擇和降維處理，然后整合多個癌癥組學數據構建疾病大數據集，再基于此大數據集訓練深度學習基模型。由于不同的疾病組學數據之間存在異質性，因此，針對不同的疾病小數據集，采用不同的遷移方式，若需要分析的疾病在已構建的疾病大數據集中，那么采用一步遷移方式對基模型進行微調并對疾病進行分型；若需要分析的疾病不在已構建的疾病大數據集中，那么采用兩步遷移方式對基模型進行微調并對疾病進行分型。

3、為了實現上述目標，本專利技術采用的技術方案如下：

4、一種基于遷移學習的小樣本數據癌癥分型方法，包括以下步驟：

5、構建由不同疾病類別數據組成的疾病組學數據集；

6、對所述疾病組學數據集中的數據進行預處理；

7、對預處理后的疾病組學數據進行特征選擇和降維處理；

8、將降維后的數據進行整合，構建疾病組學大數據集；

9、基于所述疾病組學大數據集訓練得到疾病通用模型；

10、將所述疾病通用模型經過一步或多步遷移到疾病組學小樣本數據上，獲得疾病分型。

11、進一步的，所述疾病組學數據集由不同疾病類別的數據集組成，每個疾病類別的數據集由若干樣本組成，每個樣本由若干特征(反映對象在某方面的表現或性質的事項)數據構成；數據來源包括癌癥基因組圖譜(tcga)；所述癌癥基因組圖譜(tcga)是癌癥基因組計劃創建的包含多個癌癥類型的數據庫。本專利技術通過搜集整理tcga癌癥數據庫中的組學數據用于后續癌癥大數據的構建和分析。

12、進一步的，對所述疾病組學數據集中的數據進行預處理，包括：

13、首先，進行缺失值處理，具體方法為：

14、如果某個疾病類別中的某個樣本的特征值(樣本在該特征上所取的值)缺失數量超過該疾病類別中所有樣本特征總數量的20％，則刪除該樣本，否則，使用該疾病類別中其余所有樣本的特征值的平均值來填充缺失值。

15、然后，對缺失值處理后的數據進行數據標準化，具體方法為：

16、使用z-score方法進行數據標準化，計算公式為：

17、

18、其中，z為各疾病類別中各樣本所對應特征標準化后的取值，x為各疾病類別中各樣本所對應特征的原始值，μ為特征在疾病組學數據集中所有樣本上的均值，σ為特征在疾病組學數據集中所有樣本上的標準差。

19、進一步的，對預處理后的疾病組學數據進行特征選擇和降維處理，具體過程為：

20、為了選擇與疾病相關的特征，約簡數據特征的數量，降低深度學習模型訓練的時間復雜度和空間復雜度，獲得疾病的特異性分子，采用對稱不確定性(su)選擇與疾病相關的潛在標志物，即，特征與疾病類別的對稱不確定性值越大，該特征對疾病的預測能力越強；su計算公式為：

21、

22、其中，f表示疾病組學數據集中的某個特征；c表示疾病類別；h(f)和h(c)分別表示特征f和疾病類別c的信息熵；mi(f,c)表示特征f與疾病類別c的互信息；su(f,c)為特征f與疾病類別c的對稱不確定性值，表示歸一化后的互信息，它的取值區間為[0,1]，反映了特征和疾病類別之間的依賴性，值越大，說明特征f和疾病類別c之間的關聯越強；

23、將每個特征f與疾病類別c的對稱不確定性值與事先設定的閾值進行比較，篩選出對稱不確定性值超過閾值的對應特征。

24、進一步的，構建疾病組學大數據集的過程為：

25、將降維后的數據進行整合處理，得到各疾病類別小數據集，并將各疾病類別小數據集合并得到疾病組學大數據集；其中，疾病組學大數據集中的特征為各小數據集中所含特征的并集，疾病組學大數據集中的樣本為所本文檔來自技高網...

【技術保護點】

1.一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，包括：

2.根據權利要求1所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，所述疾病組學數據集由不同疾病類別的數據集組成，每個疾病類別的數據集由若干樣本組成，每個樣本由若干特征數據構成。

3.根據權利要求2所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，對所述疾病組學數據集中的數據進行預處理，包括：

4.根據權利要求3所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，對預處理后的疾病組學數據進行特征選擇和降維處理，具體方法為：

5.根據權利要求4所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，構建疾病組學大數據集的過程為：將降維后的數據進行整合處理，得到各疾病類別小數據集，并將各疾病類別小數據集合并得到疾病組學大數據集；其中，疾病組學大數據集中的特征為各小數據集中所含特征的并集，疾病組學大數據集中的樣本為所有小數據集樣本；同時為疾病組學大數據集中的每個樣本賦予樣本標簽，疾病樣本賦予標簽“1”，正常樣本賦予標簽“0”。

7.根據權利要求6所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，當目標疾病小樣本數據的類別d*屬于疾病組學大數據集中已知的疾病類別集合D時，采用一步遷移的方式；當目標疾病小樣本數據的類別d*不屬于已有的疾病類別集合D時，采用兩步遷移的方式。

8.根據權利要求7所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，所述一步遷移的方法為：鎖定基模型的前兩個隱藏層，只調整基模型的后兩個隱藏層，并添加一個新的輸出層替換原有的輸出層，獲得疾病特異性模型，并采用疾病特異性模型對目標疾病小樣本數據進行分型。

9.根據權利要求7所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，所述兩步遷移的方法如下：首先使用包含目標疾病類別d*的擴展大數據集對所述基模型進行第一步遷移，具體方法為鎖定基模型的前兩個隱藏層，只調整基模型的后兩個隱藏層，并添加一個新的輸出層替換原有的輸出層，獲得一個適應了擴展數據的通用模型；接著進行第二步遷移，即采用所述通用模型對d*對應的目標疾病小樣本數據進行進一步的遷移微調：凍結通用模型的前三個隱藏層，只調整通用模型的后一個隱藏層，同樣添加一個新的輸出層替換通用模型原有的輸出層，經過這樣的兩步遷移訓練，最終獲得一個針對d*的疾病特異性模型，用于疾病分型任務。

...

【技術特征摘要】

1.一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，包括：

3.根據權利要求2所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，對所述疾病組學數據集中的數據進行預處理，包括：

6.根據權利要求5所述的一種基于遷移學習的小樣本數據癌癥分型方法，其特征在于，所述深度神經網絡模型包含四個隱藏層和一個輸出層，通過迭代學習優化模型參數，得到疾病通用模型，作...

【專利技術屬性】
技術研發人員：李超，夏子貽，于淼，耿悅鑫，
申請(專利權)人：大連海洋大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術