System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及生物信息,尤其是指一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法。
技術(shù)介紹
1、癌癥是一種復(fù)雜的基因類疾病。由于腫瘤的異質(zhì)性,同一癌癥類型的患者使用相同藥物治療時(shí),效果可能不盡相同。而癌癥藥物反應(yīng)預(yù)測(cè)可以幫助患者制定個(gè)性化的治療方案,在精準(zhǔn)醫(yī)療中起著關(guān)鍵的作用。
2、近年來,隨著高通量測(cè)序技術(shù)的發(fā)展,生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)量迅速增長(zhǎng),尤其在基因組學(xué)研究中,通常生成高維的基因表達(dá)數(shù)據(jù)。這些數(shù)據(jù)具有數(shù)萬(wàn)個(gè)基因特征,但樣本量相對(duì)較少,這種數(shù)據(jù)特性給機(jī)器學(xué)習(xí)模型帶來了極大的挑戰(zhàn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,如最小絕對(duì)收縮和選擇算子回歸(least?absolute?shrinkage?and?selection?operator,lasso)和主成分分析(principal?component?analysis,pca),雖然在降維和特征選擇方面表現(xiàn)出色,但在處理復(fù)雜的非線性模式時(shí)效果不佳。另一方面,決策樹和線性模型如xgboost在小樣本數(shù)據(jù)集上表現(xiàn)較為穩(wěn)定,但在處理高維數(shù)據(jù)的情況下,這些模型容易產(chǎn)生過擬合,難以準(zhǔn)確預(yù)測(cè)藥物反應(yīng)。
3、神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)豐富的條件下有很好的表現(xiàn),但其在高維小樣本場(chǎng)景下的應(yīng)用往往受到模型復(fù)雜性和數(shù)據(jù)量不足的限制,容易導(dǎo)致過擬合。此外,盡管生物醫(yī)學(xué)領(lǐng)域中蘊(yùn)含豐富的輔助領(lǐng)域知識(shí),這些信息在神經(jīng)網(wǎng)絡(luò)模型中卻沒有得到充分利用,導(dǎo)致模型對(duì)數(shù)據(jù)的理解不夠深刻和全面。
技術(shù)實(shí)現(xiàn)思路
1、為此,本專利技術(shù)所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)中對(duì)高維小樣本數(shù)據(jù)的藥
2、為解決上述技術(shù)問題,本專利技術(shù)提供了一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,包括:
3、構(gòu)建知識(shí)注入模型,包括數(shù)據(jù)預(yù)處理模塊、多樣化稀疏特征提取模塊、多分支上下文學(xué)習(xí)模塊和多分支特征融合與預(yù)測(cè)模塊;
4、利用所述數(shù)據(jù)預(yù)處理模塊從基因組數(shù)據(jù)集中提取基因特征及其嵌入;
5、利用所述多樣化稀疏特征提取模塊的每個(gè)分支分別對(duì)基因特征及其嵌入進(jìn)行稀疏特征選擇和選擇性特征提取,得到每個(gè)分支的高層次特征及其嵌入;
6、所述多分支上下文學(xué)習(xí)模塊包括局部對(duì)齊上下文學(xué)習(xí)子模塊和分支間注意力;將每個(gè)分支的高層次特征嵌入輸入至局部對(duì)齊上下文學(xué)習(xí)子模塊,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的鄰域注意力機(jī)制提取高層次特征嵌入之間的潛在信息交互,得到每個(gè)分支的鄰域注意力機(jī)制輸出的特征嵌入;再利用局部對(duì)齊上下文學(xué)習(xí)子模塊的交叉注意力機(jī)制對(duì)每個(gè)分支的高層次特征嵌入和鄰域注意力機(jī)制輸出的特征嵌入進(jìn)行對(duì)齊,得到每個(gè)分支的目標(biāo)特征嵌入;將每個(gè)分支的高層次特征輸入至分支間注意力,計(jì)算得到每個(gè)分支權(quán)重;
7、利用所述多分支特征融合與預(yù)測(cè)模塊將每個(gè)分支的高層次特征及目標(biāo)特征嵌入融合,再利用每個(gè)分支權(quán)重加權(quán)求和,得到融合特征;將融合特征輸入至多層感知機(jī),得到藥物反應(yīng)預(yù)測(cè)結(jié)果。
8、優(yōu)選地,利用所述數(shù)據(jù)預(yù)處理模塊從公開的基因組數(shù)據(jù)集中提取基因特征xo;并利用生物醫(yī)學(xué)知識(shí)圖譜獲取基因特征xo的嵌入eo。
9、優(yōu)選地,利用所述多樣化稀疏特征提取模塊的每個(gè)分支分別對(duì)基因特征及其嵌入進(jìn)行稀疏特征選擇,公式為:
10、
11、其中,sm(i)(·)表示第i個(gè)分支的稀疏特征選擇,i=1,2,…,k,k表示分支的總個(gè)數(shù);表示第i個(gè)分支的稀疏特征權(quán)重矩陣,eo表示基因特征嵌入,x1為稀疏特征選擇的輸入,包括基因特征和基因特征嵌入;
12、所有分支對(duì)基因特征xo進(jìn)行稀疏特征選擇后,輸出稀疏特征選擇后的特征xs;所有分支對(duì)基因特征嵌入eo進(jìn)行稀疏特征選擇后,輸出稀疏特征選擇后的特征嵌入es。
13、優(yōu)選地,對(duì)稀疏特征選擇后的特征及其嵌入進(jìn)行選擇性特征提取,得到每個(gè)分支的高層次特征及其嵌入,公式為:
14、
15、其中,fe(i)(·)表示第i個(gè)分支的選擇性特征提取,表示第i個(gè)分支的注意力加權(quán)矩陣,表示第i個(gè)分支的選擇性特征權(quán)重矩陣,x2為選擇性特征提取的輸入,包括稀疏特征選擇后的特征及其嵌入;
16、所有分支對(duì)稀疏特征選擇后的特征xs進(jìn)行選擇性特征提取后,輸出高層次特征xe;所有分支對(duì)疏特征選擇后的特征嵌入es進(jìn)行選擇性特征提取后,輸出高層次特征嵌入ee。
17、優(yōu)選地,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的鄰域注意力機(jī)制提取高層次特征嵌入之間的潛在信息交互,得到每個(gè)分支的鄰域注意力機(jī)制輸出的特征嵌入,公式包括:
18、
19、其中,為第i個(gè)分支的高層次特征嵌入,為第i個(gè)分支上鄰域注意力的qk操作,為第i個(gè)分支上鄰域注意力的v操作,ρ(m)表示第m個(gè)高層次特征嵌入相鄰的鄰域特征嵌入的索引,m表示選擇性特征提取后的特征個(gè)數(shù),表示第i個(gè)分支的高層次特征嵌入的第m個(gè)特征,表示的鄰域特征嵌入,和均為第i個(gè)分支的線性轉(zhuǎn)化權(quán)重,表示第i個(gè)分支的高層次特征嵌入的第m個(gè)特征的偏置;σ表示softmax激活函數(shù),表示第i個(gè)分支鄰域注意力機(jī)制輸出的特征嵌入。
20、優(yōu)選地,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的交叉注意力機(jī)制對(duì)每個(gè)分支的高層次特征嵌入和鄰域注意力機(jī)制輸出的特征嵌入進(jìn)行對(duì)齊,得到每個(gè)分支的目標(biāo)特征嵌入,公式為:
21、
22、其中,表示第i個(gè)分支的目標(biāo)特征嵌入,表示第i個(gè)分支鄰域注意力機(jī)制輸出的特征嵌入,為第i個(gè)分支的高層次特征嵌入,wq1、wk1和wv1均表示交叉注意力的權(quán)重。
23、優(yōu)選地,將每個(gè)分支的高層次特征輸入至分支間注意力,計(jì)算得到每個(gè)分支權(quán)重,公式為:
24、wt=softmax(init(xe)wa)
25、其中,wt表示分支權(quán)重,init(xe)表示高層次特征xe所初始化的固定輸入權(quán)重信息,wa表示分支間注意力的權(quán)重矩陣。
26、優(yōu)選地,所述將每個(gè)分支的高層次特征及目標(biāo)特征嵌入融合,再利用每個(gè)分支權(quán)重加權(quán)求和,得到融合特征,公式為:
27、
28、其中,xh為融合特征,k表示分支的總個(gè)數(shù),為第i個(gè)分支的分支權(quán)重,w1,w2表示融合特征的初始化權(quán)重,為第i個(gè)分支的目標(biāo)特征嵌入,為第i個(gè)分支的高層次特征。
29、優(yōu)選地,訓(xùn)練所述知識(shí)注入模型的總損失包括均方誤差損失和總對(duì)比損失。
30、優(yōu)選地,所述總對(duì)比損失的計(jì)算公式為:
31、
32、其中,lc為總對(duì)比損失,n為分支之間兩兩組合的組合數(shù),s表示不同分支的高層次特征兩兩組合的集合;和分別表示第i個(gè)分支和第j個(gè)分支的高層次特征;表示第i個(gè)分支第z個(gè)樣本的高層次特征,表示第j個(gè)分支第z個(gè)樣本的高層次特征;表示第i個(gè)分支和第j個(gè)分支關(guān)于第z個(gè)樣本的對(duì)比損失;
33、兩個(gè)分支間的對(duì)比損失的計(jì)算公式為:
34、
35、其中,s表示訓(xùn)練批次中的第s個(gè)樣本,τ表示溫度參數(shù),表示和之間的相似性分?jǐn)?shù)。
36、本專利技術(shù)的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下有益效果本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用所述數(shù)據(jù)預(yù)處理模塊從公開的基因組數(shù)據(jù)集中提取基因特征xo;并利用生物醫(yī)學(xué)知識(shí)圖譜獲取基因特征xo的嵌入Eo。
3.根據(jù)權(quán)利要求2所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用所述多樣化稀疏特征提取模塊的每個(gè)分支分別對(duì)基因特征及其嵌入進(jìn)行稀疏特征選擇,公式為:
4.根據(jù)權(quán)利要求3所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,對(duì)稀疏特征選擇后的特征及其嵌入進(jìn)行選擇性特征提取,得到每個(gè)分支的高層次特征及其嵌入,公式為:
5.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的鄰域注意力機(jī)制提取高層次特征嵌入之間的潛在信息交互,得到每個(gè)分支的鄰域注意力機(jī)制輸出的特征嵌入,公式包括:
6.根據(jù)權(quán)利要求5所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的交叉注意力機(jī)制對(duì)每個(gè)分支的高層次特征
7.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,將每個(gè)分支的高層次特征輸入至分支間注意力,計(jì)算得到每個(gè)分支權(quán)重,公式為:
8.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,所述將每個(gè)分支的高層次特征及目標(biāo)特征嵌入融合,再利用每個(gè)分支權(quán)重加權(quán)求和,得到融合特征,公式為:
9.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,訓(xùn)練所述知識(shí)注入模型的總損失包括均方誤差損失和總對(duì)比損失。
10.根據(jù)權(quán)利要求9所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,所述總對(duì)比損失的計(jì)算公式為:
...【技術(shù)特征摘要】
1.一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用所述數(shù)據(jù)預(yù)處理模塊從公開的基因組數(shù)據(jù)集中提取基因特征xo;并利用生物醫(yī)學(xué)知識(shí)圖譜獲取基因特征xo的嵌入eo。
3.根據(jù)權(quán)利要求2所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用所述多樣化稀疏特征提取模塊的每個(gè)分支分別對(duì)基因特征及其嵌入進(jìn)行稀疏特征選擇,公式為:
4.根據(jù)權(quán)利要求3所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,對(duì)稀疏特征選擇后的特征及其嵌入進(jìn)行選擇性特征提取,得到每個(gè)分支的高層次特征及其嵌入,公式為:
5.根據(jù)權(quán)利要求1所述的一種高維小樣本數(shù)據(jù)的藥物反應(yīng)預(yù)測(cè)方法,其特征在于,利用局部對(duì)齊上下文學(xué)習(xí)子模塊的鄰域注意力機(jī)制提取高層次特征嵌入之間的潛在信息交互,得到每個(gè)分支的鄰域注意力機(jī)制輸出的特征嵌入,公式包括:<...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王寧,顧文超,周浩杰,周志昉,吳明輝,
申請(qǐng)(專利權(quán))人:江南大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。