System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于生存分析,特別涉及一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的方法及裝置。
技術(shù)介紹
1、生存分析是統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域,用于評(píng)估協(xié)變量對(duì)感興趣事件發(fā)生之前時(shí)間的影響,廣泛應(yīng)用于生命科學(xué)等各個(gè)關(guān)鍵領(lǐng)域。在生存分析中,預(yù)后標(biāo)志物的識(shí)別將會(huì)有效的區(qū)別病人在接受治療后的生存狀態(tài),從而可以幫助臨床醫(yī)生給病人制定更加個(gè)性化的醫(yī)療診斷方案。
2、在目前流行的生存分析方法中,cox回歸模型因其在處理生存數(shù)據(jù)方面的靈活性、適應(yīng)廣泛的協(xié)變量而在歷史上最為突出。現(xiàn)有的生存分析方法保證有效的基本假設(shè)是訓(xùn)練數(shù)據(jù)(一列病例數(shù)據(jù))和測試數(shù)據(jù)(另一列病例數(shù)據(jù))具有相似分布,但當(dāng)該假設(shè)不成立時(shí),由于現(xiàn)有方法(比如cox回歸)是基于協(xié)變量(比如基因表達(dá)值)和生存時(shí)間的相關(guān)性發(fā)現(xiàn)標(biāo)志物,很可能找到虛假相關(guān)的協(xié)變量作為病人預(yù)后狀態(tài)的標(biāo)志物。
3、在現(xiàn)實(shí)生命科學(xué)場景中,由于訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)可能來自不同的中心、量化方法的標(biāo)準(zhǔn)和子群體的異質(zhì)性,分布變化是不可避免的。分布變化給生存分析帶來了嚴(yán)峻的挑戰(zhàn),如果不能準(zhǔn)確識(shí)別高風(fēng)險(xiǎn)因素,可能會(huì)導(dǎo)致cox回歸方法性能嚴(yán)重下降。而應(yīng)對(duì)分布變化的主要挑戰(zhàn)在于確定與不同群體的結(jié)果保持一致關(guān)系的穩(wěn)定變量。由于生存數(shù)據(jù)復(fù)雜的時(shí)間事件性質(zhì)和現(xiàn)有生存分析方法的相關(guān)驅(qū)動(dòng)機(jī)制,發(fā)現(xiàn)這種穩(wěn)定變量是一個(gè)非常重要且長期未解決的問題。因此,當(dāng)前的方法可能會(huì)盲目地從訓(xùn)練集中存在的虛假相關(guān)性中學(xué)習(xí)誤導(dǎo)模式。然而,這種相關(guān)性不穩(wěn)定,并且在測試集中很容易改變,這在將訓(xùn)練后的模型應(yīng)用于新隊(duì)列時(shí)帶來了相當(dāng)大的風(fēng)險(xiǎn),從而影響生存分析的準(zhǔn)確
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的是為克服已有技術(shù)的不足之處,提出一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的方法及裝置。本專利技術(shù)可以準(zhǔn)確找到病人預(yù)后狀態(tài)的標(biāo)志物,有助于對(duì)人群預(yù)后情況進(jìn)行分層以及為藥物提供靶點(diǎn),提升在不同人群中的預(yù)測效果。
2、本專利技術(shù)第一方面實(shí)施例提出一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的方法,包括:
3、將來自同一醫(yī)學(xué)中心的多個(gè)獨(dú)立同分布的病例生存數(shù)據(jù)組成訓(xùn)練集,其中所述訓(xùn)練集的每個(gè)樣本包含一個(gè)d維的協(xié)變量用于表示對(duì)應(yīng)病例的醫(yī)學(xué)特征,d﹥1;
4、對(duì)所述訓(xùn)練集進(jìn)行預(yù)處理,其中將所述訓(xùn)練集每一維協(xié)變量對(duì)應(yīng)特征分別標(biāo)準(zhǔn)化為零均值和方差為1,得到訓(xùn)練集協(xié)變量矩陣;
5、利用預(yù)處理完畢后的所述訓(xùn)練集訓(xùn)練模型1,其中所述模型1在訓(xùn)練時(shí)對(duì)所述訓(xùn)練集協(xié)變量矩陣的每一列特征中元素進(jìn)行隨機(jī)置換以生成列獨(dú)立的協(xié)變量矩陣,然后通過重加權(quán)優(yōu)化每一維協(xié)變量的系數(shù);
6、基于所述模型1的訓(xùn)練結(jié)果,選取系數(shù)的p-value顯著程度最高的前n維協(xié)變量對(duì)應(yīng)的特征作為篩選后的預(yù)后標(biāo)志物,n﹤d。
7、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述方法還包括:
8、所述訓(xùn)練集表示為其中,n1為訓(xùn)練集的樣本數(shù)量;x(i)∈rd×1為第i個(gè)病例的協(xié)變量;t∈(0,∞]為病例的隨訪時(shí)間;δ(i)∈{0,1}表示第i個(gè)病例的事件是否刪失。
9、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述方法還包括:
10、所述模型1包括獨(dú)立性驅(qū)動(dòng)的樣本重加權(quán)模塊和重加權(quán)cox回歸模塊;
11、所述獨(dú)立性驅(qū)動(dòng)的樣本重加權(quán)模塊用于對(duì)訓(xùn)練集協(xié)變量矩陣的每一列中的元素進(jìn)行隨機(jī)置換,置換完畢后產(chǎn)生列獨(dú)立的協(xié)變量矩陣從而將訓(xùn)練集的原始特征分布ptr(x)轉(zhuǎn)化為d個(gè)獨(dú)立的邊緣分布記為其中ptr(xi)為第i個(gè)特征的邊緣概率分布;
12、所述獨(dú)立性驅(qū)動(dòng)的樣本重加權(quán)模塊還用于樣本權(quán)重分類器學(xué)習(xí),即使用梯度下降法訓(xùn)練一個(gè)關(guān)于分布x和分布的分類器,以輸出訓(xùn)練集的每一個(gè)樣本x(i)屬于原始特征分布和邊緣分布的概率,分別記為p‘(z=1|x(i))和p'(z=0|x(i));
13、所述獨(dú)立性驅(qū)動(dòng)的樣本重加權(quán)模塊還用于計(jì)算樣本權(quán)重,即通過利用訓(xùn)練完畢的分類器輸出的訓(xùn)練集的樣本屬于每個(gè)類別的概率,計(jì)算每個(gè)樣本的權(quán)重:
14、
15、所述重加權(quán)cox回歸模塊通過從所述獨(dú)立性驅(qū)動(dòng)的樣本重加權(quán)模塊學(xué)習(xí)到的樣本的權(quán)重,重加權(quán)cox模型的部分對(duì)數(shù)似然損失:
16、
17、其中,β是待學(xué)習(xí)的變量的系數(shù),j:t(j)≥t(i)表示所有隨訪時(shí)間發(fā)生在t(i)之后的樣本j;所述重加權(quán)cox回歸模塊還用于梯基于梯度下降優(yōu)化算法估計(jì)其中是β的估計(jì)值,以保證對(duì)于不穩(wěn)定協(xié)變量的系數(shù)即模型在樣本權(quán)重w下學(xué)習(xí)到的關(guān)于不穩(wěn)定協(xié)變量v的系數(shù)為0。
18、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述方法還包括:
19、訓(xùn)練模型1時(shí),將預(yù)處理完畢后的訓(xùn)練集中每個(gè)樣本的協(xié)變量x(i)及其對(duì)應(yīng)的δ(i)作為模型1的輸入,設(shè)置樣本權(quán)重分類器的參數(shù),該模型輸出每個(gè)δ(i)=1的樣本的生存時(shí)間并與真實(shí)值進(jìn)行對(duì)比,計(jì)算似然損失函數(shù)然后進(jìn)行參數(shù)優(yōu)化。
20、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述方法還包括:
21、根據(jù)所述篩選后的預(yù)后標(biāo)志物,更新訓(xùn)練集,更新后的訓(xùn)練集中每個(gè)樣本的協(xié)變量只保留篩選后的n維協(xié)變量;然后利用更新后的訓(xùn)練集,訓(xùn)練一個(gè)cox回歸模型記為模型2。
22、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述方法還包括:
23、利用訓(xùn)練完畢的所述模型2,對(duì)來自其他醫(yī)學(xué)中心的病例數(shù)據(jù)進(jìn)行生存概率預(yù)測。
24、在本專利技術(shù)的一個(gè)具體實(shí)施中,所述對(duì)來自其他醫(yī)學(xué)中心的病例數(shù)據(jù)進(jìn)行生存概率預(yù)測,包括:
25、1)獲取來自其他醫(yī)學(xué)中心的病例數(shù)據(jù)作為測試集記為其中,n3為測試集的樣本總數(shù),測試集中每個(gè)樣本x(i)的協(xié)變量與原始訓(xùn)練集的協(xié)變量對(duì)應(yīng)特征相同,且均為d維;
26、2)對(duì)步驟1)獲取的測試集中每個(gè)樣本的協(xié)變量進(jìn)行預(yù)處理,將測試集每一維協(xié)變量對(duì)應(yīng)特征標(biāo)準(zhǔn)化為零均值和方差為1;
27、3)根據(jù)所述篩選后的預(yù)后標(biāo)志物,更新測試集中每個(gè)樣本的協(xié)變量只保留篩選后的n維協(xié)變量,得到更新后的測試集;
28、4)將更新后的測試集中每個(gè)樣本的輸入訓(xùn)練完畢的模型2,得到測試集中每個(gè)樣本的生存函數(shù),用于計(jì)算該病例在每個(gè)時(shí)刻的生存概率。
29、本專利技術(shù)第二方面實(shí)施例提出一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的裝置,包括:
30、訓(xùn)練集獲取模塊,用于將來自同一醫(yī)學(xué)中心的多個(gè)獨(dú)立同分布的病例生存數(shù)據(jù)組成訓(xùn)練集,其中所述訓(xùn)練集的每個(gè)樣本包含一個(gè)d維的協(xié)變量用于表示對(duì)應(yīng)病例的醫(yī)學(xué)特征,d﹥1;
31、訓(xùn)練集預(yù)處理模塊,用于對(duì)所述訓(xùn)練集進(jìn)行預(yù)處理,其中將所述訓(xùn)練集每一維協(xié)變量對(duì)應(yīng)特征分別標(biāo)準(zhǔn)化為零均值和方差為1,得到訓(xùn)練集協(xié)變量矩陣;
32、模型訓(xùn)練模塊,用于利用預(yù)處理完畢后的所述訓(xùn)練集訓(xùn)練模型1,其中所述模型1在訓(xùn)練時(shí)對(duì)所述訓(xùn)練集協(xié)變量矩陣的每一列特征中元素進(jìn)行隨機(jī)置換以生成列獨(dú)立的協(xié)變量矩陣,然后通過重加權(quán)優(yōu)化每一維協(xié)變量的系數(shù);
33、預(yù)后標(biāo)志物篩選模塊,用于基于所述模型1的訓(xùn)練結(jié)果,選取系數(shù)的p-value顯著程度最高的前n維本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)來自其他醫(yī)學(xué)中心的病例數(shù)據(jù)進(jìn)行生存概率預(yù)測,包括:
8.一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使所述計(jì)算機(jī)執(zhí)行權(quán)利要求1-7任一項(xiàng)所述的方法。
【技術(shù)特征摘要】
1.一種在分布偏移下發(fā)現(xiàn)病人穩(wěn)定預(yù)后標(biāo)志物的方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:崔鵬,范少華,
申請(qǐng)(專利權(quán))人:清華大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。