System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及生物信息領(lǐng)域,涉及一種構(gòu)建預(yù)測(cè)模型的方法。
技術(shù)介紹
1、現(xiàn)有的預(yù)測(cè)模型可能會(huì)出現(xiàn)模型過(guò)擬合、魯棒性差、泛化能力弱等問(wèn)題,導(dǎo)致最終獲得的預(yù)測(cè)模型靈敏度低以及準(zhǔn)確度差。
2、本領(lǐng)域始終存在對(duì)高靈敏度以及高準(zhǔn)確度的預(yù)測(cè)模型的需求。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問(wèn)題,專(zhuān)利技術(shù)人通過(guò)使用陽(yáng)性樣本、合成樣本和陰性樣本進(jìn)行模型訓(xùn)練,提供了一種高靈敏度和高準(zhǔn)確度的預(yù)測(cè)模型。專(zhuān)利技術(shù)人發(fā)現(xiàn),將陽(yáng)性樣本(例如晚期/高腫瘤占比的陽(yáng)性樣本)與陰性樣本的測(cè)序數(shù)據(jù)抽樣混合,可以模擬早期陽(yáng)性樣本/低腫瘤占比的陽(yáng)性樣本的信號(hào),同時(shí)該方法提供了更多數(shù)量的訓(xùn)練樣本,最終能夠?qū)崿F(xiàn)數(shù)據(jù)增強(qiáng)。通過(guò)增強(qiáng)的數(shù)據(jù)對(duì)機(jī)器模型進(jìn)行訓(xùn)練,可以獲得高靈敏度和高準(zhǔn)確度的預(yù)測(cè)模型。
2、在一方面,本專(zhuān)利技術(shù)提供了一種構(gòu)建預(yù)測(cè)模型的方法,其包括:獲得陽(yáng)性樣本的測(cè)序數(shù)據(jù)和陰性樣本的測(cè)序數(shù)據(jù);將所述陽(yáng)性樣本的測(cè)序數(shù)據(jù)和陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合獲得合成樣本數(shù)據(jù);使用陽(yáng)性樣本和合成樣本數(shù)據(jù)作為實(shí)驗(yàn)組,使用陰性樣本數(shù)據(jù)作為對(duì)照組,訓(xùn)練機(jī)器學(xué)習(xí)模型。
3、在一方面,本專(zhuān)利技術(shù)還提供了一種使用本專(zhuān)利技術(shù)的方法構(gòu)建的預(yù)測(cè)模型。
4、在一方面,本專(zhuān)利技術(shù)還提供了一種提升預(yù)測(cè)模型性能的數(shù)據(jù)增強(qiáng)方法,其包括:獲得陽(yáng)性樣本的測(cè)序數(shù)據(jù)和陰性樣本的測(cè)序數(shù)據(jù),將陽(yáng)性樣本的測(cè)序數(shù)據(jù)和陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合獲得合成樣本數(shù)據(jù),使用合成樣本數(shù)據(jù)作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。
5、在一些實(shí)施方式中,
6、在一些實(shí)施方式中,合成樣本數(shù)據(jù)是將一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合獲得的,優(yōu)選地,將一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與2、3、4、5、6、7、8、9或10個(gè)陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合。
7、在一些實(shí)施方式中,一個(gè)陽(yáng)性樣本與多個(gè)陰性樣本是配對(duì)的。
8、在一些實(shí)施方式中,一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按比例混合。
9、在一些實(shí)施方式中,一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按固定目標(biāo)腫瘤占比梯度進(jìn)行混合。
10、在一些實(shí)施方式中,測(cè)序包括靶向甲基化測(cè)序和/或全基因組測(cè)序(例如低深度全基因組測(cè)序)。
11、在一些實(shí)施方式中,根據(jù)全基因組測(cè)序數(shù)據(jù)分析獲得各個(gè)樣本的腫瘤占比,將腫瘤占比落在陰性對(duì)象(群體)95%分位數(shù)內(nèi)的陰性樣本定義為陰性樣本,將腫瘤占比落在陰性對(duì)象95%分位數(shù)外的陽(yáng)性樣本定義為陽(yáng)性樣本。
12、在一些實(shí)施方式中,測(cè)序的深度為0.1x、0.2x、0.3x、0.4x、0.5x、0.6x、0.7x、0.8x、0.9x、1.0x、2.0x、4.0x、5.0x、6.0x、7.0x、8.0x、9.0x、10.0x、20.0x、30.0x、500x、1000x、1500x、2000x或更高深度或前述數(shù)值之間的任一深度。
13、在一些實(shí)施方式中,獲得陽(yáng)性樣本的測(cè)序數(shù)據(jù)是指獲得晚期陽(yáng)性樣本的測(cè)序數(shù)據(jù)。
14、在一些實(shí)施方式中,模型為機(jī)器學(xué)習(xí)模型。在一些實(shí)施方式中,機(jī)器學(xué)習(xí)模型是深度學(xué)習(xí)模型。
15、在一些實(shí)施方式中,機(jī)器學(xué)習(xí)模型選自:transformer、xgboost、隨機(jī)森林、支持向量機(jī)和邏輯回歸。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種構(gòu)建預(yù)測(cè)模型的方法,其包括:
2.根據(jù)權(quán)利要求1所述的方法,其中合成樣本數(shù)據(jù)是將一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合獲得的。
3.根據(jù)權(quán)利要求2所述的方法,其中所述一個(gè)陽(yáng)性樣本與多個(gè)陰性樣本是配對(duì)的。
4.根據(jù)權(quán)利要求2或3所述的方法,其中所述一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按比例混合。
5.根據(jù)權(quán)利要求2或3所述的方法,其中所述一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按固定目標(biāo)腫瘤占比梯度進(jìn)行混合。
6.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法,其中所述測(cè)序包括靶向甲基化測(cè)序和/或全基因組測(cè)序(例如低深度全基因組測(cè)序)。
7.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法,其中根據(jù)全基因組測(cè)序數(shù)據(jù)分析獲得各個(gè)樣本的腫瘤占比,將腫瘤占比落在陰性對(duì)象95%分位數(shù)內(nèi)的陰性樣本定義為陰性樣本,將腫瘤占比落在陰性對(duì)象95%分位數(shù)外的陽(yáng)性樣本定義為陽(yáng)性樣本。
8.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法,其中所述測(cè)序的深度為0.1X、0.2X、0.3X、0.4X、0.5X、0.6X、0.
9.前述權(quán)利要求任一項(xiàng)所述的方法,其中所述獲得陽(yáng)性樣本的測(cè)序數(shù)據(jù)是指獲得晚期陽(yáng)性樣本的測(cè)序數(shù)據(jù)。
10.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法構(gòu)建的預(yù)測(cè)模型。
...【技術(shù)特征摘要】
1.一種構(gòu)建預(yù)測(cè)模型的方法,其包括:
2.根據(jù)權(quán)利要求1所述的方法,其中合成樣本數(shù)據(jù)是將一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)進(jìn)行抽樣混合獲得的。
3.根據(jù)權(quán)利要求2所述的方法,其中所述一個(gè)陽(yáng)性樣本與多個(gè)陰性樣本是配對(duì)的。
4.根據(jù)權(quán)利要求2或3所述的方法,其中所述一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按比例混合。
5.根據(jù)權(quán)利要求2或3所述的方法,其中所述一個(gè)陽(yáng)性樣本的測(cè)序數(shù)據(jù)與多個(gè)陰性樣本的測(cè)序數(shù)據(jù)按固定目標(biāo)腫瘤占比梯度進(jìn)行混合。
6.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法,其中所述測(cè)序包括靶向甲基化測(cè)序和/或全基因組測(cè)序(例如低深度全基因組測(cè)序)。
7.根據(jù)前述權(quán)利要求任一項(xiàng)所述的方法,其中根據(jù)全...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:李江豫,楊凌健,李永會(huì),
申請(qǐng)(專(zhuān)利權(quán))人:上海微荷醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。