System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及基于特定計算模型的計算機系統領域,具體地,涉及一種中樞神經系統腫瘤分類模型的構建方法、系統以及存儲介質。
技術介紹
1、dna甲基化(dna?methylation)是屬于表觀遺傳學(epigenetics)的現象之一。隨著精準醫學的興起,dna甲基化在胚胎發育、x染色體失活、免疫系統調節、腫瘤發生等生物學過程中發揮作用。甲基化芯片陣列技術是基于微陣列技術發展起來的一種高通量dna甲基化檢測方法,它利用特異性探針與基因組dna上的甲基化位點結合,通過熒光標記的方式,實現不同位點的甲基化狀態分析。
2、甲基化芯片:甲基化芯片技術是基于微陣列技術發展起來的一種高通量dna甲基化檢測方法,它利用特異性探針與基因組dna上的甲基化位點結合,通過熒光標記的方式,實現不同位點的甲基化狀態分析。目前常用的是illumina甲基化芯片,它是一種被廣泛應用的dna甲基化檢測工具,它能以單堿基分辨率檢測全基因組上的cpg位點,設計的位點主要分布在cpg島、干細胞中的非cpg甲基化位點、多種腫瘤的差異甲基化位點、啟動子、增強子等區域。隨著甲基化芯片的發展,迭代出現了不同版本,根據檢測的cpg位點數量不同,分為450k(infinium?human?methylation450)、850k(methylation?epic?v1.0)、935k(methylation?epic?v2.0)。其中,850k(methylation?epic?v1.0)芯片已于2023年停產。目前市面可以購買到的是935k(methylation?e
3、全基因組甲基化譜檢測:2021年世界衛生組織中樞神經系統腫瘤分類(第五版)中提及:目前,全基因組甲基化譜檢測是腦部和脊髓腫瘤分類的有效輔助方法,可能是具有不常見形態特征腫瘤的最有效分類方法,以及可能是識別一些罕見腫瘤和亞型的唯一方法。基于全基因組dna甲基化譜對中樞神經系統腫瘤分類的方法,已被多篇文獻報道。目前通用的腫瘤分類依據是2016年第4版中樞神經系統腫瘤的世界衛生組織分類,將2801個樣本分為了91類甲基化分類(82類腫瘤類型和9類對照樣本類型)。
技術實現思路
1、本申請提出了一種中樞神經系統腫瘤分類模型的訓練方法,其特征在于,包括:基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據;將所述850k甲基化芯片和所述935k甲基化芯片的原始數據的格式轉化為所述450k甲基化芯片的原始數據的格式;將所述850k甲基化芯片和所述935k甲基化芯片的轉化后的數據以及所述450k甲基化芯片的原始數據合并,得到合并后的數據;基于minfi包的preprocessillumina()函數,對所述合并后的數據進行均一化處理,得到均一化的數據;將所述均一化的數據轉換為methylset類數據;去除所述methylset類數據中的非唯一比對的探針數據、與snp相關的探針數據以及與性染色體相關的探針數據,得到數據矩陣;將所述數據矩陣拆分為訓練集和測試集;基于所述訓練集訓練隨機森林分類模型;基于所述森林分類模型將所述測試集數據輸出為原始分數;基于所述原始分數,通過glmnet包的cv.glmnet()函數,訓練基于多元線性回歸算法的校正分數分類模型。
2、根據本申請實施方式,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據包括:通過minfi包的read.metharray.sheet()和read.metharray.exp()兩個函數將450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果轉化成所述原始數據,所述原始數據為rgchannelset類數據。
3、根據本申請實施方式,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據還包括:
4、使用annotation()函數對所述935k甲基化芯片轉化的所述原始數據進行注釋,注釋信息是illuminahumanmethylationepicv2。
5、根據本申請實施方式,將所述850k甲基化芯片和所述935k甲基化芯片的原始數據的格式轉化為所述450k甲基化芯片的原始數據的格式包括:通過minfi包的combinearrays()函數將所述850k甲基化芯片的原始數據的格式轉換成所述450k甲基化芯片的原始數據的格式;通過convertarray_935k()函數將935k甲基化芯片的原始數據的格式轉換成所述850k甲基化芯片的原始數據的格式,再利用所述minfi包的combinearrays()函數將所述850k甲基化芯片的原始數據的格式轉換成所述450k甲基化芯片的原始數據的格式。
6、根據本申請實施方式,所述convertarray_935k()函數所執行的步驟包括:獲取所述935k甲基化芯片和所述850k甲基化芯片包含的所有探針編號,取850k甲基化芯片和935k甲基化芯片探針編號相同的探針,得到第一組探針;將所述第一組探針分為type?i類型、type?ii類型、type?snpi類型、type?snpii類型、type?control類型,依次按照各類型去除所述935k甲基化芯片和所述850k甲基化芯片中探針編號相同,但顏色通道、探針序列a、探針序列b中至少一項不一致的探針,得到第二組探針;去除所述935k甲基化芯片的原始數據中不屬于所述第二組探針的探針數據,并將所述935k甲基化芯片的原始數據的注釋信息修改為illuminahumanmethylationepic。
7、本申請還提供了一種中樞神經系統腫瘤分類模型的訓練系統,該訓練系統包括:存儲器,所述存儲器存儲可執行指令;以及一個或多個處理器,所述一個或多個處理器與所述存儲器通信以執行所述可執行指令從而完成以下操作:基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據;將所述850k甲基化芯片和所述935k甲基化芯片的原始數據的格式轉化為所述450k甲基化芯片的原始數據的格式;將所述850k甲基化芯片和所述935k甲基化芯片的轉化后的數據以及所述450k甲基化芯片的原始數據合并,得到合并后的數據;基于minfi包的preprocessillumina()函數,對所述合并后的數據進行均一化處理,得到均一化的數據;將所述均一化的數據轉換為methylset類數據;去除所述methylset類數據中的非唯一比對的探針數據、與snp相關的探針數據以及與性染色體相關的探針數據,得到數據矩陣;將所述數據矩陣拆分為訓練集和測試集;基于所述訓練集訓練隨機森林分類模型;基于所述森林分類模型將所述測試集數據輸出為原始分數;基于所述原始分數,通過glmnet包的cv.glmnet()函數,訓練基于多元線性回歸算法的校正分數分類模型。
8、本申請還提供了一種用于訓練中樞神經系統腫瘤分類模型的計算機可讀存儲介質,所述計算機可讀存儲介質存本文檔來自技高網...
【技術保護點】
1.一種中樞神經系統腫瘤分類模型的訓練方法,其特征在于,包括:
2.根據權利要求1所述的分類方法,其特征在于,基于450K甲基化芯片、850K甲基化芯片和935K甲基化芯片的掃描結果獲取原始數據包括:
3.根據權利要求1所述的分類方法,其特征在于,基于450K甲基化芯片、850K甲基化芯片和935K甲基化芯片的掃描結果獲取原始數據還包括:
4.根據權利要求1所述的分類方法,其特征在于,將所述850K甲基化芯片和所述935K甲基化芯片的原始數據的格式轉化為所述450K甲基化芯片的原始數據的格式包括:
5.根據權利要求3所述的分類方法,其特征在于,所述convertArray_935k()函數所執行的步驟包括:
6.一種中樞神經系統腫瘤分類模型的訓練系統,其特征在于,包括:
7.一種用于訓練中樞神經系統腫瘤分類模型的計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲可執行指令,所述可執行指令能夠被一個或多個處理器執行以完成以下操作:
【技術特征摘要】
1.一種中樞神經系統腫瘤分類模型的訓練方法,其特征在于,包括:
2.根據權利要求1所述的分類方法,其特征在于,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據包括:
3.根據權利要求1所述的分類方法,其特征在于,基于450k甲基化芯片、850k甲基化芯片和935k甲基化芯片的掃描結果獲取原始數據還包括:
4.根據權利要求1所述的分類方法,其特征在于,將所述850k甲基化芯片和所述935...
【專利技術屬性】
技術研發人員:莊坤東,潘兆東,王勇斯,溫韻潔,黃明明,
申請(專利權)人:廣州華銀醫學檢驗中心有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。