System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請屬于生物信息學,具體涉及一種基于dna甲基化特征的循環腫瘤dna預測方法。
技術介紹
0、技術背景
1、dna甲基化是一種表觀遺傳修飾,不僅在轉錄調控上扮演重要角色,也同疾病表型相關聯。越來越多的研究表明dna甲基化模式紊亂在癌癥的發生和發展中發揮著重要作用。在癌癥的發生、發展過程中,異常dna甲基化模式不僅發生在基因啟動子附近的cpg島(cpgislands),也發生在距離啟動子數千堿基的保守序列上,并且發生的頻率更高。更為重要的一點是異常dna甲基化模式在癌癥早期就已發生,這有助于早期癌癥的檢測。因此,異常dna甲基化模式是癌癥的標志之一,存在于癌癥的各個階段。
2、血液中的細胞游離dna(cell-free?dna,cfdna)不僅來自正常細胞,也可能來自具有疾病特異性的凋亡細胞,如cfdna中的循環腫瘤dna(circulating?tumor?dna,ctdna)。目前,cfdna已成為產前無創檢測的臨床標準,并應用于癌癥篩查領域。然而,對于多數癌癥患者(尤其癌癥早期患者),ctdna在cfdna中的含量非常低。因此,基于cfdna進行癌癥篩查的一個挑戰性問題是如何有效捕獲微量ctdna信號。目前主要采用高深度測序的方法增強ctdna信號,但該處理方式的主要問題是成本高,難以在大規模早期篩查中實現。此外,該處理方式還會增強測序中固有噪聲,存在加大假陽性率的風險。一種潛在可行的增強ctdna信號的策略是從cfdna中選取可能來自腫瘤細胞reads,之后從選取的reads中提取腫瘤特征進行腫瘤
3、有鑒于此,提出本申請。
技術實現思路
1、為解決上述技術問題,本申請基于健康cfdna樣本、慢性炎癥cfdna樣本和腫瘤組織樣本,選取dna甲基化水平在同一類型樣本間穩定而不同類型樣本間存在顯著差異的cpg位點;針對選取的cpg位點,基于參考數據集(健康cfdna樣本、慢性炎癥cfdna樣本和腫瘤組織樣本)和檢測cfdna樣本構建統計模型,并采用最大期望(expectation-maximizationalgorithm,em)算法估計選取的cpg位點在不同類型樣本中的甲基化水平以及檢測cfdna樣本中ctdna的占比;基于em算法的估計結果,采用似然比檢驗(likelihood?ratio?test,lrt)判斷檢測的cfdna樣本的樣本類型,即屬于健康樣本、慢性炎癥樣本還是腫瘤樣本;依據似然比檢驗結果,基于估計的cpg位點的甲基化水平和ctdna的占比預測檢測cfdna樣本中ctdna片段。
2、因此,本申請核心目的是提供一種基于dna甲基化特征的循環腫瘤dna預測方法。
3、為實現上述目的,本申請提出如下技術方案:
4、1)選取dna甲基化水平在同一類型樣本間穩定而不同類型樣本間差異顯著的cpg位點;
5、2)構建統計模型并采用最大期望(expectation-maximization?algprithm,em)算法估計選取的cpg位點在不同類型樣本中的甲基化水平以及檢測cfdna樣本中ctdna的占比;
6、3)采用似然比檢驗(likelihood?ratio?test,lrt)判斷檢測的cfdna樣本的樣本類型;
7、4)預測檢測cfdna樣本中ctdna片段。
8、進一步的,所述步驟1)的選取為:基于健康cfdna樣本、慢性炎癥cfdna樣本和腫瘤組織樣本,構建二項分布選取dna甲基化水平在同一類型樣本間穩定而不同類型樣本間存在顯著差異的cpg位點。
9、進一步的,所述選取具體為:a.基于健康cfdna樣本,針對每個cpg位點的dna甲基化水平構建二項分布并檢驗在健康cfdna樣本中是否穩定;b.基于慢性炎癥cfdna樣本,針對每個在健康cfdna樣本中穩定的cpg位點的dna甲基化水平構建二項分布并檢驗在慢性炎癥cfdna樣本中是否穩定以及在健康和慢性炎癥兩種樣本間是否差異顯著;c.基于腫瘤組織樣本,針對每個在慢性炎癥cfdna樣本中穩定而在健康和慢性炎癥兩種樣本間差異顯著的cpg位點的dna甲基化水平構建二項分布并檢驗在腫瘤組織樣本中是否穩定以及在腫瘤、健康樣本和慢性炎癥三種樣本間是否差異顯著。
10、進一步的,所述步驟2)的構建為:將cfdna中dna片段分為腫瘤dna和非腫瘤dna兩種類型,并基于步驟1)選取的cpg位點構建統計模型m1。
11、進一步的,所述統計模型m1為:
12、p(x,y|β,θ)=p(x|β,θ)p(y|β)
13、
14、
15、
16、
17、
18、yi1,y’i1:在健康cfdna樣本(或慢性炎癥cfdna樣本)中第i個cpg位點上的甲基化reads數目和總reads數目,i=1,2,…,m
19、yi2,y’i2:在腫瘤組織樣本中第i個cpg位點上的甲基化reads數目和總reads數目,i=1,2,…,m
20、xi,x’i:在檢測cfdna樣本中第i個cpg位點上的甲基化reads數目和總reads數目,i=1,2,…,m
21、βi1,βi2:在健康cfdna樣本(或慢性炎癥cfdna樣本)和腫瘤組織中第i個cpg位點的甲基化水平,i=1,2,…,m
22、θ:檢測cfdna樣本中ctdna占比
23、進一步的,采用期望最大化算法(expectation-maximization?algprithm,em)求解步驟2所構建的統計模型m1,具體如下,
24、初始步(i-step):
25、n為檢測cfdna樣本中的測序片段數目
26、
27、期望步(e-step):
28、
29、
30、最大化步(m-step):
31、
32、
33、進一步的,所述步驟3)似然比檢驗的備擇假設(檢測cfdna樣本中含有ctdna片段)模型為步驟2)的m1模型,而原假設(檢測cfdna樣本中無ctdna片段)模型m0為:
34、p(x,y|β)=p(x|β)p(y|β)
35、
36、
37、
38、
39、yi1,y’i1:在健康cfdna樣本(或慢性炎癥cfdna樣本)中第i個cpg位點上的甲基化reads數目和總reads數目,i=1,2,本文檔來自技高網...
【技術保護點】
1.一種基于DNA甲基化特征的循環腫瘤DNA預測方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的預測方法,其特征在于,
3.根據權利要求1-2所述的預測方法,其特征在于,
4.根據權利要求1-3所述的預測方法,其特征在于,
5.根據權利要求1-4所述的預測方法,其特征在于,
6.根據權利要求1-5所述的評估方法,其特征在于,
【技術特征摘要】
1.一種基于dna甲基化特征的循環腫瘤dna預測方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的預測方法,其特征在于,
3.根據權利要求1-2所述的預測方法,其特征...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。