本發明專利技術屬于基因組結構變異檢測技術領域,具體涉及一種基于等位基因感知的剪切區間變異檢測方法、系統,先計算有效高剪切信號區間,再進行剪切區間的標記,可以更全面檢測剪切區間的變異;變異特征比對前,針對剪切區間內相同變異會表現為插入或復制變異信號與剪切信號同時存在,或缺失變異信號與剪切信號同時存在的情況,構造插入信號、缺失信號,進行信號統一,以使聚類結果更加準確;根據剪切區間內的聚類結果,構造共識序列,并將共識序列比對到參考基因組上,綜合應用minimap2比對結果、重新比對得到的新比對結果、或讀段比對信息等多層次信息,全面檢測多種類型的變異以及復雜的雜合變異,提高結構變異的檢測能力。
【技術實現步驟摘要】
本專利技術屬于基因組結構變異檢測,具體涉及一種基于等位基因感知的剪切區間變異檢測方法、系統。
技術介紹
1、在基因組學中,針對基于剪切區間的變異檢測,主要技術問題在于精確識別和解析復雜結構變異(如大尺寸的插入或缺失、倒位和復制)的發生位置與特性。這些變異常位于高剪切(clipping)信號區域,而傳統對齊算法容易忽略或錯誤解讀這類片段。此外,變異事件的特征多樣性(如長度不確定性、方向性、位置重疊等)增加了識別的復雜度,導致現有方法在變異檢測上具有一定局限性,如復雜變異的遺漏和識別結果不準確等問題。
技術實現思路
1、本專利技術提供一種基于等位基因感知的剪切區間變異檢測方法、系統。
2、本專利技術的技術方案如下:
3、本專利技術提供一種基于等位基因感知的剪切區間變異檢測方法,包括以下步驟:
4、s1:測序數據與參考基因組進行比對,分析比對信息,提取每個堿基位置變異信號,得到有效高剪切信號區間;
5、基于有效高剪切信號區間,獲取一條讀段所有比對片段,根據比對片段一端的剪切信號獲取與該比對片段另一端相鄰的比對片段,標記剪切區間位置和剪切區間變異類型;
6、s2:基于剪切區間位置和剪切區間變異類型,分別提取兩個讀段剪切區間的變異特征,對于同一變異,若插入或復制變異信號與剪切信號同時存在,則構造插入信號;若缺失變異信號與剪切信號同時存在,則構造缺失信號;
7、按基因組坐標排序分別構建變異特征序列,聚類,得到聚類集合;p>8、s3:聚類集合中所有讀段進行局部拼接,得到共識序列;共識序列比對到剪切區間的參考序列上,得到比對結果;
9、若比對結果包含剪切區間,則根據剪切區間兩個斷點的位置,得到插入、缺失、復制或倒位變異的堿基序列;
10、若比對結果不包含剪切區間,則剪切區間向兩側擴展后,對新比對結果進行處理,得到變異的堿基序列;
11、s4:根據合并條件,將剪切區間變異進行合并,確定有效變異;
12、根據剪切區間等位基因的數量,確定有效變異的基因型。
13、所述步驟s1,得到有效高剪切信號區間,具體為:
14、根據變異信號得到剪切信號后,計算待檢區間具有剪切信號的讀段占比,根據滑動步長劃分待檢區間,計算滑動步長區間具有剪切信號的讀段占比,若滑動步長區間具有剪切信號的讀段占比大于預設占比,則將滑動步長區間記為目標剪切區間,根據滑動順序,得到的剪切區間依次記為第一目標剪切區間、第二目標剪切區間、……、第n目標剪切區間,將第一目標剪切區間的開始位置與第n目標剪切區間的結束位置的區間,作為高剪切信號區間;
15、獲取高剪切信號區間的比對片段和補充比對片段,計算比對片段長度大于預設長度的非補充比對片段數量,若非補充比對片段數量不小于預設支持讀段數量,且非補充比對片段數量占全部非補充比對片段數量的比值不小于預設比值,則將該剪切信號區間記為有效高剪切信號區間;
16、若總比對片段數量不小于第一數量且不大于第二數量,及非補充比對片段數量占全部非補充比對片段數量的比值不小于預設比值,則將該剪切信號區間記為有效高剪切信號區間。
17、所述步驟s1,根據比對片段一端的剪切信號獲取與該比對片段另一端相鄰的比對片段,標記剪切區間位置和剪切區間變異類型,具體為:
18、比較兩個比對片段的方向、斷點位置和交疊情況,得到比對片段的變異類型并記錄讀段數量;直到所有比對片段處理完成,得到有效高剪切信號區間含有大于預設尺寸的插入或缺失變異的讀段數量、復制變異的讀段數量、倒位變異的讀段數量;
19、基于比對片段的變異類型,比較有效高剪切信號區間含有大于預設尺寸的插入或缺失變異的讀段數量、復制變異的讀段數量、倒位變異的讀段數量,標記剪切區間位置和剪切區間變異類型。
20、優選地,比較兩個比對片段的方向、斷點位置和交疊情況,得到比對片段的變異類型,具體為:
21、若兩個比對片段的方向相同,不存在交疊,且兩斷點間存在大于預設尺寸的插入或缺失變異,則兩斷點屬于同一變異區間,比對片段的變異類型為插入或缺失變異;
22、若兩個比對片段的方向相同,存在交疊,且兩斷點間不存在大于預設尺寸的插入或缺失變異,則兩斷點不屬于同一變異區間,比對片段的變異類型為復制變異;
23、若兩個比對片段的方向相反,不存在交疊,且兩斷點間不存在大于預設尺寸的插入或缺失變異,則兩斷點不屬于同一變異區間,比對片段的變異類型為倒位變異。
24、優選地,基于比對片段的變異類型,比較有效高剪切信號區間含有大于預設尺寸的插入或缺失變異的讀段數量、復制變異的讀段數量、倒位變異的讀段數量,標記剪切區間位置和剪切區間變異類型,具體為:
25、若有效高剪切信號區間含有大于預設尺寸的插入和缺失變異的讀段數量不小于預設數量,則以該區間斷點位置最小值為區間起始位置,該區間斷點位置最大值為區間結束位置,作為剪切區間位置;
26、比較插入變異的讀段數量與缺失變異的讀段數量:
27、如果插入變異的讀段數量不小于缺失變異的讀段數量,則剪切區間的變異類型標記為插入變異;
28、如果插入變異的讀段數量小于缺失變異的讀段數量,則剪切區間的變異類型標記為缺失變異;
29、若有效高剪切信號區間不含有大于預設尺寸的插入或缺失變異,則以左右兩個區間的斷點位置的平均值分別作為剪切區間的起始位置與結束位置;
30、比較復制變異的讀段數量與倒位變異的讀段數量:
31、如果復制變異的讀段數量不小于倒位變異的讀段數量,則剪切區間的變異類型標記為復制變異;
32、如果復制變異的讀段數量小于倒位變異的讀段數量,則剪切區間的變異類型標記為倒位變異。
33、所述步驟s2,若插入或復制變異信號與剪切信號同時存在,則構造插入信號,具體為:
34、若插入或復制變異信號與剪切信號同時存在,則選擇同一染色體上距離最近的兩個片段,計算斷點的參考距離與讀段距離,如果參考距離小于第一閾值,且兩個片段相互交疊,及兩個片段之間存在間隔大于預設距離的比對片段,或,如果讀段距離小于第二閾值,且參考距離與讀段距離的距離差值的絕對值大于第三閾值,及兩個片段之間不存在間隔大于預設距離的比對片段,則從起始位置斷點處的讀段位置開始,以參考距離與讀段距離的距離差值的絕對值加1的長度,取讀段中的堿基序列作為變異的序列堿基信息,構造插入信號;
35、若缺失變異信號與剪切信號同時存在,則構造缺失信號,具體為:
36、若缺失變異信號與剪切信號同時存在,則選擇同一染色體上距離最近的兩個片段,如果兩個片段方向相同,且讀段距離大于第四閾值,且參考距離小于第五閾值,及兩個片段之間不存在間隔大于預設距離的比對片段,則從起始位置斷點處的讀段位置開始,以參考距離與讀段距離的距離差值的絕對值加1的長度,取參考基因組中的堿基序列作為本文檔來自技高網
...
【技術保護點】
1.一種基于等位基因感知的剪切區間變異檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
3.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
4.根據權利要求3所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
5.根據權利要求3所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
6.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
7.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
8.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
9.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
10.一種基于等位基因感知的剪切區間變異檢測系統,其特征在于,包括:
【技術特征摘要】
1.一種基于等位基因感知的剪切區間變異檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
3.根據權利要求1所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
4.根據權利要求3所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
5.根據權利要求3所述的基于等位基因感知的剪切區間變異檢測方法,其特征在于,
【專利技術屬性】
技術研發人員:朱曉,馬元駿,朱超群,穆培政,劉昊祥,權威,
申請(專利權)人:煙臺大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。