System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及生物,具體的涉及基因組學領域,更具體的,涉及確定基因組印記樣調控區域的方法、設備、服務器和計算機可讀存儲介質。
技術介紹
1、基因組印記是哺乳動物生長發育過程中的重要現象,指特定表達父本或母本的等位基因。在哺乳動物的幾乎所有已知病例中,這種印記基因表達都被確定為受某些順式作用元件的等位基因特異性甲基化(asm)調節。因此,鑒定印記基因及其調控機制對于理解哺乳動物發育以及異常基因組印記疾病非常重要。
2、高通量測序技術使大規模分析印記基因成為可能。全基因組亞硫酸氫鹽測序(wgbs)是研究dna甲基化組的最有用的方法。在過去十年中,通過使用wgbs數據及其關聯的雜合snp信息,研究人員在人類和小鼠基因組中檢測到許多等位基因特異性甲基化區域(amr)。
3、盡管這些研究為我們理解基因組印記機制以及哺乳動物細胞中的等位基因表達機制提供了寶貴的資源,但目前流行的方法存在兩個主要的實際限制:首先,研究并不總能得到樣本特異性的雜合snp信息,同時在一些特定的研究中,有可能某些amrs天然不包含雜合snp信息。其次,僅僅使用樣本特異性甲基化數據極其相關雜合snp信息并不能區分amr的起源(包括親本起源的imprinting、種系起源的序列依賴性,以及隨機產生)。
4、最近,發表了一些不依賴于snp的amr發現方法。例如,amrfinder(f.fang,e.hodges,a.molaro,m.dean,g.j.hannon,a.d.smith,genomic?landscape?of?humanal
5、由此,目前關于基因組印記的研究仍有待改進。
技術實現思路
1、本專利技術旨在至少解決現有技術中存在的技術問題之一。為此,本專利技術的一個目的在于提出一種能夠有效確定基因組印記樣調控區域的手段。
2、在本申請的第一方面,本申請提出了一種確定基因組印記樣調控區域的方法,根據本申請的實施例,該方法包括:獲取個體的甲基化測序數據,所述甲基化測序數據由多個測序讀段構成;將所述個體對應物種的基因組參考序列劃分為多個初級窗口,所述初級窗口含有cpg位點;基于所述初級窗口中所述cpg位點的甲基化狀態,從所述多個初級窗口中,選擇初級印記樣調控區域;和可選的,將所述初級印記樣調控區域與相鄰的所述初級窗口進行延伸,以便獲得所述基因組印記樣調控區域,其中,所述初級印記樣調控區域是滿足下列標準的所述初級窗口:(a)落入所述初級窗口的測序讀段可以被分類為高甲基化組和低甲基化組,所述高甲基化組的甲基化水平高于所述低甲基化組的甲基化水平;和(b)所述高甲基化組和低甲基化組之間測序讀段的數目差異不超過預定閾值。
3、根據本申請的實施例,通過選擇滿足特定條件的核酸序列可以有效地確定基因組印記樣調控區域。具體的,本申請的專利技術人發現,在單一細胞群中,通過甲基化測序得到的測序讀段(read),例如通過全基因組亞硫酸氫鹽測序(wgbs)得到的測序讀段,除了等位基因特異性甲基化(asm)現象之外,cpg甲基化水平通常在一定基因組區間內是一致的。由此,根據本申請的實施例,如果滿足下列條件,則可以將一定長度的基因組區域作為基因組印記樣調控區域的候選區域:(i)落入給定基因組區域中的甲基化測序讀段可以分為兩個不同的組(一個高甲基化組和一個低甲基化組),并且(ii)高甲基化組和低甲基化組中的測序讀段數目是相似的。由此,通過根據本申請的實施例的方法可以有效地確定基因組印記樣調控區域。
4、根據本申請的實施例,上述確定基因組印記樣調控區域的方法還可以具有下列附加技術特征的至少之一:
5、根據本申請的實施例,所述甲基化測序數據為單堿基分辨率dna甲基化測序數據。
6、根據本申請的實施例,在(a)中,所述高甲基化組的甲基化水平與所述低甲基化組的甲基化水平的差異不小于0.5,優選不小于0.7,更優選不小于0.8,例如不小于0.85或者不小于0.90。
7、根據本申請的實施例,在(b)中,所述高甲基化組和所述低甲基化組中測序讀段數目較少一方的測序讀段數目占落入所述初級窗口測序讀段總數目的比例不低于20%,優選不低于25%,更優選不低于30%,例如不低于40%,或者
8、所述高甲基化組和所述低甲基化組中測序讀段數目的差異不超過10%,優選不超過5%。
9、根據本申請的實施例,按照下列標準,將所述初級印記調控區域與相鄰的所述初級窗口進行延伸,以便獲得所述基因組印記樣調控區域:
10、(i)所述初級印記樣調控區域與所述相鄰的所述初級窗口的距離不超過1000bp,優選不超過800bp,更優選不超過700bp,最優選不超過600bp;
11、(ii)所述初級印記樣調控區域與所述相鄰的所述每一個初級窗口中均含有至少5個所述cpg位點,優選至少10個所述cpg位點;
12、(iii)將所述初級印記調控區域與所述相鄰的所述初級窗口延伸后,所述高甲基化組的甲基化水平與所述低甲基化組的甲基化水平的差異不小于0.8,例如不小于0.85或者不小于0.90;和
13、(iv)將所述初級印記調控區域與所述相鄰的所述初級窗口延伸后,所述高甲基化組和所述低甲基化組中測序讀段數目較少一方的測序讀段數目占落入所述初級窗口測序讀段總數目的比例不低于30%,例如不低于40%。
14、根據本申請的實施例,對于給定所述初級窗口,所述高甲基化組和所述低甲基化組的所述甲基化水平是通過對落入所述初級窗口的所述測序讀段進行最大期望算法確定的。
15、根據本申請的實施例,所述最大期望算法包括:為高甲基化組a的甲基化水平和低甲基化組b的甲基化水平分別賦予初始化值;和利用至少一部分落入所述初級窗口的測序讀段的甲基化水平,對所述高甲基化組a的甲基化水平和所述低甲基化組的甲基化水平進行至少一次迭代計算更新,以便獲得所述給定初級窗口的所述高甲基化組和所述低甲基化組的最終甲基化水平。
16、根據本申請的實施例,所述最大期望算法包括:所述最大期望算法包括:(1)為所述高甲基化組a的甲基化水平和所述低甲基化組b的甲基化水平分別賦予初始化值;(2)針對落入所述初級窗口的每一條測序讀段,分別基于所述測序讀段的甲基化水平,計算所述測序讀段歸類為所述高甲基化組a和所述低甲基化組b的概率,以便對落入所述初級窗口本文檔來自技高網...
【技術保護點】
1.一種確定基因組印記樣調控區域的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述甲基化測序數據為單堿基分辨率DNA甲基化測序數據,所述初級窗口的長度為200~500bp,優選300bp。
3.根據權利要求1所述的方法,其特征在于,在(a)中,所述高甲基化組的甲基化水平與所述低甲基化組的甲基化水平的差異不小于0.5,優選不小于0.7,更優選不小于0.8,例如不小于0.85或者不小于0.90。
4.根據權利要求1所述的方法,其特征在于,在(b)中,所述高甲基化組和所述低甲基化組中測序讀段數目較少一方的測序讀段數目占落入所述初級窗口測序讀段總數目的比例不低于20%,優選不低于25%,更優選不低于30%,例如不低于40%。
5.根據權利要求1所述的方法,其特征在于,對于給定所述初級窗口,所述高甲基化組和所述低甲基化組的所述甲基化水平是通過對落入所述初級窗口的所述測序讀段進行最大期望算法確定的。
6.根據權利要求5所述的方法,其特征在于,所述最大期望算法包括:
7.根據權利要求6所述的方法,其
8.根據權利要求6或7所述的方法,其特征在于,所述迭代計算進行至少100次,或者所述迭代計算進行至所述迭代計算前一次和后一次的高甲基化組甲基化水平和低甲基化組甲基化水平差異同時小于0.0001時停止。
9.根據權利要求1所述的方法,其特征在于,按照下列標準,將所述初級印記調控區域與相鄰的所述初級窗口進行延伸,以便獲得所述基因組印記樣調控區域:
10.根據權利要求1所述的方法,其特征在于,進一步包括:
11.根據權利要求10所述的方法,其特征在于,所述相似程度判斷是基于下列公式進行的:
12.一種確定基因組印記樣調控區域的設備,其特征在于,包括:
13.根據權利要求12所述的設備,其特征在于,所述基因組印記樣調控區域確定模塊用于按照下列標準,將所述初級印記調控區域與相鄰的所述初級窗口進行延伸,以便獲得所述基因組印記樣調控區域:
14.根據權利要求12所述的設備,其特征在于,進一步包括:
15.根據權利要求14所述的設備,其特征在于,所述相似程度判斷是基于下列公式進行的:
16.一種服務器,其特征在于,所述服務器包括處理器和存儲器,所述存儲器上存儲有計算機程序,當所述計算機程序被所述處理器執行時,實現權利要求1-11任一項所述的確定基因組印記樣調控區域的方法。
17.一種包含有計算機程序的計算機可讀存儲介質,其特征在于,當所述計算機程序被一個或多個處理器執行時,實現權利要求1-12任一項所述的確定基因組印記樣調控區域的方法。
...【技術特征摘要】
1.一種確定基因組印記樣調控區域的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述甲基化測序數據為單堿基分辨率dna甲基化測序數據,所述初級窗口的長度為200~500bp,優選300bp。
3.根據權利要求1所述的方法,其特征在于,在(a)中,所述高甲基化組的甲基化水平與所述低甲基化組的甲基化水平的差異不小于0.5,優選不小于0.7,更優選不小于0.8,例如不小于0.85或者不小于0.90。
4.根據權利要求1所述的方法,其特征在于,在(b)中,所述高甲基化組和所述低甲基化組中測序讀段數目較少一方的測序讀段數目占落入所述初級窗口測序讀段總數目的比例不低于20%,優選不低于25%,更優選不低于30%,例如不低于40%。
5.根據權利要求1所述的方法,其特征在于,對于給定所述初級窗口,所述高甲基化組和所述低甲基化組的所述甲基化水平是通過對落入所述初級窗口的所述測序讀段進行最大期望算法確定的。
6.根據權利要求5所述的方法,其特征在于,所述最大期望算法包括:
7.根據權利要求6所述的方法,其特征在于,所述最大期望算法包括:
8.根據權利要求6或7所述的方法,其特征在于,所述迭代計算進行至少100次,或者所述迭代計算進行至所述迭代計算前一次和后一次的高甲基化組甲基化水平和低甲基...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。