本發明專利技術涉及一種誘導全能干細胞應用前期突變檢測方法,包括以下步驟,選取多個樣本和一個參考基因,分別獲取多個樣本的測序數據,將多個樣本的測序數據分別與參考基因進行比對,分別對應生成多個樣本的bam文件;分別去除多個樣本的bam文件中PCR擴增導致的偏差,生成多個樣本的修正的bam文件;分別獲取多個樣本的修正的bam文件中的pileup文件;對多個樣本的pileup文件進行兩兩對比,獲取多組兩個不同樣本之間全面的變異檢測信息;將多組兩個不同樣本之間的變異差異信息根據預設的過濾條件進行過濾,得到包含有多組兩個不同樣本雜合純和合變異信息結果。本發明專利技術通過對原始數據的比對,按照測序reads覆蓋深度進行數據過濾,能夠檢測到更加全面的突變位點信息。
【技術實現步驟摘要】
本專利技術涉及一種生物信息分析方法,具體的涉及。
技術介紹
目前應用于高通量測序結果中變異篩選的主要軟件包括有samtools和GATK。GATK主要用于測序數據中進行突變篩選,包括單核單酸多態性(SNP)以及缺失插入(Indel)等,一般通過BWA+GATK的流程進行數據分析。Samtools是一個用于操作sam和bam文件的工具合集,其中包括了很多命令,其中一個mpileup命令用于生成bcf文件,然后使用bcf too Is進行SNP和Indel的分析。但是無論是samtools的bcf too Is還是GATK分析流程,為了能夠找到高質量的變異信息,其分析原理都涉及到了一系列的數據過濾過程。這導致通過上述方法無法獲取全部的變異信息。
技術實現思路
本專利技術所要解決的技術問題是提供,可以全面的獲取誘導全能干細胞樣本的全部的變異信息。本專利技術解決上述技術問題的技術方案如下:,包括以下步驟,S1,選取多個誘導全能干細胞樣本和一個參考基因,分別獲取多個誘導全能干細胞樣本的測序數據,將多個誘導全能干細胞樣本的測序數據分別與參考基因進行比對,分別對應生成多個誘導全能干細胞樣本的bam文件;S2,分別去除多個誘導全能干細胞樣本的bam文件中PCR擴增導致的偏差,生成多個誘導全能干細胞樣本的修正的bam文件;S3,分別獲取多個誘導全能干細胞樣本的修正的bam文件中的pileup文件;S4,通過多個誘導全能干細胞樣本的pileup文件對不同誘導全能干細胞樣本之間的差異進行兩兩對比,獲取多組兩個不同誘導全能干細胞樣本之間全面的變異檢測信息;S5,將多組兩個不同誘導全能干細胞樣本之間的變異檢測信息根據預設的過濾條件進行過濾,得到包含有多組兩個不同誘導全能干細胞樣本的雜合和純合變異信息結果。本專利技術的有益效果是:本專利技術不需要使用多種復雜變異檢測軟件,利用簡單的文件信息方便快捷的獲取了誘導全能干細胞樣本的全部差異信息,包含基因組上該位點的測序覆蓋度,可以直接計算該位點變異比例,進而判斷突變是純合突變還是雜合突變;本專利技術通過對原始數據的比對,按照測序reads覆蓋深度進行數據過濾和突變篩選,能夠檢測到更加全面的突變位點信息。 在上述技術方案的基礎上,本專利技術還可以做如下改進。進一步,在S5中,所述預設的過濾條件為根據變異位點的深度支持情況和變異位點的深度占全部測序深度的比例進行過濾。進一步,所述變異位點的深度支持情況具體為變異位點在兩個不同誘導全能干細胞樣本的reads覆蓋深度均大于等于預設值,將多組兩個不同誘導全能干細胞樣本之間變異位點的reads覆蓋深度小于預設值的變異檢測信息過濾掉,所述變異位點的深度占全部測序深度的比例包括變異為雜合突變的預設閾值和變異為純合突變的預設閾值,將多組兩個不同誘導全能干細胞樣本之間變異位點低于雜合突變預設閾值的變異檢測信息過濾掉,將多組兩個不同誘導全能干細胞樣本之間變異位點低于純合突變預設閾值的變異檢測信息過濾掉,根據多組兩個不同誘導全能干細胞樣本之間變異位點的reads覆蓋深度大于等于預設值的變異檢測信息的個數、多組兩個不同誘導全能干細胞樣本之間變異位點高于等于雜合突變預設閾值的變異檢測信息個數和多組兩個不同誘導全能干細胞樣本之間變異位點高于等于純合突變預設閾值的變異檢測信息個數得出多組兩個不同誘導全能干細胞樣本的雜合和純合變異信息結果。進一步,變異位點在兩個不同誘導全能干細胞樣本的reads覆蓋深度均大于等于8,變異為雜合突變的預設閾值為0.25,變異為純合突變的預設閾值為0.9。進一步,在S5中,多組兩個不同誘導全能干細胞樣本雜合和純合變異信息的結果均包括單核單酸多態性變異信息和缺失插入變異信息。進一步,在S5后還包括S6,S6,對得到的缺失插入變異信息進行重復區域過濾,得到進一步過濾的缺失插入變異?目息。進一步,在S4中,變異差異信息包括兩個誘導全能干細胞比較樣本每個染色體位點的堿基變異以及該變異的覆蓋深度信息。進一步,去除多個誘導全能干細胞樣本的bam文件中PCR擴增導致的偏差的方法為采用samtools工具中的的rmdup命令。【附圖說明】圖1為本專利技術的流程圖。【具體實施方式】以下結合附圖對本專利技術的原理和特征進行描述,所舉實例只用于解釋本專利技術,并非用于限定本專利技術的范圍。如圖1所示,,包括以下步驟,S1,選取多個誘導全能干細胞樣本和一個參考基因,分別獲取多個誘導全能干細胞樣本的測序數據,將多個誘導全能干細胞樣本的測序數據分別與參考基因進行比對,分別對應生成多個誘導全能干細胞樣本的bam文件,bam文件是sam文件的二進制文件,而sam文件是一種基因序列比對格式標準。S2,分別去除多個誘導全能干細胞樣本的bam文件中PCR擴增導致的偏差,生成多個誘導全能干細胞樣本的修正的bam文件;去除多個誘導全能干細胞樣本的bam文件中PCR擴增導致的偏差的方法為采用samtools工具中的的rmdup命令。S3,分別獲取多個誘導全能干細胞樣本的修正的bam文件中的pileup文件,pileup文件相當于把每條染色體都豎起來,將每條reads也豎起來平行的匹配到基因組上。S4,通過多個誘導全能干細胞樣本的pileup文件對不同誘導全能干細胞樣本之間的差異進行兩兩對比,獲取多組兩個不同誘導全能干細胞樣本之間全面的變異檢測信息;變異檢測信息包括兩個誘導全能干細胞比較樣本每個染色體位點的堿基變異以及該變異的覆蓋深度?目息。S5,將多組兩個不同誘導全能干細胞樣本之間的變異檢測信息根據預設的過濾條件進行過濾,得到包含有多組兩個不同誘導全能干細胞樣本雜合和純合變異信息結果;所述預設的過濾條件為根據變異位點的深度支持情況和變異位點的深度占全部測序深度的比例進行過濾。所述變異位點的深度支持情況具體為變異位點在兩個不同誘導全能干細胞樣本的reads覆蓋深度均大于等于預設值,將多組兩個不同誘導全能干細胞樣本之間變異位點的reads覆蓋深度小于預設值的變異檢測信息過濾掉;所述變異位點的深度占全部測序深度的比例包括變異為雜合突變的預設閾值和變異為純合突變的預設閾值,將多組兩個不同誘導全能干細胞樣本之間變異位點低于雜合突變預設閾值的變異檢測信息過濾掉,將多組兩個不同誘導全能干細胞樣本之間變異位點低于純合突變預設閾值的變異檢測信息過濾掉,根據多組兩個不同誘導全能干細胞樣本之間變異位點的reads覆蓋深度大于等于預設值的變異檢測信息的個數、多組兩個不同誘導全能干細胞樣本之間變異位點高于等于雜合突變預設閾值的變異檢測信息個數和多組兩個不同誘導全能干細胞樣本之間變異位點高于等于純合突變預設閾值的變異檢測信息個數得出多組兩個不同誘導全能干細胞樣本的雜合和純合變異信息結果。變異位點在兩個不同誘導全能干細胞樣本的reads覆蓋深度均大于等于8,變異為雜合突變的預設閾值為0. 25,變異為純合突變的預設閾值為0. 9。S6,多組兩個不同誘導全能干細胞樣本雜合純合變異信息的結果包括單核單酸多態性變異信息和缺失插入變異信息,對得到的缺失插入變異信息進行重復區域過濾,得到進一步過濾的缺失插入變異信息。為本專利技術中提供一個具體的實施例,在本具體實施例中,首先針對供體amniotic細胞、β Thal654_iPS細胞和β Thal本文檔來自技高網...
【技術保護點】
一種誘導全能干細胞應用前期突變檢測方法,其特征在于:包括以下步驟,S1,選取多個誘導全能干細胞樣本和一個參考基因,分別獲取多個誘導全能干細胞樣本的測序數據,將多個誘導全能干細胞樣本的測序數據分別與參考基因進行比對,分別對應生成多個誘導全能干細胞樣本的bam文件;S2,分別去除多個誘導全能干細胞樣本的bam文件中PCR擴增導致的偏差,生成多個誘導全能干細胞樣本的修正的bam文件;S3,分別獲取多個誘導全能干細胞樣本的修正的bam文件中的pileup文件;S4,通過多個誘導全能干細胞樣本的pileup文件對不同誘導全能干細胞樣本之間的差異進行兩兩對比,獲取多組兩個不同誘導全能干細胞樣本之間全面的變異檢測信息;S5,將多組兩個不同誘導全能干細胞樣本之間的變異檢測信息根據預設的過濾條件進行過濾,得到包含有多組兩個不同誘導全能干細胞樣本的雜合和純合變異信息結果。
【技術特征摘要】
【專利技術屬性】
技術研發人員:王成,
申請(專利權)人:武漢菲沙基因信息有限公司,
類型:發明
國別省市:湖北;42
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。