本發明專利技術屬于生物信息學領域,具體涉及用于從原始測序數據中對單核苷酸多態位點(Single?nucleotide?polymorphisms,SNP)進行精確分型的算法。該算法基于統計學和群體遺傳學原理,可對樣本的指定SNP位點進行分型,且對該分型結果進行相應的質量評估。本發明專利技術的標準質量分數能精確的評價分型的準確率,且非常容易在實際工作中使用。可進一步作為實際法醫學工作中標準化的質量統計量。
【技術實現步驟摘要】
本專利技術屬于生物信息學領域,涉及單核苷酸多態位點分型算法,尤其涉及一個用于從原始二代測序數據中對SNP進行精確分型的算法。
技術介紹
對生物樣本的DNA進行精確解讀是進行分子生物學、遺傳學及法醫物證鑒定等領域的前提。單核苷酸多態遺傳標記位點(Singlenucleotidepolymorphisms,SNP)是由單個堿基的突變造成。人類基因組上已經發現大約千萬級的SNP位點,并且證明其與眾多表型、疾病等相關聯。第二代測序技術是目前最流行的DNA測序分型方法。通過使用第二代測序技術,大量的原始人類基因組測序數據在近年來被產生。因此,實踐中,需要創建可對這些SNP位點進行精確分型的算法。基于現有技術的現狀,本申請的專利技術人擬提供一種單核苷酸多態位點分型算法,尤其是能夠進行從第二代測序數據中精確分型特定SNP位點的算法。
技術實現思路
本專利技術的目的在于提供一種能夠進行從第二代測序數據中精確分型特定SNP位點的算法。本專利技術提供了進行精確分型特定SNP位點的算法。本專利技術通過構建二項分布統計學模型,對SNP位點的等位基因在人群中的分布進行模擬,精確的推測出個體的基因分型。本算法提供了對分型結果的質量評估,從而提供了二代測序數據背景下的質量評價體系。本專利技術中,軟件基于C/C++語言,適用于linux或windows系統。更具體的,本專利技術的單核苷酸多態位點分型算法,其包括步驟:給定一個SNP位點,本專利技術的實施例中,分別提取每個樣本的兩個等位基因的有效乘數(theeffectivebasedepth,簡寫EBD):對于一個群體,第i個個體的參考等位基因(referenceallele)與交互等位基因(alternativeallele)的EBD分別為ri和ai。對三種可能的基因型RR、RA、AA,本專利技術中,假設它們在測序中分別有一個固定的突變等位基因出現率,分別為p(RR)、p(RA)和p(AA);理想情況下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假設等位基因頻率服從哈迪-溫伯格平衡,同時有固定的交互等位基因頻率(alternativeallelefrequency)fre,因此:f(RR)=(1-fre)2f(RA)=2fre(1-fre)f(AA)=fre2本專利技術中,實際樣本由于其基因型未知,認為它是由三種等位基因疊加而成,因此,SNP模型有如下概率模型:當上述模型建立完成后,引入隱變量:w(RR)i、w(RA)i、w(AA)i來表述這個個體的三種基因型概率;使用Expectation-Maximization(EM)算法進行最大似然估計,其E步驟和M步驟分別是:E步驟:M步驟:最后,對于第i個樣本,取w(RR)i、w(RA)i、w(AA)i中最大的基因型作為該個樣本的基因型。本專利技術中,還對推測出的樣本基因型進行對應的質量評估,其包括:構建一個統計量描述,令所選的基因型對應的1-w(geno)i為該基因型的標準質量分數,表征該位點基因分型的準確率;標準質量分數越高,分型準確率越低。初步結果顯示,所述標準質量分數能精確的評價分型的準確率,且非常容易在實際工作中使用。可進一步作為實際法醫學工作中標準化的質量統計量。為了便于理解,以下將通過具體的實施例對本專利技術的進行詳細地描述。需要特別指出的是,具體實例僅是為了說明,顯然本領域的普通技術人員可以根據本文說明,在本專利技術的范圍內對本專利技術做出各種各樣的修正和改變,這些修正和改變也納入本專利技術的范圍內。具體實施方式實施例1:對177個特定SNP位點進行分析,數據為729個中國樣本上的原始二代測序數據使用二代測序中比對軟件Burrows-WheelerAligner將原始測序數據映射至參考人類基因組上(humanreferencegenome,hg19);使用本專利技術算法對所有729個樣本的177SNP位點進行分型,對于其中某個樣本的每個SNP位點而言:首先建立模型,分別提取兩個等位基因的有效乘數EBD:對于一個群體,第i個個體的參考等位基因與交互等位基因的EBD分別為ri和ai;對三種可能的基因型RR、RA、AA,假設它們在測序中分別有一個固定的突變等位基因出現率,分別為p(RR)、p(RA)和p(AA);理想情況下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假設等位基因頻率服從哈迪-溫伯格平衡,同時有固定的交互等位基因頻率fre,則:f(RR)=(1-fre)2f(RA)=2fre(1-fre)f(AA)=fre2實際樣本由于其基因型未知,認為它是由三種等位基因疊加而成,因此SNP模型具有如下概率模型:為了估計上述概率模型的參數,引物隱變量:w(RR)i、w(RA)i、w(AA)i表述所述個體的三種基因型概率;使用Expectation-Maximization(EM)算法進行最大似然估計,其E步驟和M步驟分別是:E步驟:M步驟:通過EM算法對w(RR)i、w(RA)i、w(AA)i進行參數估計,i代表第i樣本。取w(RR)i、w(RA)i、w(AA)i中最大的基因型作為該樣本的基因型,從而完成對該樣本中特定SNP位點的基因分型。同時,令所選的基因型對應的1-w(geno)i為該基因型的標準質量分數,表征該位點基因分型的準確率,標準質量分數越高,分型準確率越低。對所有729個樣本的所有177個SNP位點,重復上述步驟,從而得到所有基因分型結果與相應的標準質量分數。通過對482個基因型進行Sanger法測序方法進行驗證,證明分型結果正確。本文檔來自技高網...
【技術保護點】
一種單核苷酸多態位點分型算法,其特征在于,所述算法是對樣本的指定SNP位點進行精確分型的算法,其中,通過構建二項分布統計學模型,對SNP位點的等位基因在人群中的分布進行模擬,從而精確的推測出個體的基因分型。
【技術特征摘要】
1.一種單核苷酸多態位點分型算法,其特征在于,所述算法是對樣本的指定SNP位點進行精確分型的算法,其中,通過構建二項分布統計學模型,對SNP位點的等位基因在人群中的分布進行模擬,從而精確的推測出個體的基因分型。2.根據權利要求1所述的算法,其特征在于,其包括步驟:(1)建立模型:給定一個SNP位點,分別提取每個樣本的兩個等位基因的有效乘數EBD:EBD=Σi=1reads(1-10-0.1×base_qualityi)(1-10-0.1×mapping_qualityi)]]>對于一個群體,第i個個體的參考等位基因(referenceallele)與交互等位基因(alternativeallele)的EBD分別為ri和ai;對三種可能的基因型RR、RA、AA,假設它們在測序中分別有一個固定的突變等位基因出現率,分別為p(RR)、p(RA)和p(AA);理想情況下p(RR)接近0,p(RA)接近0.5,p(AA)接近1;假設等位基因頻率服從哈迪-溫伯格平衡,同時有固定的交互等位基因頻率(alternativeallelefrequency)fre,因此:f(RR)=(1-fre)2f(RA)=2fre(1-fre)f(AA)=fre2實際樣本由于其基因型未知,認為它是由三種等位基因疊加而成,因此SNP模型具有如下概率模型:likelihood=const×...
【專利技術屬性】
技術研發人員:金力,李士林,王一,
申請(專利權)人:復旦大學,
類型:發明
國別省市:上海;31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。