System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據庫信息分析,尤其涉及一種基于機器學習算法的dna數據庫檢索方法。
技術介紹
1、目前我國dna數據庫主要以str(short?tandem?repeats,短串聯重復序列)作為遺傳標記,是現代刑偵科學的重要工具。旨在將犯罪現場獲得的生物樣本dna圖譜與數據庫中圖譜的str分型進行比對,找出目標個體,為案件偵破提供線索。目前,我國法醫dna數據庫實現部-省-地市三級網絡架構,規模龐大,為刑事偵查工作提供了強有力的數據支持。隨著dna檢驗技術和信息化技術的不斷進步,dna數據庫的數據量持續增長,對檢索效率帶來挑戰。高效準確的檢索方案成為了當前dna數據庫應用與發展中亟待解決的關鍵問題。犯罪現場的dna圖譜可能是復雜的混合圖譜,包含多個貢獻者的str分型。其檢索策略為:將dna數據庫中的每個個體作為視為潛在貢獻者的候選,并設置一組互斥假設,通過計算兩個假設下的概率比值——似然比(likelihood?ratio,lr),來評估每個候選個體與混合圖譜的關聯性。其中,原告假設為候選個體是該混合圖譜的貢獻者,被告假設為候選個體不是該混合圖譜的貢獻者。當lr大于1時,則支持原告假設,表明該候選個體可能是目標個體。
2、鑒于此策略的科學性與實用性,在現有檢索中,可遍歷數據庫中所有候選個體,計算每個個體在混合圖譜中的lr值,達到排除無關個體,縮小目標篩查范圍的目的,從而提高偵查效率。為實現這一目標,可通過多種優化方法提升檢索速度,例如精簡lr計算所需參數數量,限制參與混合圖譜貢獻者基因型的可能組合范圍,以及采用層級篩
3、綜上所述,提出一種滿足高效、精準篩選需求的dna數據庫檢索方法是十分有必要的。
技術實現思路
1、本專利技術的目的在于提供一種基于機器學習算法的dna數據庫檢索方法,旨在解決現有技術中的面對動輒數百萬乃至超千萬條記錄的龐大數據庫時,其運算速度及避免將無關個體錯誤納入目標范圍的精確度仍面臨挑戰,難以滿足一線偵查工作對于高效、精準篩選的迫切需求的技術問題。
2、為實現上述目的,本專利技術采用的一種基于機器學習算法的dna數據庫檢索方法,包括如下步驟:
3、收集大規模str-dna圖譜數據集信息;其中所述數據集包括單一來源圖譜和混合dna圖譜,每個圖譜包括等位基因數據、峰高數據,所述混合dna圖譜由至少兩名貢獻者的dna共同構成;
4、采用數據集中單一來源圖譜,計算lr先驗參數θ;
5、針對數據集中的每個混合dna圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體;
6、針對數據集中的每個混合dna圖譜,混合dna圖譜由k個已知貢獻者組成,遍歷每個候選個體,設置互斥假設命題hp、hd;計算兩個假設下的概率比值lr,將log10(lr)作為標簽值;
7、其中hp為混合dna圖譜由候選個體和k-1個未知無關個體組成;hd為混合dna圖譜由k個未知無關個體組成;
8、將每個混合dna圖譜與每個候選個體的分型對比,獲取特征值,并對特征值進行歸一化處理;
9、獲得特征與標簽的數據集,將該數據集劃分為訓練數據集與測試數據集;
10、使用回歸模型,利用訓練數據集對回歸模型進行訓練,并在訓練過程中進行超參優化與特征選擇;
11、將測試數據集作為所有訓練好的模型的輸入,獲得所有模型的預測值,并判斷目標模型;
12、獲得來自現場的混合dna圖譜,依次遍歷dna數據庫中每一個候選個體計算每個候選個體對應的特征值,并進行log10(lr)預測,得到目標個體。
13、其中,在針對數據集中的每個混合dna圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,定義如下:
14、候選個體包含:k個已知貢獻者,k個與已知貢獻者的具有親子關系的個體,k個與已知貢獻者的具有全同胞關系的個體,k個無關個體;
15、已知貢獻者分型為g,在位點m上的基因型gm={a1,a2},a1、a2分別表示位點m上的兩個等位基因。
16、其中,在針對數據集中的每個混合dna圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,模擬過程如下:
17、隨機選擇該位點上的一個等位基因a1,從人群頻率數據中隨機選擇該位點上一個等位基因a3,則與該名貢獻者具有親子關系的模擬個體在位點m上的分型為gm_po={a1,a3};
18、獲取該名貢獻者的模擬父gm_f={a1,a3},從人群頻率數據中隨機選擇該位點上一個等位基因a4,則該名貢獻者的模擬母gm_m={a2,a4};從模擬父、模擬母分型中各隨機抽取一個等位基因,構成與該名貢獻者具有全同胞關系的模擬個體在位點m上的分型gm_fs;
19、從人群頻率數據中隨機選擇該位點上兩個等位基因,構成無關個體在位點m上的分型gm_un;
20、遍歷所有位點,得到與該名貢獻者的具有親子關系的模擬個體分型gpo,具有全同胞關系的模擬個體分型gfs,無關模擬個體分型gun。
21、其中,在針對數據集中的每個混合dna圖譜,混合dna圖譜由k個已知貢獻者組成,遍歷每個候選個體,設置互斥假設命題hp、hd的步驟中:
22、計算在兩個假設下的概率比值lr,并將log10(lr)作為標簽值,使用對應先驗參數θ,概率比值lr公式為:
23、
24、其中,在將每個混合dna圖譜與每個候選個體的分型對比,獲取特征值,并對特征值進行歸一化處理的步驟中:
25、特征值包括:混合圖譜等位基因總數、混合圖譜等位基因峰高總和、匹配等位基因總數、等位基因未丟失比例、匹配等位基因峰高最大值、匹配等位基因峰高最小值、匹配等位基因峰高比例、匹配等位基因p值、頻率乘積、峰高期望、峰高變異系數、峰高降解參數。
26、其中,在將測試數據集作為所有訓練好的模型的輸入,獲得所有模型的預測值的步驟中:
27、將預測值和真實值進行對比,判斷擬合效果,根據擬合效果獲取目標模型。
28、其中,在獲得來自現場的混合dna圖譜,依次遍歷dna數據庫中每一個候選個體計算每個候選個體對應的特征值,并進行log10(lr)預測,得到目標個體的步驟中:
29、當預測log10(lr)值>0,則對應候選個體納入目標個體范圍;
30、當預測log10(lr)值<0,則對應候選個體排除出目標個體范圍。
31、本專利技術的一種基于機器學習算法的dna數據庫檢索方法,通本文檔來自技高網...
【技術保護點】
1.一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,包括如下步驟:
2.如權利要求1所述的一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,在針對數據集中的每個混合DNA圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,定義如下:
3.如權利要求2所述的一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,在針對數據集中的每個混合DNA圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,模擬過程如下:
4.如權利要求3所述的一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,在針對數據集中的每個混合DNA圖譜,混合DNA圖譜由K個已知貢獻者組成,遍歷每個候選個體,設置互斥假設命題Hp、Hd的步驟中:
5.如權利要求4所述的一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,在將每個混合DNA圖譜與每個候選個體的分型對比,獲取特征值,并對特征值進行歸一化處理的步驟中:
6.如權利要求5所述的一種基于機器學習算法的DNA數據庫檢
7.如權利要求6所述的一種基于機器學習算法的DNA數據庫檢索方法,其特征在于,在獲得來自現場的混合DNA圖譜,依次遍歷DNA數據庫中每一個候選個體計算每個候選個體對應的特征值,并進行Log10(LR)預測,得到目標個體的步驟中:
...【技術特征摘要】
1.一種基于機器學習算法的dna數據庫檢索方法,其特征在于,包括如下步驟:
2.如權利要求1所述的一種基于機器學習算法的dna數據庫檢索方法,其特征在于,在針對數據集中的每個混合dna圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,定義如下:
3.如權利要求2所述的一種基于機器學習算法的dna數據庫檢索方法,其特征在于,在針對數據集中的每個混合dna圖譜,分別模擬每個已知貢獻者的具有親子關系的個體、有全同胞關系的個體、無關個體的步驟中,模擬過程如下:
4.如權利要求3所述的一種基于機器學習算法的dna數據庫檢索方法,其特征在于,在針對數據集中的每個混合dna圖譜,混合dna圖譜由k...
【專利技術屬性】
技術研發人員:張霽,胡渝涵,朱強,王玉芳,侯婷蕓,王雨婷,
申請(專利權)人:四川大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。