System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及蛋白質(zhì)序列聚類(lèi),特別是涉及基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)。
技術(shù)介紹
1、蛋白質(zhì)聚類(lèi)是生物信息學(xué)中的一種技術(shù),用于根據(jù)蛋白質(zhì)序列或結(jié)構(gòu)的相似性對(duì)蛋白質(zhì)進(jìn)行分組。通過(guò)聚類(lèi),研究人員可以識(shí)別出具有相似功能或進(jìn)化關(guān)系的蛋白質(zhì)家族,這可以幫助研究人員推斷未知蛋白質(zhì)的功能;聚類(lèi)還有助于識(shí)別在進(jìn)化上保守的蛋白質(zhì)家族,幫助理解生物的進(jìn)化過(guò)程;不僅如此,蛋白質(zhì)聚類(lèi)能夠有效減少在下游分析中需要處理的序列數(shù)量,減少數(shù)據(jù)冗余,降低計(jì)算和存儲(chǔ)的成本,有助于提高生物信息的分析效率。
2、然而隨著高通量測(cè)序技術(shù)的發(fā)展,蛋白質(zhì)序列數(shù)據(jù)的規(guī)模呈爆炸性增長(zhǎng),這對(duì)蛋白質(zhì)序列的聚類(lèi)工作帶來(lái)了很多方面的影響。
3、首先大規(guī)模的蛋白質(zhì)序列數(shù)量會(huì)造成聚類(lèi)算法的耗時(shí)增加,尤其是面對(duì)數(shù)百萬(wàn)甚至數(shù)億條序列數(shù)據(jù)時(shí),計(jì)算的復(fù)雜度會(huì)有顯著增加。以傳統(tǒng)的貪心增量聚類(lèi)方法為例,這種方法將輸入序列與已經(jīng)建立的聚類(lèi)的代表序列進(jìn)行比較。當(dāng)序列與某個(gè)聚類(lèi)的代表序列滿(mǎn)足相似性標(biāo)準(zhǔn)時(shí),將該序列加入到該聚類(lèi)中;否則,該序列就成為新的聚類(lèi)代表。由于每個(gè)序列都要與聚類(lèi)代表做比較,時(shí)間復(fù)雜度是,其中,是最終的聚類(lèi)數(shù),是序列長(zhǎng)度。在蛋白質(zhì)序列聚類(lèi)中,通常與大小相近,因此隨著輸入序列的增加,總運(yùn)行時(shí)間幾乎呈二次方隨增加。
4、其次,這會(huì)造成對(duì)計(jì)算資源需求的增加。在處理聚類(lèi)任務(wù)前需要將大量的序列加載到內(nèi)存中以進(jìn)行快速的比較和聚類(lèi),數(shù)據(jù)規(guī)模越大,內(nèi)存的消耗也越多,會(huì)造成訪問(wèn)和處理序列的時(shí)間增加。而且由于大規(guī)模序列數(shù)據(jù)需要更長(zhǎng)的計(jì)算時(shí)間,這使聚類(lèi)需要更強(qiáng)大的計(jì)算資
5、因此,面對(duì)這些挑戰(zhàn),需要本專(zhuān)利技術(shù)設(shè)計(jì)更高效的聚類(lèi)算法在提升聚類(lèi)速度的同時(shí),盡量減少資源消耗,使蛋白質(zhì)序列數(shù)據(jù)的聚類(lèi)能更好地適應(yīng)大規(guī)模數(shù)據(jù)集的需求,為生物信息學(xué)研究提供更有力的支持。
技術(shù)實(shí)現(xiàn)思路
1、隨著蛋白質(zhì)序列數(shù)量的急劇增加,傳統(tǒng)的聚類(lèi)算法因計(jì)算復(fù)雜度過(guò)高,尤其在處理數(shù)十億條序列時(shí),效率顯著下降。為解決這一問(wèn)題,本專(zhuān)利技術(shù)設(shè)計(jì)了基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng),旨在降低計(jì)算復(fù)雜度的同時(shí),保持聚類(lèi)結(jié)果的準(zhǔn)確性。該算法在優(yōu)化計(jì)算資源使用的基礎(chǔ)上,能夠有效應(yīng)對(duì)大規(guī)模數(shù)據(jù)集的聚類(lèi)需求。
2、一方面,提供了基于分組的蛋白質(zhì)序列聚類(lèi)方法,包括:(1)獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列;對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割,得到若干個(gè)蛋白質(zhì)子序列,將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。
3、(2)對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值,作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。
4、(3)一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值;進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。
5、(4)在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中;結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果,對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作,得到j(luò)種哈希函數(shù)下的分組結(jié)果。
6、(5)對(duì)m種哈希函數(shù),重復(fù)(4)的過(guò)程,得到最終的分組結(jié)果。
7、(6)針對(duì)最終的分組結(jié)果,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果。
8、另一方面,提供了基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng),包括:獲取模塊,其被配置為:獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列;對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割,得到若干個(gè)蛋白質(zhì)子序列,將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。
9、映射模塊,其被配置為:對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值,作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。
10、第一判斷模塊,其被配置為:一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值;進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。
11、遍歷模塊,其被配置為:在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中;結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果,對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作,得到j(luò)種哈希函數(shù)下的分組結(jié)果。
12、重復(fù)模塊,其被配置為:對(duì)m種哈希函數(shù),重復(fù)遍歷模塊的過(guò)程,得到最終的分組結(jié)果。
13、聚類(lèi)模塊,其被配置為:針對(duì)最終的分組結(jié)果,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果。
14、上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:本專(zhuān)利所設(shè)計(jì)的大規(guī)模蛋白質(zhì)聚類(lèi)算法,在面向大規(guī)模蛋白質(zhì)序列的聚類(lèi)時(shí),解決了傳統(tǒng)算法的擴(kuò)展性問(wèn)題,顯著降低了計(jì)算復(fù)雜度,且相對(duì)于傳統(tǒng)的高精度聚類(lèi)方法不會(huì)有精度損失;相對(duì)于面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法,本專(zhuān)利能夠有效解決其精度損失,提升聚類(lèi)的敏感性。
15、具體來(lái)說(shuō),傳統(tǒng)的經(jīng)典聚類(lèi)方法比如層次聚類(lèi),其序列比對(duì)的時(shí)間復(fù)雜度為,而本專(zhuān)利提出的算法的時(shí)間復(fù)雜度為,其中為組數(shù)。在實(shí)際應(yīng)用當(dāng)中,可以固定為10左右的常數(shù),的大小接近于。本專(zhuān)利所設(shè)計(jì)聚類(lèi)方法的時(shí)間復(fù)雜度可以近似為,在序列較多的情況下,明顯小于傳統(tǒng)算法的復(fù)雜度。得益于復(fù)雜度的降低,在實(shí)際測(cè)試中,基于本專(zhuān)利算法所實(shí)現(xiàn)的軟件,其效率顯著高于基于傳統(tǒng)算法的蛋白質(zhì)序列聚類(lèi)軟件。
16、現(xiàn)在面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法如linclust,其采用的分組方案沒(méi)有嚴(yán)格意義上的數(shù)學(xué)保證,有較大概率產(chǎn)生假陰性。按照本專(zhuān)利技術(shù)的分組方法,具有一定相似度的兩條序列,發(fā)生假陰性的概率為。例如兩條相似度為90%的序列,在為10的情況下,發(fā)生假陰性的概率為。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,包括:
2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,(3)中,一共有M種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在M種哈希函數(shù)下的MinHash值,之前還包括:
3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后,所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果之前,還包括:
4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,獲取N個(gè)待聚類(lèi)的蛋白質(zhì)序列,所述待聚類(lèi)的蛋白質(zhì)序列,包括:蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列;所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào);
5.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;所述哈希函數(shù),是指:整數(shù)哈希函數(shù)和通用哈希函數(shù);其中,通用哈希函數(shù)使用
6.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中,包括:
7.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中,這個(gè)過(guò)程被稱(chēng)為一個(gè)輪次,之后,還包括:每個(gè)輪次遍歷結(jié)束后,通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并,得到分組結(jié)果。
8.如權(quán)利要求7所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并,具體包括:
9.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果,具體包括:
10.基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng),其特征是,包括:
...【技術(shù)特征摘要】
1.基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,包括:
2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,(3)中,一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值,之前還包括:
3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后,所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果之前,還包括:
4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列,所述待聚類(lèi)的蛋白質(zhì)序列,包括:蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列;所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào);
5.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;所述哈希函數(shù),是指:整數(shù)哈希函數(shù)和通用哈...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:殷澤坤,楊陽(yáng),閆立峰,張桐,劉衛(wèi)國(guó),
申請(qǐng)(專(zhuān)利權(quán))人:山東大學(xué),
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。