當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>山東大學(xué)專(zhuān)利>正文

基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：43449531 閱讀：6 留言：0更新日期：2024-11-27 12:52

本發(fā)明專(zhuān)利技術(shù)涉及蛋白質(zhì)序列聚類(lèi)技術(shù)領(lǐng)域，公開(kāi)了基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)；方法包括：對(duì)第i個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割，得到若干個(gè)蛋白質(zhì)子序列，對(duì)每個(gè)蛋白質(zhì)子序列，均采用第j種哈希函數(shù)進(jìn)行哈希映射，得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值；選擇哈希值中的最小值，作為MinHash值；得到序列在M種哈希函數(shù)下的MinHash值；進(jìn)而得到N個(gè)待聚類(lèi)的蛋白質(zhì)序列在M種哈希函數(shù)下的MinHash值；在每一種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值，將值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中；對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)得到聚類(lèi)結(jié)果。在降低計(jì)算復(fù)雜度的同時(shí)，保持聚類(lèi)結(jié)果的準(zhǔn)確性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)涉及蛋白質(zhì)序列聚類(lèi)，特別是涉及基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)。

技術(shù)介紹

1、蛋白質(zhì)聚類(lèi)是生物信息學(xué)中的一種技術(shù)，用于根據(jù)蛋白質(zhì)序列或結(jié)構(gòu)的相似性對(duì)蛋白質(zhì)進(jìn)行分組。通過(guò)聚類(lèi)，研究人員可以識(shí)別出具有相似功能或進(jìn)化關(guān)系的蛋白質(zhì)家族，這可以幫助研究人員推斷未知蛋白質(zhì)的功能；聚類(lèi)還有助于識(shí)別在進(jìn)化上保守的蛋白質(zhì)家族，幫助理解生物的進(jìn)化過(guò)程；不僅如此，蛋白質(zhì)聚類(lèi)能夠有效減少在下游分析中需要處理的序列數(shù)量，減少數(shù)據(jù)冗余，降低計(jì)算和存儲(chǔ)的成本，有助于提高生物信息的分析效率。

2、然而隨著高通量測(cè)序技術(shù)的發(fā)展，蛋白質(zhì)序列數(shù)據(jù)的規(guī)模呈爆炸性增長(zhǎng)，這對(duì)蛋白質(zhì)序列的聚類(lèi)工作帶來(lái)了很多方面的影響。

3、首先大規(guī)模的蛋白質(zhì)序列數(shù)量會(huì)造成聚類(lèi)算法的耗時(shí)增加，尤其是面對(duì)數(shù)百萬(wàn)甚至數(shù)億條序列數(shù)據(jù)時(shí)，計(jì)算的復(fù)雜度會(huì)有顯著增加。以傳統(tǒng)的貪心增量聚類(lèi)方法為例，這種方法將輸入序列與已經(jīng)建立的聚類(lèi)的代表序列進(jìn)行比較。當(dāng)序列與某個(gè)聚類(lèi)的代表序列滿(mǎn)足相似性標(biāo)準(zhǔn)時(shí)，將該序列加入到該聚類(lèi)中；否則，該序列就成為新的聚類(lèi)代表。由于每個(gè)序列都要與聚類(lèi)代表做比較，時(shí)間復(fù)雜度是，其中，是最終的聚類(lèi)數(shù)，是序列長(zhǎng)度。在蛋白質(zhì)序列聚類(lèi)中，通常與大小相近，因此隨著輸入序列的增加，總運(yùn)行時(shí)間幾乎呈二次方隨增加。

4、其次，這會(huì)造成對(duì)計(jì)算資源需求的增加。在處理聚類(lèi)任務(wù)前需要將大量的序列加載到內(nèi)存中以進(jìn)行快速的比較和聚類(lèi)，數(shù)據(jù)規(guī)模越大，內(nèi)存的消耗也越多，會(huì)造成訪問(wèn)和處理序列的時(shí)間增加。而且由于大規(guī)模序列數(shù)據(jù)需要更長(zhǎng)的計(jì)算時(shí)間，這使聚類(lèi)需要更強(qiáng)大的計(jì)算資

5、因此，面對(duì)這些挑戰(zhàn)，需要本專(zhuān)利技術(shù)設(shè)計(jì)更高效的聚類(lèi)算法在提升聚類(lèi)速度的同時(shí)，盡量減少資源消耗，使蛋白質(zhì)序列數(shù)據(jù)的聚類(lèi)能更好地適應(yīng)大規(guī)模數(shù)據(jù)集的需求，為生物信息學(xué)研究提供更有力的支持。

技術(shù)實(shí)現(xiàn)思路

1、隨著蛋白質(zhì)序列數(shù)量的急劇增加，傳統(tǒng)的聚類(lèi)算法因計(jì)算復(fù)雜度過(guò)高，尤其在處理數(shù)十億條序列時(shí)，效率顯著下降。為解決這一問(wèn)題，本專(zhuān)利技術(shù)設(shè)計(jì)了基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)，旨在降低計(jì)算復(fù)雜度的同時(shí)，保持聚類(lèi)結(jié)果的準(zhǔn)確性。該算法在優(yōu)化計(jì)算資源使用的基礎(chǔ)上，能夠有效應(yīng)對(duì)大規(guī)模數(shù)據(jù)集的聚類(lèi)需求。

2、一方面，提供了基于分組的蛋白質(zhì)序列聚類(lèi)方法，包括：（1）獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列；對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割，得到若干個(gè)蛋白質(zhì)子序列，將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。

3、（2）對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列，均采用第種哈希函數(shù)進(jìn)行哈希映射，得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值；選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值，作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。

4、（3）一共有m種哈希函數(shù)，則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值；進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。

5、（4）在第種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值，將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中；結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果，對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作，得到j(luò)種哈希函數(shù)下的分組結(jié)果。

6、（5）對(duì)m種哈希函數(shù)，重復(fù)（4）的過(guò)程，得到最終的分組結(jié)果。

7、（6）針對(duì)最終的分組結(jié)果，對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)，得到聚類(lèi)結(jié)果。

8、另一方面，提供了基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng)，包括：獲取模塊，其被配置為：獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列；對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割，得到若干個(gè)蛋白質(zhì)子序列，將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。

9、映射模塊，其被配置為：對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列，均采用第種哈希函數(shù)進(jìn)行哈希映射，得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值；選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值，作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。

10、第一判斷模塊，其被配置為：一共有m種哈希函數(shù)，則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值；進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。

11、遍歷模塊，其被配置為：在第種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值，將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中；結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果，對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作，得到j(luò)種哈希函數(shù)下的分組結(jié)果。

12、重復(fù)模塊，其被配置為：對(duì)m種哈希函數(shù)，重復(fù)遍歷模塊的過(guò)程，得到最終的分組結(jié)果。

13、聚類(lèi)模塊，其被配置為：針對(duì)最終的分組結(jié)果，對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)，得到聚類(lèi)結(jié)果。

14、上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果：本專(zhuān)利所設(shè)計(jì)的大規(guī)模蛋白質(zhì)聚類(lèi)算法，在面向大規(guī)模蛋白質(zhì)序列的聚類(lèi)時(shí)，解決了傳統(tǒng)算法的擴(kuò)展性問(wèn)題，顯著降低了計(jì)算復(fù)雜度，且相對(duì)于傳統(tǒng)的高精度聚類(lèi)方法不會(huì)有精度損失；相對(duì)于面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法，本專(zhuān)利能夠有效解決其精度損失，提升聚類(lèi)的敏感性。

15、具體來(lái)說(shuō)，傳統(tǒng)的經(jīng)典聚類(lèi)方法比如層次聚類(lèi)，其序列比對(duì)的時(shí)間復(fù)雜度為，而本專(zhuān)利提出的算法的時(shí)間復(fù)雜度為,其中為組數(shù)。在實(shí)際應(yīng)用當(dāng)中，可以固定為10左右的常數(shù)，的大小接近于。本專(zhuān)利所設(shè)計(jì)聚類(lèi)方法的時(shí)間復(fù)雜度可以近似為，在序列較多的情況下，明顯小于傳統(tǒng)算法的復(fù)雜度。得益于復(fù)雜度的降低，在實(shí)際測(cè)試中，基于本專(zhuān)利算法所實(shí)現(xiàn)的軟件，其效率顯著高于基于傳統(tǒng)算法的蛋白質(zhì)序列聚類(lèi)軟件。

16、現(xiàn)在面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法如linclust，其采用的分組方案沒(méi)有嚴(yán)格意義上的數(shù)學(xué)保證，有較大概率產(chǎn)生假陰性。按照本專(zhuān)利技術(shù)的分組方法，具有一定相似度的兩條序列，發(fā)生假陰性的概率為。例如兩條相似度為90%的序列，在為10的情況下，發(fā)生假陰性的概率為。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，包括：

2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，（3）中，一共有M種哈希函數(shù)，則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在M種哈希函數(shù)下的MinHash值，之前還包括：

3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，所述在第種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值，將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后，所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)，得到聚類(lèi)結(jié)果之前，還包括：

4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，獲取N個(gè)待聚類(lèi)的蛋白質(zhì)序列，所述待聚類(lèi)的蛋白質(zhì)序列，包括：蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列；所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào)；

5.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列，均采用第種哈希函數(shù)進(jìn)行哈希映射，得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值；所述哈希函數(shù)，是指：整數(shù)哈希函數(shù)和通用哈希函數(shù)；其中，通用哈希函數(shù)使用

6.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中，包括：

7.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，在第種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值，將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中，這個(gè)過(guò)程被稱(chēng)為一個(gè)輪次，之后，還包括：每個(gè)輪次遍歷結(jié)束后，通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并，得到分組結(jié)果。

8.如權(quán)利要求7所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，所述通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并，具體包括：

9.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)，得到聚類(lèi)結(jié)果，具體包括：

10.基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng)，其特征是，包括：

...

【技術(shù)特征摘要】

1.基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，包括：

2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，（3）中，一共有m種哈希函數(shù)，則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值，之前還包括：

3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，所述在第種哈希函數(shù)下，遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值，將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后，所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)，得到聚類(lèi)結(jié)果之前，還包括：

4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法，其特征是，獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列，所述待聚類(lèi)的蛋白質(zhì)序列，包括：蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列；所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào)；

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：殷澤坤，楊陽(yáng)，閆立峰，張桐，劉衛(wèi)國(guó)，
申請(qǐng)(專(zhuān)利權(quán))人：山東大學(xué)，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)