System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于生物信息分析領(lǐng)域,特別是涉及分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法和裝置。
技術(shù)介紹
1、近年來,單細胞和空間轉(zhuǎn)錄組技術(shù)徹底改變了生物學研究領(lǐng)域。高通量單細胞轉(zhuǎn)錄組測序可以對幾千至上萬個細胞(細胞懸液或組織解離成單個細胞的狀態(tài))進行標記后同時進行轉(zhuǎn)錄組建庫和測序,得到組織內(nèi)或細胞群內(nèi)各個細胞的轉(zhuǎn)錄組數(shù)據(jù)。而空間轉(zhuǎn)錄組技術(shù)可以在單細胞(或接近于單個細胞)分辨率下,除得到特定組織單個細胞(或單位空間內(nèi))轉(zhuǎn)錄組數(shù)據(jù),還可結(jié)合空間標簽和成像技術(shù),在單細胞和空間水平上分析基因表達和細胞群體異質(zhì)性。在人體器官中,微生物與宿主細胞一起或在宿主細胞附近生活,宏基因組測序長期以來一直用于研究宿主體內(nèi)不同部位的復雜微生物組成。這些微生物組研究極大地提高了我們對人類生物學的理解,但這些研究通常缺乏在單細胞和空間水平上的分辨率。
2、目前,多項研究嘗試從單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中挖掘微生物序列來解決這一限制,例如,通過物種注釋分類工具,如kraken2,分析測序數(shù)據(jù),區(qū)分宿主序列和宏基因組序列,之后根據(jù)在細胞間,樣本間出現(xiàn)的頻率以及無菌細胞系中的微生物豐度數(shù)據(jù)作為陰性對照,實現(xiàn)控制污染排除噪音。另一種分析思路是利用常規(guī)的單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)比對工具,如star和cell?ranger,首先去除比對到宿主基因組的序列后,利用未比對到宿主基因組的序列,進行微生物序列的鑒定。最后,則是回歸常規(guī)的單細胞分析思路,將微生物序列根據(jù)barcode定位到細胞/空間,分析微生物種類及豐度與組織樣本,細胞類型及基因表達的相關(guān)性,進而探究微
3、另外,對于利用基于k-mer的工具對測序數(shù)據(jù)進行物種分類注釋,以區(qū)分宿主序列和宏基因組序列的常規(guī)做法,部分研究由于在數(shù)據(jù)處理之前未進行嚴格的數(shù)據(jù)質(zhì)控,未將宿主基因組納入到用于分類注釋的參考基因組庫中,或質(zhì)控后序列過短產(chǎn)生的比對錯誤,以及對于和宿主基因組序列高度相似的序列無法有效區(qū)分等原因,導致假陽性結(jié)果,將以百萬計的序列錯認為是微生物序列,大大高估微生物的豐度,從而錯估微生物與細胞及疾病之間的聯(lián)系。而將單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)比對到宿主基因組的序列后,利用未比對到宿主基因組的序列進行微生物序列的鑒定的做法中,未比對到宿主基因組的序列部分也被證實是宿主中與微生物有一定相似度的序列,從而導致對微生物組,特別是病原微生物的錯誤檢出問題。
4、因此,目前亟需一種更準確地分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法和裝置。
技術(shù)實現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)中的至少部分技術(shù)問題,本專利技術(shù)提供一種利用多層次序列比對,實際和理論覆蓋度對比,數(shù)據(jù)庫注釋等方式進行單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組分析的方法和裝置,從而實現(xiàn)更精準的微生物鑒定。具體地,本專利技術(shù)包括以下內(nèi)容。
2、本專利技術(shù)的第一方面,提供分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其包括:
3、(1)利用物種分類單元標識符構(gòu)建比對分析數(shù)據(jù)庫,并構(gòu)建數(shù)據(jù)庫索引,所述比對分析數(shù)據(jù)庫包括多樣性人群序列數(shù)據(jù)庫和多樣性微生物序列數(shù)據(jù)庫;
4、(2)獲取人體微生物參考數(shù)據(jù)和陰性對照數(shù)據(jù);
5、(3)對單細胞轉(zhuǎn)錄組以及空間轉(zhuǎn)錄組測序數(shù)據(jù)進行質(zhì)量控制,得到質(zhì)控后的測序讀段;
6、(4)將所述質(zhì)控后的測序讀段與人類基因組參考序列進行第一比對,將未比對上人類基因組參考序列的測序讀段與所述多樣性人群序列數(shù)據(jù)庫進行第二比對并設置比對覆蓋率和比對相似性參數(shù)的第一閾值,將兩次均未比對上人類序列的測序讀段與所述多樣性微生物序列數(shù)據(jù)庫進行第三比對并設置比對覆蓋率和比對相似性參數(shù)的第二閾值,得到比對后的微生物序列讀段,其中,所述第一閾值小于所述第二閾值;
7、(5)通過微生物實際覆蓋度與理論覆蓋度的比率判斷微生物的覆蓋度是否合理;和
8、(6)根據(jù)所述人體微生物參考數(shù)據(jù)和陰性對照數(shù)據(jù),對鑒定到的微生物物種進行溯源判斷并標注人體或環(huán)境微生物結(jié)果。
9、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其進一步包括生成報告和矩陣的步驟,所述報告包括人源序列和微生物序列的數(shù)量、微生物的屬種數(shù)目和注釋情況,所述矩陣包括微生物的編碼和細胞/空間的編碼,從而將微生物序列定位至細胞或空間。
10、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其中,所述人體微生物參考數(shù)據(jù)包括人體部位的微生物數(shù)據(jù),所述陰性對照數(shù)據(jù)包括來源于世界各地的人細胞系無菌rna測序數(shù)據(jù)的微生物組譜數(shù)據(jù)。
11、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其中,所述質(zhì)量控制包括去除測序接頭、低質(zhì)量序列和質(zhì)控后長度小于60的序列讀段。
12、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其中,所述第一閾值不小于50%,所述第二閾值不小于80%。
13、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其中,所述步驟(4)進一步包括對所述比對后的微生物序列讀段進行注釋的步驟。
14、在某些實施方案中,根據(jù)本專利技術(shù)所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其中,所述判斷微生物的覆蓋度是否合理包括:將所述微生物序列讀段結(jié)合組裝信息,并比對至對應微生物的完整基因組,得到實際覆蓋度,利用工具隨機生成與所述微生物序列讀段具有相同數(shù)量和長度的讀段,計算理論覆蓋度,計算實際覆蓋度與理論覆蓋度的比率;
15、(i)如果所述比率達到30%及以上,則判定該微生物的覆蓋度合理,為真實檢測到微生物目標;
16、(ii)如果所述比率為10%及以下,則判定該微生物的覆蓋度不合理,判定為錯誤比對獲得的假微生物目標;
17、(iii)如果所述比率為10%-30%,則定義為灰區(qū),則進一步通過實驗驗證該微生物的真假。
18、本專利技術(shù)的第二方面,提供分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的裝置,其包括:
19、數(shù)據(jù)庫構(gòu)建單元,其利用物種分類單元標識符構(gòu)建比對分析數(shù)據(jù)庫,并構(gòu)建數(shù)據(jù)庫索引,所述比對分析數(shù)據(jù)庫包括多樣性人群序列數(shù)據(jù)庫和多樣性微生物序列數(shù)據(jù)庫;
20、數(shù)據(jù)獲取單元,其用于獲取人體微生物參考數(shù)據(jù)和陰性對照數(shù)據(jù);
21、數(shù)據(jù)質(zhì)量控制單元,其用于對單細胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組測序數(shù)據(jù)進行質(zhì)量控制,得到質(zhì)控后的測序讀段;
22、數(shù)據(jù)比對分析單元,其用于將所述質(zhì)控后的測序讀段與人類基因組參考序列進行第一比對,將未比對上人類基因組參考序列的測序讀段與所述多樣性人群序列數(shù)據(jù)庫進行第二比對本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,其包括:
2.根據(jù)權(quán)利要求1所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,進一步包括生成報告和矩陣的步驟,所述報告包括人源序列和微生物序列的數(shù)量、微生物的屬種數(shù)目和注釋情況,所述矩陣包括微生物的編碼和細胞/空間的編碼,從而將微生物序列定位至細胞或空間。
3.根據(jù)權(quán)利要求2所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述人體微生物參考數(shù)據(jù)包括人體部位的微生物數(shù)據(jù),所述陰性對照數(shù)據(jù)包括人細胞系無菌RNA測序數(shù)據(jù)的微生物組譜數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述質(zhì)量控制包括去除測序接頭、低質(zhì)量序列和質(zhì)控后長度小于60的序列讀段。
5.根據(jù)權(quán)利要求4所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述第一閾值不小于50%,所述第二閾值不小于80%。
6.根據(jù)權(quán)利要求5所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述步驟(4)進一步包括對所述
7.根據(jù)權(quán)利要求6所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述判斷微生物的覆蓋度是否合理包括:將所述微生物序列讀段結(jié)合組裝信息,并比對至對應微生物的完整基因組,得到實際覆蓋度,利用工具隨機生成與所述微生物序列讀段具有相同數(shù)量和長度的讀段,計算理論覆蓋度,計算實際覆蓋度與理論覆蓋度的比率;
8.分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的裝置,其特征在于,包括:
9.計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7任一項所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法的步驟。
10.電子設備,其特征在于,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至7任一項所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法的步驟。
...【技術(shù)特征摘要】
1.分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,其包括:
2.根據(jù)權(quán)利要求1所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,進一步包括生成報告和矩陣的步驟,所述報告包括人源序列和微生物序列的數(shù)量、微生物的屬種數(shù)目和注釋情況,所述矩陣包括微生物的編碼和細胞/空間的編碼,從而將微生物序列定位至細胞或空間。
3.根據(jù)權(quán)利要求2所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述人體微生物參考數(shù)據(jù)包括人體部位的微生物數(shù)據(jù),所述陰性對照數(shù)據(jù)包括人細胞系無菌rna測序數(shù)據(jù)的微生物組譜數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述質(zhì)量控制包括去除測序接頭、低質(zhì)量序列和質(zhì)控后長度小于60的序列讀段。
5.根據(jù)權(quán)利要求4所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏基因組的方法,其特征在于,所述第一閾值不小于50%,所述第二閾值不小于80%。
6.根據(jù)權(quán)利要求5所述的分析單細胞和空間轉(zhuǎn)錄組數(shù)據(jù)中的宏...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:吳嚴嚴,王偉偉,張利利,劉星宇,
申請(專利權(quán))人:元碼基因科技北京股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。