System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及生物技術、生物醫學,特別涉及一種三維rna結構(3d?rna)逆折疊的雙曲離散擴散模型的構建方法和裝置。
技術介紹
1、如今,工程化的功能性核糖核酸(rna)廣泛應用于多種生物醫學領域,包括基于rna的基因編輯、疫苗、治療和合成生物學(cao?等,2024;androsavich,2024)。生成設計算法為設計特定功能的新rna分子提供了獨特的機會,有望充分釋放rna技術在廣泛生物醫學應用中的潛力(metkar,?pepin,and?moore?2024;?zhang?et?al.?2023;?leppek?et?al.2022)。
2、與蛋白質類似,rna的3d結構是其多種功能的必要載體(spitale和incarnato2023)。因此,3d結構反向折疊是功能rna生成式設計的基本任務,其產生的新的一維(1d)rna序列可以精確地折疊成所需的3d結構。直觀地說,三維逆折疊就是三維結構預測的逆過程。然而,在rna的情境中,三維逆折疊面臨獨特的挑戰,主要瓶頸體現在三個方面:(1)高質量的rna三維結構數據匱乏,目前pdb數據庫中記錄的通過實驗確定的高質量rna三維結構少于2000個;(2)逆折疊問題的復雜性:給定的一維序列可以折疊成一個最佳的三維結構,而對于一個給定的三維結構,可能有許多一維序列可以折疊成相同的三維結構骨架。此外,這種“一對多”的設計問題因rna的分級折疊約束而更加復雜;(3)rna三維結構的高效表示學習:一方面,能夠敏感捕捉結構差異的表示學習方法對三維rna逆折疊至關重要,因為rna三維結
3、折疊良好的rna分子通過與其他分子(如小分子化學物質、dna和蛋白質)相互作用表現出廣泛的生物功能,這通常由其三維結構驅動的(corley,?burns,?and?yeo,?2020;spitale?and?incarnato,?2023;?childs-disney?et?al.?2022)。rna三維結構是層次化的幾何結構,包括一維(1d)結構、二級(2d)結構基序以及不同二級基序之間的遠程相互作用。rna一維結構是由4種核苷酸組成的一維序列,這些核苷酸可以根據它們的含氮堿基分類:腺嘌呤(a)、胞嘧啶(c)、鳥嘌呤(g)和尿嘧啶(u)。rna的一維結構首先根據堿基配對規則(a-u,g-c,或g-u)折疊成二級結構,隨后形成復雜的三維結構。然而,堿基對可能在不同的二級結構基序之間形成,這些被稱為假結,并且是功能性rna中常見的三維結構特征,如核酶。假結中的核苷酸在三維空間中是相鄰的,但在一維序列中則相距較遠。因此,對于較長的rna序列,在折疊過程中存在許多可能的局部和遠程堿基對組合,而其中的機械機制尚未被完全理解。因此,層次幾何3d全局和局部特征以及1d和3d視圖中的局部和遠程堿基配對約束必須被共同考慮用于“一對多”3d?rna逆折疊問題的有效樣本表示學習。
4、這種迫切需求促使我們開發了一種高效的3d?rna?逆折疊模型,以推斷給定三維rna?結構骨架的最優一維序列。雖然已有一些方法對逆折疊問題進行了探索,但現有的逆折疊模型存在明顯的局限性:(1)主要采用局部更新的自回歸生成方法,未能全面考慮rna序列設計的整體結構和功能要求。(2)大多數模型只利用局部信息作為特征,忽略了3d空間中的長程相互作用和全局結構的重要性。
5、rna結構預測一直是計算生物學中一個具有挑戰性且不斷發展的領域,通過各種方法的進步取得了顯著的進展。早期的rna二級結構預測方法主要依賴于熱力學模型和動態規劃算法,利用最小自由能來預測rna二級結構。像mfold(zuker2003)、rnafold(hofacker2003;lorenzetal.2011)和rnastructure(reuterandmathews2010)等工具實現了這些方法。在此之后,研究人員開始使用機器學習技術來提高預測精度。contrafold(do,woods,andbatzoglou2006)和contextfold(zakovetal.2011)等工具采用了基于統計模型的方法,從大量實驗數據中學習rna二級結構特征。之后,研究人員開始使用機器學習技術來提高三維結構預測的準確性。像rnamake(yesselman
6、etal.2019)和farfar2(watkins、rangananddas2020)這樣的工具采用了基于統計模型的方法,利用大量實驗數據來學習rna三維結構特征。近年來,深度學習技術也被廣泛應用于rna三維結構預測。rhofold(shenetal.2022)、trrosettarna?(wangetal.2023)和(lietal.2023)等工具使用神經網絡模型直接預測rna的3d結構,采用端到端學習方法學習從一維序列折疊成3d結構的過程。最近,一些研究嘗試解決rna逆折疊任務,部分應對了其挑戰。然而,他們還沒有充分利用全局幾何信息來捕獲3d結構和1d序列之間的復雜關系。
7、rna?逆折疊是功能性rna生成設計的一個重要任務,它為各種基于rna的生物技術和生物醫學應用帶來了革命性的機會。具體來說,rna逆折疊是指生成能夠折疊成目標拓撲結構的新rna序列。然而,現有的rna逆折疊算法主要是為二級結構設計而開發的。在三維(3d)rna設計中,rna逆折疊仍然面臨巨大挑戰,這是由于實驗衍生的3d結構數據有限以及rna?3d結構的獨特特性所致。
8、因此,本領域急需開發一種3d?rna?逆折疊的雙曲離散擴散模型的構建方法和裝置,通過將rna三維結構豐富的幾何特征和其他拓撲性質嵌入到雙曲空間中,利用離散擴散模型以推斷給定三維rna結構骨架的最優一維序列。
技術實現思路
1、本申請的目的在于提供一種三維rna結構逆折疊的雙曲離散擴散模型的構建方法和裝置,通過將rna三維結構豐富的幾何特征和其他拓撲性質嵌入到雙曲空間中,利用離散擴散模型以推斷給定三維rna結構骨架的最優一維序列。
2、本申請的第一方面提供了一種三維rna結構逆折疊的雙曲離散擴散模型的構建方法,包括以下步驟:
3、(a)獲取rna的三維結構以及其真實一維序列,通過圖結構抽象表示所述rna三維結構,所述圖結構包括所述rna三維結構的節點特征和邊特征;
4、(b)對所述rna三維結構的真實一維序列進行正向擴散過程,在所述正向擴散過程中,將噪音迭代地添加到所述rna三維結構的真實一維序列中,直到所述真實一維序列的核苷酸序列augc的概率分布被均勻化,輸出具有均勻概率分布的噪聲核苷酸序列,其中在每個時間步下添加噪音時,計算出每個時間步下的轉移概率;
5、(c)從所述噪聲核苷酸序列隨機采樣,得到隨機噪聲核苷酸序列;
6、(d)將所述rna三維結構的邊特征輸入至多本文檔來自技高網...
【技術保護點】
1.一種三維RNA結構逆折疊的雙曲離散擴散模型的構建方法,其特征在于,包括以下步驟:
2.如權利要求1所述的方法,其特征在于,在步驟(a)中還包括提取RNA三維結構的RNA三維骨架結構,所述RNA三維骨架結構包括RNA骨架原子,所述RNA骨架原子包括每個核苷酸內的三個原子,每個核苷酸由所述三個原子表示:P、C4’、和N1或N9,其中核苷酸為A或G時第三個骨架原子為N1位置的原子,當核苷酸為C或U時第三個骨架原子為N9位置的原子,通過所述三個骨架原子以及他們的關系來構建節點特征和邊特征,核苷酸節點被表述為C4’原子,邊由K鄰近圖確定。
3.如權利要求2所述的方法,其特征在于,所述RNA三維骨架的節點特征包括核苷酸類型、理化性質、以及局部環境信息、以及核苷酸節點的位置,所述核苷酸節點的位置為所述核苷酸節點的三維坐標。
4.如權利要求1所述的方法,其特征在于,在所述步驟(f)中,對所述組合節點特征的雙曲嵌入進行更新,獲得更新的組合節點特征的雙曲嵌入,并將所述更新的組合節點特征的雙曲嵌入映射成更新的組合節點特征的歐幾里得編碼,基于所述更新的組合節點特征
5.如權利要求1所述的方法,其特征在于,在步驟(f)中,在所述雙曲等變圖神經網絡模型訓練過程中,包括對輸入的所述邊嵌入進行更新的子步驟(f1):
6.如權利要求5所述的方法,其特征在于,所述組合節點特征包括所述RNA三維骨架的節點特征中的核苷酸節點的位置;
7.一種基于給定RNA三維結構預測RNA一維序列的方法,其特征在于,包括以下步驟:
8.一種基于雙曲離散擴散模型預測RNA一維序列的裝置,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機可執行指令,所述計算機可執行指令被處理器執行時實現如權利要求7所述的方法中的步驟。
10.一種計算機程序產品,包括計算機可執行指令,其特征在于,該計算機可執行指令被處理器執行時實現權利要求7所述方法中的步驟。
...【技術特征摘要】
1.一種三維rna結構逆折疊的雙曲離散擴散模型的構建方法,其特征在于,包括以下步驟:
2.如權利要求1所述的方法,其特征在于,在步驟(a)中還包括提取rna三維結構的rna三維骨架結構,所述rna三維骨架結構包括rna骨架原子,所述rna骨架原子包括每個核苷酸內的三個原子,每個核苷酸由所述三個原子表示:p、c4’、和n1或n9,其中核苷酸為a或g時第三個骨架原子為n1位置的原子,當核苷酸為c或u時第三個骨架原子為n9位置的原子,通過所述三個骨架原子以及他們的關系來構建節點特征和邊特征,核苷酸節點被表述為c4’原子,邊由k鄰近圖確定。
3.如權利要求2所述的方法,其特征在于,所述rna三維骨架的節點特征包括核苷酸類型、理化性質、以及局部環境信息、以及核苷酸節點的位置,所述核苷酸節點的位置為所述核苷酸節點的三維坐標。
4.如權利要求1所述的方法,其特征在于,在所述步驟(f)中,對所述組合節點特征的雙曲嵌入進行更新,獲得更新的組合節點特征的雙曲嵌入,并將所述更新的組...
【專利技術屬性】
技術研發人員:趙薈,張帥,
申請(專利權)人:上海元碼智藥生物技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。