System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于基因治療領域,具體涉及一種aav2衣殼蛋白變體設計方法、系統和存儲介質。
技術介紹
1、基因治療作為一種革命性治療方法,近年來已在惡性腫瘤、遺傳性疾病等多種疾病治療中顯示出巨大潛力。基因治療的關鍵步驟是需要設計和構建基因載體,用于將目標基因安全有效地遞送到宿主細胞中,確保基因在細胞內正確表達,發揮治療作用。腺相關病毒(adeno-associated?virus,aav)是目前發現結構最簡單的、無包膜的單鏈dna病毒,病毒基因組長約有4.7kb,屬于細小病毒家族。由于aav具有非致病性和廣泛宿主范圍,不會引起人體的強免疫反應等特點,現已成為基因治療領域最重要的基因載體之一。aav2衣殼是第一個獲得美國食品和藥物管理局批準用于人類的基因療法的組成部分。
2、基因載體的關鍵要求是能夠抵御人類免疫防護機制。而天然aav存在一些缺點,許多人類血清都對該病毒具有中和能力,能夠阻止病毒進一步感染宿主細胞的結合,導致載體無法成功將藥物或目的基因遞送至指定位置而使得治療失敗,給基因治療帶來了挑戰。為了克服這一問題,需要設計新的多樣化的aav變體,能在一定程度上緩解產生自然免疫的問題,對于基因治療有重要意義。目前大部分變體設計關注點在于aav2衣殼蛋白vp3中561-588的氨基酸位點。具體的天然野生型的衣殼蛋白序列為:deeeirttnpvateqygsvstnlqrgnr(seq?id?no.1),該區域位于aav2?vp1蛋白的三重對稱軸附近,包括埋藏區域、表面區域和界面區域,并與已知的肝素和抗體結合位點重疊。然而
3、隨著人工智能技術地不斷發展,基于數據驅動的機器學習蛋白質工程化設計方法開始崛起。數據驅動的機器學習在蛋白質工程化設計中的應用,不僅提高了設計的效率,也為生物醫學研究開辟了新的可能性。文章“bryant,d.h.,bashir,a.,sinai,s.et?al.deepdiversification?of?an?aav?capsid?protein?by?machine?learning.nat?biotechnol39,691–696(2021).”中利用大量aav2衣殼蛋白數據通過監督學習的機器學習方法來訓練分類模型,用于預測衣殼蛋白序列變體是否具有活性,其中包括邏輯回歸模型(lr)、卷積神經網絡(cnn)、循環神經網絡(lstm)。通過采樣不同的序列,使用這些機器學習算法用于分類判別序列的功能性,來指導aav2衣殼蛋白的多樣化生成,相較于傳統方法優點是可通過程序快速生成可行的aav2變體序列,但模型的分類預測準確性還有改進空間。在文章“sinai?s,jain?n,church?g?m,et?al.generative?aav?capsid?diversification?bylatent?interpolation[j].biorxiv,2021:2021.04.16.440236.”中作者使用無監督的方法,利用aav衣殼蛋白的進化數據與突變數據,使用變分自編碼器(vae)的生成式模型來直接生成新的aav2變體序列。該方法雖然可生成許多aav2變體序列,但是生成的序列長度固定,生成的序列同源性不夠仍然存在大量無功能的蛋白。
4、由此可見,現有的數據驅動方法無論是從生成序列質量還是序列分類判別能力上還存在問題,未能給出一個高質量有效的解決方案。因此,亟需一種能高效設計多樣化aav2衣殼蛋白變體的新方法。
技術實現思路
1、針對現有技術的問題,本專利技術提供一種aav2衣殼蛋白變體設計系統。
2、一種aav2衣殼蛋白變體設計系統,包括:
3、預處理模塊,被配置為:對收集的aav2衣殼蛋白的序列數據,進行預處理;
4、輸入模塊,被配置為:輸入不同序列長度的aav2衣殼蛋白序列;
5、預測模塊,被配置為:通過微調的antiberty模型對不同序列長度的aav2衣殼蛋白序列分類,根據序列的功能性評分,獲得aav2衣殼蛋白變體序列;
6、輸出模塊,被配置為:輸出所述預測模塊的序列。
7、優選的,所述微調的antiberty模型包括antiberty網絡層和mlp網絡層。
8、優選的,所述antiberty網絡層包括表征序列隱藏層和平均池化層;所述表征序列隱藏層包括第一層特征提取層、第二層特征提取層以及最后一層特征提取層,所述平均池化層將所述第一層特征提取層、第二層特征提取層以及最后一層特征提取層得到的特征進行拼接。
9、優選的,所述mlp網絡層的數量為兩層,第一層mlp網絡層用于將待評估蛋白質序列特征與突變特征拼接后的向量投影至低維度,第二層mlp網絡層用于將所述向量投影進行分類和評估打分。
10、優選的,所述突變特征為待評估蛋白質序列特征與野生型aav2衣殼蛋白序列特征作差,得到的差值特征;所述野生型aav2衣殼蛋白序列如seq?id?no.1所示。
11、優選的,所述預處理的操作包括序列清洗、去冗余、比對。
12、優選的,所述不同序列長度的aav2衣殼蛋白序列由微調的progen2模型生成。
13、優選的,所述微調的progen2模型通過損失函數調整模型參數,生成不同序列長度的aav2衣殼蛋白序列;所述損失函數計算公式如下:
14、
15、上式中l表示計算所得損失,ytk表示實際token的值,表示模型預測的token輸出值。
16、本專利技術還提供上述系統進行aav2衣殼蛋白變體設計的方法,包括如下步驟:
17、步驟1,收集aav2衣殼蛋白的序列數據,進行預處理;
18、步驟2,輸入不同序列長度的aav2衣殼蛋白序列;
19、步驟3,通過微調的antiberty模型對不同序列長度的aav2衣殼蛋白序列分類,根據序列的功能性評分,獲得aav2衣殼蛋白變體序列。
20、一種計算機可讀存儲介質,其上存儲有:用于實現上述系統的計算機程序,還有實現方法的程序。
21、本專利技術提供的aav2衣殼蛋白變體設計系統,主要包括基于預訓練微調的progen2模型及微調的antiberty模型;經過微調的progen2模型,通過調整模型參數生成不同序列長度的aav2衣殼蛋白變體序列,再將其輸入微調的antiberty模型,通過特征拼接處理得到序列的功能性評分,從而篩選出高質量的aav2衣殼蛋白序列。因本文檔來自技高網...
【技術保護點】
1.一種AAV2衣殼蛋白變體設計系統,其特征在于,包括:
2.按照權利要求1所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述微調的AntiBERTy模型包括AntiBERTy網絡層和MLP網絡層。
3.按照權利要求2所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述AntiBERTy網絡層包括表征序列隱藏層和平均池化層;所述表征序列隱藏層包括第一層特征提取層、第二層特征提取層以及最后一層特征提取層,所述平均池化層將所述第一層特征提取層、第二層特征提取層以及最后一層特征提取層得到的特征進行拼接。
4.按照權利要求2所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述MLP網絡層的數量為兩層,第一層MLP網絡層用于將待評估蛋白質序列特征與突變特征拼接后的向量投影至低維度,第二層MLP網絡層用于將所述向量投影進行分類和評估打分。
5.按照權利要求4所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述突變特征為待評估蛋白質序列特征與野生型AAV2衣殼蛋白序列特征作差,得到的差值特征;所述野生型AAV2衣殼蛋白序列如SEQ?ID?NO.
6.按照權利要求1所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述預處理的操作包括序列清洗、去冗余、比對。
7.按照權利要求1所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述不同序列長度的AAV2衣殼蛋白序列由微調的Progen2模型生成。
8.按照權利要求7所述的AAV2衣殼蛋白變體設計系統,其特征在于,所述微調的Progen2模型通過損失函數調整模型參數,生成不同序列長度的AAV2衣殼蛋白序列;所述損失函數計算公式如下:
9.應用權利要求1-8任一項所述的AAV2衣殼蛋白變體設計系統進行AAV2衣殼蛋白變體設計的方法,其特征在于,包括如下步驟:
10.一種計算機可讀存儲介質,其特征在于,其上存儲有:用于實現權利要求1-8任一項所述系統的計算機程序,還有實現方法的程序。
...【技術特征摘要】
1.一種aav2衣殼蛋白變體設計系統,其特征在于,包括:
2.按照權利要求1所述的aav2衣殼蛋白變體設計系統,其特征在于,所述微調的antiberty模型包括antiberty網絡層和mlp網絡層。
3.按照權利要求2所述的aav2衣殼蛋白變體設計系統,其特征在于,所述antiberty網絡層包括表征序列隱藏層和平均池化層;所述表征序列隱藏層包括第一層特征提取層、第二層特征提取層以及最后一層特征提取層,所述平均池化層將所述第一層特征提取層、第二層特征提取層以及最后一層特征提取層得到的特征進行拼接。
4.按照權利要求2所述的aav2衣殼蛋白變體設計系統,其特征在于,所述mlp網絡層的數量為兩層,第一層mlp網絡層用于將待評估蛋白質序列特征與突變特征拼接后的向量投影至低維度,第二層mlp網絡層用于將所述向量投影進行分類和評估打分。
5.按照權利要求4所述的aav2衣殼蛋白變體設計系統,其特征在于,所述突變特征為待評估蛋...
【專利技術屬性】
技術研發人員:楊曉妍,何瑋,周小波,羅楊钖,雷倩,羅佳偉,來鈺開,
申請(專利權)人:四川大學華西醫院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。