System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于人工智能算法應用-生物序列識別領域,涉及基于epdcc技術識別多種賴氨酸修飾位點的方法。
技術介紹
1、蛋白質賴氨酸上的翻譯后修飾(post-translational?modifications,簡稱ptms)通過形成共價鍵或結合化學基團,顯著改變了蛋白質的物理和化學性質。這些修飾對蛋白質的結構、功能和穩定性具有深遠影響,在基因表達調控、信號傳導、蛋白質降解和細胞代謝等多種生物過程中發揮關鍵作用。因此,識別和預測多種賴氨酸翻譯后修飾位點,對于深入了解生物學過程和推動藥物開發具有重要意義。
2、賴氨酸的翻譯后修飾包括乙酰化、甲基化、琥珀酰化等多種形式,這些修飾通常通過酶促反應發生,調控著許多重要的細胞活動。然而,傳統的實驗方法,如質譜分析和特異性抗體檢測,雖然能夠提供較為精確的修飾位點信息,但其成本高昂、操作復雜且耗時。此外,這些方法在處理大規模數據時效率較低,難以滿足現代生物學研究對高通量、快速預測的需求。
3、隨著生物信息學和人工智能技術的發展,越來越多的計算工具被用于識別賴氨酸等氨基酸上的翻譯后修飾位點。相比傳統的實驗方法,基于機器學習和深度學習的預測識別模型具有較高的效率和較低的成本,能夠快速分析大量蛋白質序列并識別潛在的修飾位點。然而,現有的預測模型仍面臨多重挑戰,例如樣本數據分布不平衡、不同修飾類型之間的相互作用(串擾)未被充分考慮、以及模型對序列信息復雜依賴關系的捕捉能力有限。
4、因此,開發一種能夠綜合考慮多種賴氨酸修飾類型之間相互作用、有效應對數據不平衡問題,并
技術實現思路
1、為了解決上述問題,本專利技術提出了一種可以同時預測四種不同類型賴氨酸翻譯后修飾位點的方法。該方法利用一種基于跨尺度卷積神經網絡(cscnn)與極值點偏差補償聚類欠采樣算法(epdcc)來識別多種賴氨酸修飾位點的方法。
2、本專利技術的技術方案如下:
3、本專利技術所采用的數據來源于cplm4.0數據庫,該數據庫專注于記錄蛋白質中賴氨酸殘基側鏈氨基在特定位置的多種翻譯后修飾(ptms)。本專利技術利用該數據庫提供的18,978條人類蛋白質序列,經過精心設計的數據處理流程,構建了適合模型訓練與驗證的數據集。盡管數據集中存在顯著的不平衡問題,比例超過100:1,本專利技術通過提出的一種極值點偏差補償聚類欠采樣技術的創新方法有效應對了這一挑戰,提升了模型在不平衡數據下的泛化能力,從而提高了預測的準確性和可靠性。且本專利技術采用兩種跨尺度的特征提取算法,并結合提出的跨尺度卷積神經網絡進行分類識別,在最后開發了一個用戶友好型的web預測工具。
4、基于epdcc技術識別多種賴氨酸修飾位點的方法,步驟如下:
5、第一步:數據集構建
6、為了開發統計預測模型,構建可靠的訓練和測試數據集至關重要。構建具體步驟如下:
7、1.1序列截取與驗證:對于收集的18978條人類蛋白質序列,截取實驗驗證賴氨酸(k)為“acetyllysine”或“crotonyllysine”或“methyllysine”或“succinyllysine”修飾的肽片段(以k為中心,滑動窗口大小為24,即肽片段長度為49)。每條肽片段都可以表示為式(1)的形式:
8、p=r-24r-23…r-2r-1r1r2…r23r24???(1)
9、1.2數據分類:對預處理后的賴氨酸修飾數據進行分類,總共可得到15個類別。在去掉序列少于60條的類別后,數據集最終被劃分為11個類別:
10、
11、數據類別說明:指中心位置的賴氨酸僅包含乙酰化修飾的蛋白質序列。指既包含乙酰化又包含巴豆酰化修飾的蛋白質序列。去除了數據中重復的肽片段,得到11類數據,各自的樣本數量如下:如上述可知第一類樣本數量為39938,第二類樣本數量為2463,依此類推。為確保評估多標簽預測模型時不會因序列的冗余性和同源性導致性能評估偏高,本專利技術使用了cd-hit程序,并將閾值設置為0.4,以消除這些潛在的同源序列和冗余樣本。對于獲得的11類數據,隨機抽取每個類70%作為訓練數據,剩余的30%作為測試數據,得到去冗余后的分割數據集如下:
12、訓練集:類別(1):9279條;類別(2):710條;類別(3):600條;類別(4):454條;類別(5):561條;類別(6):252條;類別(7):360條;類別(8):88條;類別(9):153條;類別(10):454條;類別(11):73條。
13、獨立測試集:類別(1):4062條;類別(2):304條;類別(3):257條;類別(4):194條;類別(5):240條;類別(6):107條;類別(7):154條;類別(8):42條;類別(9):73條;類別(10):191條;類別(11):36條.這些步驟確保了數據的全面性和準確性,為后續的模型訓練和驗證提供了堅實的基礎。
14、第二步:特征提取
15、為了能讓計算機識別第一階段清洗過的數據,本階段對數據進行特征提取(用數學形式表達數據)。本專利技術從賴氨酸序列信息以及氨基酸理化性質這兩個尺度來對數據進行特征提取。
16、2.1賴氨酸序列信息特征提取步驟如下:
17、2.1.1:將第一步得到的序列,去除掉中心賴氨酸(k)。然后計算每種三聯氨基酸在第t類的賴氨酸序列中的每個位置上出現的頻率矩陣ft,矩陣大小為203×46。
18、
19、其中ft(taai/j)表示第t類賴氨酸序列中第taai中三聯氨基酸在第j個位置上出現的頻率。taai∈{aaa,aac,aad,…yyy},即taa1=aaa,taa2=aac,…,i=1,2,3,…,203,j=1,2,3,…,46。
20、2.1.2:計算每種三聯氨基酸在除第k類外的其他十類賴氨酸序列中的每個位置出現的頻率矩陣fft,矩陣大小為203×46。
21、
22、其中fk(taai/j)表示除了第k類外的其他十類賴氨酸序列中第taai中三聯氨基酸在第j個位置上出現的頻率。
23、2.1.3:將得到的11個ft矩陣與11個ffk矩陣求平均得到的矩陣f,ff,做差得到矩陣fr,即
24、
25、其中fi,j=ft(taai/j)-fft(taai/j),f=(f1+f2+…+f11)/11,ff=(ff1+ff2+…+ff11)/11。
26、2.1.4:依據每條序列中每個位置的三聯氨基酸的種類在fr矩陣中找到其所對應的數值進行特征編碼。例如:對于長度為48的“agat……tglr”序列,使用大小為3的滑動窗口連續執行編碼。首先,必須確定序列中三氨基酸片段的位置。例如,"aga"位于序列的第一個位置,而"gat"位于第二個位置。隨后,根據氨基酸字母表'本文檔來自技高網...
【技術保護點】
1.基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,步驟如下:
2.如權利要求1所述的基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第一步:數據集構建,構建具體步驟如下:
3.如權利要求1或2所述的基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第二步:特征提取,具體操作如下:
4.如權利要求1或2所述的基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第四步:具體步驟如下:
5.如權利要求2所述的基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的步驟1.2中,采用CD-HIT程序,并將閾值設置為0.4,以消除這些潛在的同源序列和冗余樣本;對于獲得的11類數據,隨機抽取每個類70%作為訓練數據,剩余的30%作為測試數據,得到去冗余后的分割數據集如下:
6.如權利要求1所述的基于EPDCC技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的步驟3.4中,具體操作如下:
7.如權利要求1所述的基于EPDCC技術識別多種賴氨酸修飾位點
...【技術特征摘要】
1.基于epdcc技術識別多種賴氨酸修飾位點的方法,其特征在于,步驟如下:
2.如權利要求1所述的基于epdcc技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第一步:數據集構建,構建具體步驟如下:
3.如權利要求1或2所述的基于epdcc技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第二步:特征提取,具體操作如下:
4.如權利要求1或2所述的基于epdcc技術識別多種賴氨酸修飾位點的方法,其特征在于,所述的第四步:具體步驟如下:
5.如權利要求2所述的基于epdcc技術識別多種賴氨酸修飾位...
【專利技術屬性】
技術研發人員:左云,房興澤,萬民權,章幫一,鄧趙紅,
申請(專利權)人:江南大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。