本發明專利技術提供了一種基于動態網絡圖分析的時間序列數據處理方法,從網絡的角度分析代謝組學隊列數據,分析變量之間的相互聯系,根據變量之間關聯性的動態變化構建代謝網絡,并通過動態濃度變化和網絡拓撲結構的變化分析確定疾病(例如惡性腫瘤)發生的預警信息。彌補了采用靜態分析方法處理代謝組學時間序列數據忽略特征動態變化信息的缺點。而且,相對致力于發現單分子標志物的算法,本發明專利技術考察變量間的相互關系隨時間的變化情況,分析、確定疾病發生改變的關鍵節點,從而更有助于對疾病致病機理的研究,為疾病的早期診斷和預后研究奠定基礎。
【技術實現步驟摘要】
本專利技術屬于生物數據分析
,是一種利用動態網絡分析對代謝組學時間序 列數據進行處理,W確定復雜疾病(如肝癌)發生的前瞻性潛在生物標志物的新方法。
技術介紹
肝癌是常見的惡性腫瘤之一,死亡率高居惡性腫瘤的第二位,全世界平均每年大 約有600,000人死于肝癌。肝癌通常起源于慢性肝病,且大部分與肝硬化相關。由于肝癌的 發生設及眾多因素的復雜相互作用(如遺傳、病毒及環境等),因此致病機理尚不明確。肝癌 的預后較差,常常確診時病人已處于癌癥的晚期。目前,常規的肝癌診斷技術有超聲、影像 學和甲胎蛋白(AFP)等。然而,確診時可做根治性治療的肝癌患者僅有30%。常用的生物標 志物AFP其靈敏度有限,特異性也較低。而且腫瘤進展相對較快,存在早期診斷困難,治愈率 低等難題。手術切除和肝移植是當前根治性治療肝癌最常用的辦法。然而,肝癌病人術后復 發及轉移相當常見,術后五年生存率為30 % -40 %。因此,深入研究肝癌發生發展所設及的 致病機理,發現肝癌的前瞻性標志物,W便通過早期診斷改善患者預后效果,提升術后五年 生存率。 作為生物化學反應中的中間體和終端產物,代謝物在連接生命體系的不同生物途 徑及保持正常生理功能中起到了重要作用。代謝組學是對生命機體由生理、病理刺激和基 因修飾等產生的代謝物的質和量的動態變化的研究。作為系統生物學的重要組成部分,代 謝組學在諸多領域(疾病研究,藥物研究,植物研究等)得到了廣泛應用。隨著分離分析技術 的快速發展,代謝數據具有海量、多維、結構復雜等特點。如何從中挖掘出反映研究問題本 質的關鍵代謝成分,尋找區分不同生物樣本的差異性潛在標志物已成為代謝組學研究的問 題之一。 代謝本身是一個動態過程,從動態的角度研究代謝組,通過代謝物隨疾病發生、發 展的動態變化的分析對復雜疾病進行深入分析,有利于疾病致病機理、早期診斷和個性化 治療的研究。同時,在復雜的生命過程中,代謝成分之間相互關聯、相互作用,W反映生物體 的生理、病理變化。在受到外界刺激或環境變化時,不同代謝物之間的相互關聯性也會發生 改變。因此分析生命過程中代謝成分之間的相互關聯、構建代謝網絡、研究代謝網絡的動態 變化可W更全面地掲示疾病的發生、發展過程,從而更利于疾病診斷、治療等方面的研究。 代謝組學時間序列數據常常表現出樣本數少,變量數多W及時間點稀疏等特性,許多經典 的時間序列算法并不適合于代謝組學時間序列數據的研究。 本專利技術從代謝網絡動態變化的角度分析代謝組學時間序列數據,發現復雜疾病的 預警信息。引入非重疊區域比率(NOR)來衡量代謝物之間的比值在疾病發展過程中的動態 變化,根據比值在前后時間點上的變化構建動態網絡。代謝物的比值可W反應將其中一種 代謝物通過一條或多條代謝通路轉變為另一種代謝物的過程。
技術實現思路
本專利技術提供,是基于變量比值 的NOR隨時間的變化構建動態代謝網絡,能夠更切實有效的反映生命機體生理和病理的變 化。同時,使用動態濃度分析和拓撲結構分析兩種分析方法尋找疾病發生的前瞻性潛在生 物標志物。 本專利技術采用的技術方案如下:[000引一、靜態分析 噪音或無關變量常常影響代謝組學數據分析的效果,若代謝組學時間序列數據中 疾病經歷了化種不同的狀態,那么在病程中任意兩個不同階段無區分能力或區分能力弱的 代謝變量通常為噪音或與所研究問題無關的特征,應當被刪除。本專利技術根據時間序列數據 中的化種不同的狀態建立化(化-1)/2個兩類子問題,從每一個子問題中確定具有一定區分 能力的特征用來構建代謝網絡。 本專利技術利用代謝變量之間比值的有效范圍的變化來分析代謝物之間關系的變化。 令F=也,f2,…,fm}為特征集合,其中m表示變量的個數。fit(1 y ^,1 < t卽)為變量fi在 第t個時間點上的含量,N為時間點的數量。特征fi,。的比值變量ru在時間點t上的有效范 圍定義為:(1)[001^ 公式(1)中而,飾.分別表示比值變量rijt的有效范圍的上、下界;丫取值為 1.732,W保證rijt的有效范圍至少含有2/3的樣本;Wijt和oijt分別表示比值變量rijt的均值 和標準差。比值變量rut在相鄰兩個時間點上有效范圍的變化存在Ξ種情況: (l)rut在相鄰兩個時間點上的有效范圍存在部分重疊; (2)rijt在一個時間點上的有效范圍完全包含于其在另一個時間點的有效范圍內; (3)rut在相鄰兩個時間點上的有效范圍不存在重疊部分。 但情況(2)沒有明確反映出代謝通路反應的變化趨勢,所W本專利技術僅考慮其它兩 種情況并使用如下公式計算比值變量在相鄰時間點上的NOR: N0R(rijt) =化 uAt2)/max{Lti,Lt2} (2)[001引公式(2)中|N0R(rijt)|越大,表示該 比值在相鄰時間點的變化越大。 二、網絡構建 (1)輸入靜態分析后所得到的特征子集。 (2)對輸入的特征子集中的任意兩個變量fi山在每個時間點上構建比值變量rijt。 (3)根據公式(1)計算每個比值變量rut的有效范圍E(rijt)。 (4)根據比值變量rut的有效范圍E(rut),使用公式(2)計算該比值變量在相鄰兩 個時間點上的NOR值。 (5)如果rijt的NOR值大于等于τ,則該相鄰兩時間點所對應網絡圖中兩個變量fi,fj W紅邊相連。反之,NOR值小于等于-τ,則網絡圖中兩個變量fi,W綠邊相連。 (6)輸出在兩個相鄰時間點上建立的網絡圖DN-K1 y如-1)。 Ξ、網絡分析 為確定復雜疾病發生的前瞻性潛在生物標志物,本專利技術從兩個角度對動態網絡進 行分析:動態濃度分析和拓撲結構分析。[002引(1)動態濃度分析 動態濃度分析研究疾病發展過程中代謝物之間的比值的變化趨勢。由于生命過程 是運動的,在復雜疾病(如惡性腫瘤)惡化前,一定存在一些預警信號。為發現運些預警信 號,本專利技術探索復雜疾病惡化(對應時間序列數據中的時間點Ts,0<s含N)前的某些連續時 間點(不失一般性,假設為Ne (0<Ne<N)個連續時間點)。如果比值變量的有效范圍在連續Ne個 時間點上沿著同一個方向變化(如連續升高或連續降低),則表明隨著疾病的發展代謝活動 是持續素亂的。因此,為尋找疾病發生的預警信息,本專利技術分析網絡圖DN-i(s-Ne<i<s-l) 并將顏色相同的邊提取出來,運些沿著同一個方向持續變化的比值(即:邊)預示著疾病的 惡化,即是所確定的疾病惡化的預警信息。 (2)拓撲結構分析 N個時間點產生N-1個網絡圖。網絡拓撲結構也會隨疾病的發生、發展而變化。如果 網絡DN-t (1 ^ t<N)的邊數較多,則表示有大量的化學反應其反應速率加快,機體處于相對 劇烈的生命活動階段。所W,具有邊數最多的網絡DN-t可W表明病程發展到了關鍵時期,其 所對應的時間點可W表示為復雜疾病的早期階段。且網絡圖中,度最大的節點往往位于生 命化學活動中的樞紐位置,是疾病發生發展的關鍵因素。因此,在拓撲結構分析中,本專利技術 關注于具有邊數當前第1頁1 2 本文檔來自技高網...
【技術保護點】
一種基于動態網絡算法對時間序列數據進行分析,其特征在于以下步驟:步驟1:靜態分析根據時間序列數據中的Ns種不同的狀態建立Ns(Ns?1)/2個兩類子問題,從每一個子問題中確定具有一定區分能力的特征用來構建代謝網絡;利用代謝變量之間比值的有效范圍的變化來分析代謝物之間關系的變化;令F={f1,f2,…,fm}為特征集合,其中m表示變量的個數;fit(1≤i≤m,1≤t≤N)為變量fi在第t個時間點上的含量,N為時間點的數量;特征fi,fj的比值變量rij在時間點t上的有效范圍定義為:E(rijt)=[erijt-,erijt+]=[uijt-0.5γσijt,uijt+0.5γσijt]---(1)]]>公式(1)中分別表示比值變量rijt的有效范圍的上、下界;γ取值為1.732,以保證rijt的有效范圍至少含有2/3的樣本;μijt和σijt分別表示比值變量rijt的均值和標準差;比值變量rijt在相鄰兩個時間點上有效范圍的變化存在三種情況:(1)rijt在相鄰兩個時間點上的有效范圍存在部分重疊;(2)rijt在一個時間點上的有效范圍完全包含于其在另一個時間點的有效范圍內;(3)rijt在相鄰兩個時間點上的有效范圍不存在重疊部分;情況(2)沒有明確反映出代謝通路反應的變化趨勢,所以本專利技術僅考慮其它兩種情況并使用如下公式計算比值變量在相鄰時間點上的NOR:NOR(rijt)=(Lt1?Lt2)/max{Lt1,Lt2}???????????(2)公式(2)中Lt1=erij(t+1)+-erijt-,Lt2=erijt+-erij(t+1)-;]]>|NOR(rijt)|越大,表示該比值在相鄰時間點的變化越大;步驟2:網絡構建(1)輸入靜態分析后所得到的特征子集;(2)對輸入的特征子集中的任意兩個變量fi,fj在每個時間點上構建比值變量rijt;(3)根據公式(1)計算每個比值變量rijt的有效范圍E(rijt);(4)根據比值變量rijt的有效范圍E(rijt),使用公式(2)計算該比值變量在相鄰兩個時間點上的NOR值;(5)如果rijt的NOR值大于等于τ,則該相鄰兩時間點所對應網絡圖中兩個變量fi,fj以紅邊相連;反之,NOR值小于等于?τ,則網絡圖中兩個變量fi,fj以綠邊相連;(6)輸出在兩個相鄰時間點上建立的網絡圖DN?i(1≤i≤N?1);步驟3:網絡分析(1)動態濃度分析動態濃度分析研究疾病發展過程中代謝物之間的比值的變化趨勢;探索復雜疾病惡化前的某些連續時間點;如果比值變量的有效范圍在連續Ne個時間點上沿著同一個方向變化,則表明隨著疾病的發展代謝活動是持續紊亂的;為尋找疾病發生的預警信息,本專利技術分析網絡圖DN?i(s?Ne≤i<s?1)并將顏色相同的邊提取出來,這些沿著同一個方向持續變化的比值預示著疾病的惡化,即是所確定的疾病惡化的預警信息;(2)拓撲結構分析N個時間點產生N‐1個網絡圖;如果網絡DN?t(1≤t<N)的邊數較多,則表示有大量的化學反應其反應速率加快,機體處于相對劇烈的生命活動階段;具有邊數最多的網絡DN?t表明病程發展到了關鍵時期,其所對應的時間點表示為復雜疾病的早期階段;在拓撲結構分析中,本專利技術關注于具有邊數最多的網絡圖并且著重分析度數最大的k≥1個節點;這些節點及其與之相連的節點作為復雜疾病早期診斷的潛在性標志物。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:林曉惠,黃鑫,曾珺,尹沛源,
申請(專利權)人:大連理工大學,
類型:發明
國別省市:遼寧;21
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。