【技術實現步驟摘要】
【國外來華專利技術】用于評估縱向生物特征數據的系統和方法
[0001]相關申請的交叉引用
[0002]本申請要求于2020年11月27日提交的美國臨時專利申請第62/941,012號的優先權,其全部內容通過引用明確并入本文。
[0003]本公開涉及用于基于對象的基因型特征隨時間的變化來評估對象的疾病狀態的方法。
技術介紹
[0004]癌癥代表了一個突出的全球公共衛生問題。僅美國在2015年就報告了1,658,370例病例。篩查計劃和早期診斷對提高癌癥患者的無病存活率和降低死亡率具有重要影響。例如,結直腸癌的早期篩查使美國的結直腸癌發病率和死亡率降低了近50%。這種降低與癌癥分期相關的存活率相一致,從結直腸癌1期的94%下降到結直腸癌4期的11%。然而,早期癌癥檢測存在兩大挑戰:患者依從性和敏感性差。
[0005]有利地,對癌癥的分子發病機制的認識的增加和次世代定序技術的快速發展正在推進對涉及體液中癌癥發展的早期分子改變的研究。在血漿、血清和尿液中的游離DNA(cfDNA)中發現了與此類癌癥發展相關的特定遺傳和表觀遺傳改變。這種改變可能被用作幾種癌癥的診斷生物標志物。有利的是,非侵入性采樣方法,例如所謂的“液體活檢(liquid biopsies)”,可以促進患者的依從性,因為它們更容易、更快且執行成本更低。
[0006]可以在血清、血漿、尿液和其他體液中發現游離DNA,從而實現“液體活檢”,這代表了對象中許多不同組織(包括患病組織)的基因組組成的快照(snapshot)。cfDNA來源于壞死或凋亡細胞,通 ...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】1.一種確定一測試對象是否具有一疾病狀況的方法,其特征在于,所述方法包含:在一計算機系統執行以下步驟,其中所述計算機系統具有一個或多個處理器以及內存,所述內存存儲一個或多個程序以供所述一個或多個處理器執行:(A)確定所述測試對象的一第一基因型數據結構,所述第一基因型數據結構包括基于在一第一測試時間點從所述測試對象獲得的一第一生物樣本中的一第一多個核酸分子的電子形式的一第一多個序列讀取的多個基因型特征的多個值;(B)將所述第一基因型數據結構輸入到所述疾病狀況的一模型中,從而產生所述疾病狀況的第一模型得分集;(C)確定所述測試對象的一第二基因型數據結構,所述第二基因型數據結構包括基于在發生在所述第一測試時間之后的一第二測試時間點從所述測試對象獲得的一第二生物樣本中的一第二多個核酸分子的電子形式的一第二多個序列讀取的所述多個基因型特征的多個值;(D)將所述第二基因型數據結構輸入到所述模型中,從而產生所述疾病狀況的一第二模型得分集;(E)基于所述第一模型得分集與所述第二模型得分集之間的一差異來確定一測試δ得分集;以及(F)對照多個參考δ得分集來評估所述測試δ得分集,從而確定所述測試對象是否具有所述疾病狀況,其中在所述多個參考δ得分集中的每個參考δ得分集是針對多個參考對象中的一相應參考對象。2.如權利要求1所述的方法,其特征在于:所述模型評估來自單個時間點的數據。3.如權利要求1或2所述的方法,其特征在于:所述第一模型得分集包括所述測試對象在所述第一測試時間點具有所述疾病狀況的一概率;所述第二模型得分集包括所述測試對象在所述第二測試時間點具有所述疾病狀況的一概率,以及所述評估(F)包括將所述測試δ得分集與所述多個參考δ得分集的一分布進行比較,其中所述多個參考δ得分中的每個參考δ得分集是基于以下(i)與(ii)之間的一差異針對在所述多個參考對象中的一相應參考對象:(i)所述相應參考對象具有所述疾病狀況的一第一概率,所述第一概率使用包括所述多個基因型特征的多個值的一相應第一參考基因型數據結構通過所述模型來提供,所述多個值是使用在一相應第一時間點從所述相應參考對象獲得的一相應第一生物樣本來獲取;以及(ii)所述相應參考對象具有所述疾病狀況的一第二概率,所述第二概率使用包括所述多個基因型特征的多個值的一相應第二參考基因型數據結構通過所述模型來提供,所述多個值是使用在所述相應第一時間點之后發生的一相應第二時間點從所述相應參考對象獲得的一相應第二生物樣本來獲取,其中所述相應訓練對象至少在所述相應第一時間點以及所述相應第二時間點的期間不具有所述疾病狀況。4.如權利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括具有所述疾病狀況的一概率。
5.如權利要求1或2所述的方法,其特征在于:所述模型的所述第一模型得分集包括不具有所述疾病狀況的一似然或一概率。6.如權利要求1至3中任一項所述的方法,其特征在于:所述評估(F)包括:確定所述分布的一集中趨勢的量數以及所述分布的一散布量數;以及使用所述分布的所述集中趨勢的量數以及所述分布的所述散布量數來確定所述測試δ得分集的一顯著性。7.如權利要求6所述的方法,其特征在于:所述分布的所述集中趨勢的量數是所述分布中的一算術平均數、一加權平均數、一中程數、一中樞紐、一三均值、一極端值調整平均數、一平均數或一眾數。8.如權利要求6或7所述的方法,其特征在于:所述分布的所述散布量數是所述分布的一標準差、一方差或一范圍。9.如權利要求6所述的方法,其特征在于:所述分布的所述集中趨勢的量數是所述分布的所述平均數;所述分布的所述散布量數是所述分布的所述標準差;以及使用所述分布的所述集中趨勢的量數以及所述分布的所述散布量數來確定所述測試δ得分集的所述顯著性包括確定多個標準差的數量所述測試δ得分集是來自所述分布的所述平均數。10.如權利要求9所述的方法,其特征在于:當自所述分布的所述平均數的所述多個標準差的數量所述測試δ得分集滿足一閾值時,所述測試對象被確定具有所述疾病狀況。11.如權利要求1至3中任一項所述的方法,其特征在于:所述評估(F)包括將所述測試δ得分輸入到對照所述多個參考δ得分集訓練的一分類器中,其中所述多個參考δ得分中的每個參考δ得分集是基于以下(i)與(ii)之間的一差異針對在所述多個參考對象中的一相應參考對象:(i)所述相應參考對象具有所述疾病狀況的一第一概率,所述第一概率使用包括所述多個基因型特征的多個值的一相應第一參考基因型數據結構通過所述模型來提供,所述多個值是使用在一相應第一時間點從所述相應參考對象獲得的一相應第一生物樣本來獲取;以及(ii)所述相應參考對象具有所述疾病狀況的一第二概率,所述第二概率使用包括所述多個基因型特征的多個值的一相應第二參考基因型數據結構通過所述模型來提供,所述多個值是使用在所述相應第一時間點之后發生的一相應第二時間點從所述相應參考對象獲得的一相應第二生物樣本來獲取,其中所述相應訓練對象至少在所述相應第一時間點以及所述相應第二時間點的期間不具有所述疾病狀況。12.如權利要求11所述的方法,其特征在于:針對所述多個參考對象的至少一子集中的每個相應訓練對象,對照在所述相應第二時間點之后發生的一相應第三時間點的所述相應對象是否具有所述疾病狀況的一確定,來對所述分類器進一步進行訓練。13.如權利要求11或12所述的方法,其特征在于:所述分類器是一神經網絡算法、一支持向量機算法、一樸素貝葉斯分類器算法、一最鄰近搜索算法、一提升樹算法、一隨機森林算法、一決策樹算法、一多分類邏輯回歸算法或一線性回歸算法。14.如權利要求3至10中任一項所述的方法,其特征在于:
將所述多個參考對象中的每個相應參考對象的所述相應第一時間點與所述相應第二時間點之間的一時間量用作計算所述分布的一協變量;以及針對所述測試對象基于表示所述第一測試時間點與所述第二測試時間點之間的一時間差的所述協變量來調整所述測試δ得分集。15.如權利要求14所述的方法,其特征在于:將表示所述第一測試時間點與所述第二測試時間點之間的一時間差的所述協變量應用于所述第一基因型數據結構、所述第二基因型數據結構、每個第一相應參考基因型數據結構或是每個第二相應參考基因型數據結構的所述多個特征中的一個或多個基因型特征。16.如權利要求14所述的方法,其特征在于:將表示所述第一測試時間點與所述第二測試時間點之間的一時間差的所述協變量應用于所述測試δ得分集以及多個參考δ得分的分布中的每個參考δ得分集。17.如權利要求3至10中任一項所述的方法,其特征在于:還包括歸一化,其中:針對所述相應對象將所述多個參考δ得分集中的每個相應參考δ得分集歸一化所述相應第一時間點與所述相應第二時間點之間的一時間量;以及將所述測試δ得分集歸一化所述第一測試時間點與所述第二測試時間點之間的一時間量。18.如權利要求17所述的方法,其特征在于:通過針對所述相應對象對每個第一相應參考基因型數據結構或是每個第二相應參考基因型數據結構的所述多個特征中的一個或多個基因型特征歸一化所述相應第一時間點與所述相應第二時間點之間的一時間量,來針對所述相應參考對象將所述多個參考δ得分集中的每個相應參考δ得分集歸一化所述相應第一時間點與所述相應第二時間點之間的一時間量;以及通過將所述第一基因型數據結構以及所述第二基因型數據結構中的一個或多個基因型特征歸一化所述第一測試時間點與所述第二測試時間點之間的一時間量,來將所述測試δ得分集歸一化所述第一測試時間點與所述第二測試時間點之間的一時間量。19.如權利要求17所述的方法,其特征在于:將所述歸一化應用于所述測試δ得分集以及所述多個參考δ得分集的分布中的每個參考δ得分集。20.如權利要求3至19中任一項所述的方法,其特征在于:將所述多個參考對象中的每個相應參考對象的一非基因型特征作為計算所述分布中的一協變量;以及所述測試δ得分集是根據所述測試對象的所述非基因型特征來進行調整。21.如權利要求20所述的方法,其特征在于:將所述協變量應用于所述第一基因型數據結構、所述第二基因型數據結構、每個相應第一參考基因型數據結構或是每個相應第二參考基因型數據結構的所述多個特征中的一個或多個基因型特征。22.如權利要求20所述的方法,其特征在于:將所述協變量應用于所述測試δ得分集以及所述多個參考δ得分集的分布中的每個參考δ得分集。23.如權利要求2至19中任一項所述的方法,其特征在于:所述方法還包含:一歸一化,其中:針對所述相應參考對象的一非基因型特征將所述多個參考δ得分集中的每個相應參考
δ得分集進行歸一化;以及針對所述測試對象的所述非基因型特征將所述測試δ得分集進行歸一化。24.如權利要求23所述的方法,其特征在于:通過對所述相應參考對象的所述非基因型特征的每個相應第一參考基因型數據結構或是每個相應第二參考基因型數據結構的所述多個特征中的一個或多個基因型特征歸一化,針對所述相應參考對象的所述非基因型特征對所述多個參考δ得分集中的每個相應參考δ得分集歸一化;以及針對所述測試對象的所述非基因型特征對所述測試δ得分集歸一化。25.如權利要求23所述的方法,其特征在于:所述歸一化應用于所述測試δ得分集以及所述多個參考δ得分集的所述分布中的每個參考δ得分集。26.如權利要求20至25中任一項所述的方法,其特征在于:所述非基因型特征包括年齡、飲酒狀態、吸煙狀態、性別或其一組合。27.如權利要求1至26中任一項所述的方法,其特征在于:所述多個參考對象針對性別、年齡、吸煙狀況、飲酒或其一組合進行分段。28.如權利要求1至27中任一項所述的方法,其特征在于:所述疾病狀況是一癌癥。29.如權利要求1至27中任一項所述的方法,其特征在于:所述疾病狀況是一組疾病狀況中的一種疾病狀況,并且所述模型為所述一組疾病狀況中的每種疾病狀況提供一概率或一似然。30.如權利要求29所述的方法,其特征在于:所述一組疾病狀況包括多種癌癥狀況。31.如權利要求30所述的方法,其特征在于:所述多種癌癥狀況包括一腎上腺癌、一膽道癌、一膀胱癌、一骨/骨髓癌、一腦癌、一子宮頸癌、一結直腸癌、一食道癌、一胃癌、一頭/頸癌、一肝膽癌、一腎癌、一肝癌、一肺癌、一卵巢癌、一胰臟癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一腎癌、一皮膚癌、一胃癌、一睪丸癌、一胸腺癌、一甲狀腺癌、一子宮癌、一淋巴瘤、一黑色素瘤、一多發性骨髓瘤或一白血病。32.如權利要求30所述的方法,其特征在于:所述多種癌癥狀況包括以下癌癥的一預定階段:一腎上腺癌、一膽道癌、一膀胱癌、一骨/骨髓癌、一腦癌、一子宮頸癌、一結直腸癌、一食道癌、一胃癌、一頭/頸癌、一肝膽癌、一腎癌、一肝癌、一肺癌、一卵巢癌、一胰臟癌、一骨盆腔癌、一胸膜癌、一前列腺癌、一腎癌、一皮膚癌、一胃癌、一睪丸癌、一胸腺癌、一甲狀腺癌、一子宮癌、一淋巴瘤、一黑色素瘤、一多發性骨髓瘤或一白血病。33.如權利要求1至中任一項所述的方法,其特征在于:所述疾病狀況是一癌癥的一預后。34.如權利要求33所述的方法,其特征在于:所述癌癥的所述預后是所述癌癥的一特定治療的一預后。35.如權利要求33所述的方法,其特征在于:所述癌癥的所述預后是癌癥復發的一預后。36.如權利要求1至27中任一項所述的方法,其特征在于:所述疾病狀況是一冠狀動脈疾病。37.如權利要求1至36中任一項所述的方法,其特征在于:所述測試對象是一人。38.如權利要求1至37中任一項所述的方法,其特征在于:所述測試對象未被診斷為具
有所述疾病狀況。39.如權利要求1至38中任一項所述的方法,其特征在于:從所述測試對象獲得的所述第一生物樣本以及從所述測試對象獲得的所述第二生物樣本獨立地包括所述對象的血液、全血、血漿、血清、尿液、腦脊液、糞便、唾液、汗水、眼淚、胸膜液、心包液或腹膜液。40.如權利要求1至39中任一項所述的方法,其特征在于:從所述測試對象獲得的所述第一生物樣本以及從所述測試對象獲得的所述第二生物樣本均為血液樣本。41.如權利要求1至39中任一項所述的方法,其特征在于:從所述測試對象獲得的所述第一生物樣本以及從所述測試對象獲得的所述第二生物樣本均為血漿樣本。42.如權利要求1至41中任一項所述的方法,其特征在于:所述第一測試時間點以及所述第二測試時間點相隔至少6個月、至少10個月或至少1年。43.如權利要求1至42中任一項所述的方法,其特征在于:所述第一多個核酸分子以及所述第二多個核酸分子是游離DNA分子。44.如權利要求1至43中任一項所述的方法,其特征在于:所述多個基因型特征包括從以下群組中選擇的一個或多個特征:在一基因座的一單核苷酸變體的支持、在一基因座的一甲基化狀態、在一基因座的一相對拷貝數、在一基因座的一等位基因比率、所述多個游離核酸分子的一片段大小度量、在一基因座的一甲基化模式及其一數學組合。45.如權利要求1至43中任一項所述的方法,其特征在于:所述多個基因型特征包括多個相對拷貝數,其中所述多個相對拷貝數中的每個相應相對拷貝數對應于多個基因座中的一不同基因座。46.如權利要求1至43中任一項所述的方法,其特征在于:所述多個基因型特征包括多個甲基化狀態,其中所述多個甲基化狀態中的每個甲基化狀態對應于多個基因座中的一不同基因座。47.如權利要求1至43中任一項所述的方法,其特征在于:所述第一基因型數據結構的所述多個基因型特征包括一第一多個箱值,所述第一多個箱值中的每個相應箱值代表多個箱中的一對應箱;所述第一多個箱值中的每個相應箱值代表使用映射到多個箱中的所述對應箱的所述第一多個序列讀取中的多個序列讀取來鑒定的具有一預定甲基化模式的多個獨特核酸片段的一數量;所述第二基因型數據結構的所述多個基因型特征包括一第二多個箱值,所述第二多個箱值中的每個相應箱值代表所述多個箱中的一對應箱;所述第二多個箱值中的每個相應箱值代表映射到所述多個箱中的所述對應箱的所述第二多個序列讀取中的多個序列讀取來鑒定的具有一預定甲基化模式的多個獨特核酸片段的一數量;以及所述多個箱中的每個箱代表所述測試對象的一物種的一參考基因組的一非重疊區域。48.如權利要求47所述的方法,其特征在于:所述方法還包含對所述第一多個箱值中的每個相應箱值以及所述第二多個箱值中的每個相應箱值歸一化。49.如權利要求48所述的方法,其特征在于:所述歸一化至少部分地包括:確定所述第一多個箱值的一第一集中趨勢量數;確定所述第二多個箱值的一第二集中趨勢量數;
將所述第一多個箱值中的每個相應箱值替換為所述相應箱值除以所述第一集中趨勢量數;以及將所述第二多個箱值中的每個相應箱值替換為所述相應箱值除以所述第二集中趨勢量數。50.如權利要求49所述的方法,其特征在于:所述第一集中趨勢量數是所述第一多個箱值的一算術平均數、一加權平均數、一中程數、一中樞紐、一三均值、一極端值調整平均數、一平均數或一眾數;以及所述第二集中趨勢量數是所述第二多個箱值的一算術平均數、一加權平均數、一中程數、一中樞紐、一三均值、一極端值調整平均數、一平均數或一眾數。51.如權利要求48所述的方法,其特征在于:所述歸一化至少部分地包括:將所述第一多個箱值中的每個相應箱值替換為針對所述第一多個箱值中的一相應第一GC偏差校正的所述相應箱值;以及將所述第二多個箱值中的每個相應箱值替換為針對所述第二多個箱值中的一相應第二GC偏差校正的所述相應箱值。52.如權利要求51所述的方法,其特征在于:所述相應第一GC偏差由擬合到一第一多個二維點的一曲線或一直線的一第一方程定義,其中所述第一多個二維點中的每個相應二維點包括:(i)一第一值,所述第一值是所述參考基因組的對應區域的相應GC含量,由對應于所述相應二維點的所述第一多個箱中的所述相應箱代表;以及(ii)一第二值,所述第二值是所述相應箱的所述第一多個箱值中的所述箱值;將所述第一多個箱值中的每個相應箱值替換為針對所述第一多個箱值中的一相應第一GC偏差校正的所述相應箱值包括從所述相應箱值減去所述相應箱的一GC校正,所述GC校正源自由所述相應箱以及所述第一方程代表的所述多個物種的所述參考基因組的所述對應區域的所述GC含量;所述相應第二GC偏差由擬合到一第二多個二維點的一曲線或一直線的一第二方程定義,其中所述第二多個二維點中的每個相應二維點包括:(i)一第三值,所述第三值是所述多個物種的所述參考基因組的對應區域的相應GC含量,由對應于所述相應二維點的所述第二多個箱中的所述相應箱代表;以及(ii)一第四值,所述第四值是所述相應箱的所述第二多個箱值中的所述箱值;以及將所述第二多個箱值中的每個相應箱值替換為針對所述第二多個箱值中的一相應第二GC偏差校正的所述相應箱值包括從所述相應箱值減去所述相應箱的一GC校正,所述GC校正源自由所述相應箱以及所述第二方程代表的所述多個物種的所述參考基因組的所述對應區域的所述GC含量。53.如權利要求1至52中任一項所述的方法,其特征在于:所述第一多個核酸分子是DNA。54.如權利要求1至53中任一項所述的方法,其特征在于:所述第一多個核酸分子通過使用多個探針的一靶向DNA甲基化定序獲得。55.如權利要求54所述的方法,其特征在于:所述多個探針與所述人類基因組中的100個或更多個基因座雜交。56.如權利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序檢測所述第一多
個核酸中的一個或多個5
?
甲基胞嘧啶及/或5
?
羥甲基胞嘧啶。57.如權利要求54所述的方法,其特征在于:所述靶向DNA甲基化定序包括將所述第一多個核酸中的一個或多個未甲基化胞嘧啶或一個或多個甲基化胞嘧啶轉化為對應的一個或多個尿嘧啶。58.如權利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括將所述第一多個核酸中的一個或多個未甲基化胞嘧啶轉化為對應的一個或多個尿嘧啶;以及所述DNA甲基化定序將所述一個或多個尿嘧啶讀出為一個或多個對應的胸腺嘧啶。59.如權利要求57所述的方法,其特征在于:所述靶向DNA甲基化定序包括將所述第一多個核酸中的一個或多個甲基化胞嘧啶轉化為對應的一個或多個尿嘧啶;以及所述DNA甲基化定序將所述一個或多個5
?
甲基胞嘧啶或5
?
羥甲基胞嘧啶讀出為一個或多個對應的胸腺嘧啶。60.如權利要求59所述的方法,其特征在于:一個或多個未甲基化胞嘧啶或一個或多個甲基化胞嘧啶的轉化包括一化學轉化、一酶促轉化或其組合。61.如權利要求1至60中任一項所述的方法,其特征在于:所述模型是在一組對象中進行訓練的,其中在所述一組對象中的一第一部分具有所述疾病狀況,并且在所述一組對象中的一第二部分不具有所述疾病狀況。62.如權利要求1至61中任一項所述的方法,其特征在于:所述模型是一神經網絡算法、一支持向量機算法、一樸素貝葉斯分類器算法、一最鄰近搜索算法、一提升樹算法、一隨機森林算法、一決策樹算法、一多分類邏輯回歸算法或一線性回歸算法。63.如權利要求1至61中任一項所述的方法,其特征在于:所述模型包括:(i)一輸入層,用于接收所述多個基因型特征的多個值,其中所述多個基因型特征包括一第一數量的維度;(ii)一嵌入層,包括一組權重,其中所述嵌入層直接或間接接收所述輸入層的輸出,并且所述嵌入層的一輸出是具有一第二數量的維度的一模型得分集,所述第二數量的維度小于所述第一數量的維度;以及(iii)一輸出層,直接或間接從所述嵌入層接收所述模型得分集,其中所述第一模型得分集是在將所述第一基因型數據結構輸入到所述輸入層時所述嵌入層的所述模型得分集;并且所述第二模型得分集是在將所述第二基因型數據結構輸入到所述輸入層時所述嵌入層的所述模型得分集。64.如權利要求63所述的方法,其特征在于:所述評估(F)包括對照所述多個參考δ得分集通過邏輯回歸訓練使用一邏輯函數來評估所述測試δ得分集,其中所述多個參考δ得分中的每個參考δ得分集是基于以下(i)與(ii)之間的一差異針對在所述多個參考對象中的一相應參考對象:(i)一第一得分集,使用包括所述多個基因型特征的多個值的一第一相應參考基因型數據結構由所述模型的所述嵌入層來提供,所述多個值是使用在一相應第一時間點從所述相應參考對象獲得的一第一相應生物樣本來獲取;以及
(ii)一第一二得分集,使用包括所述多個基因型特征的多個值的一第二相應基因型數據結構由所述模型的所述嵌入層來提供,所述多個值是使用在不同于所述第一相應時間點的一相應第二時間點從所述相應參考對象獲得的一第二相應生物樣本來獲取。65.如權利要求63或64所述的方法,其特征在于:所述模型是一卷積神經網絡。66.如權利要求63至65中任一項所述的方法,其特征在于:所述多個參考對象...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。