本發明專利技術公開了一種基于遷移學習的培養基配方開發方法及系統。所述方法包括:(1)獲取以深度神經網絡為基礎的培養基預訓練模型、以及待開發細胞的訓練用培養基配方數據集;(2)預訓練模型遷移;(3)培養效果值回歸預測:對于待預測的培養基配方,采用步驟(2)獲得的最終模型進行培養效果值預測。本發明專利技術通過采用少量訓練數據對培養基預訓練模型進行遷移訓練,大大壓縮了針對特定細胞配方開發所需的訓練數據量,極大的縮短培養基配方的開發時間,從4
【技術實現步驟摘要】
一種基于遷移學習的培養基配方開發方法及系統
[0001]本專利技術屬于生物
,更具體地,涉及一種基于遷移學習的培養基配方開發方法及系統。
技術介紹
[0002]無血清無動物來源、化學成分限定培養基由碳源、氨基酸、維生素、微量金屬離子、脂類、緩沖試劑和其他添加試劑組成,傳統的培養基配方開發方式為以某一種或幾種經典培養基為基礎(比如DEME/F12),通過添加多種不同成分,采用單因素試驗或DOE篩選試驗找到關鍵組分,然后再用響應曲面等多種DOE實驗設計,優化各組分濃度,以獲得最佳配方;或根據細胞代謝分析、基因組學分析和蛋白組學分析找到各組分在細胞生長過程中變化情況及對目標產物產量和質量的影響來優化配方。
[0003]現有傳統技術需要進行多輪試驗,每次試驗不能包含所有成分,費時較長,需要掌握基礎化學、生化與分子生物學、細胞生物學等較多專業理論知識,獲得配方可能不是最優。
[0004]結合人工智能技術的細胞培養基開發技術,則通過生成大量培養基配方,然后進行細胞培養實驗,獲得數據形成培養基數據集,從而訓練回歸預測算法模型來預測最佳培養基配方,縮短培養基開發的周期。然而這種方法的準確性在很大程度上由先驗經驗決定,即用來訓練回歸預測算法模型的配方和實驗數據其數量和質量起到了決定性的影響,為了能夠預測出最佳培養基配方,需要采用大量人力物力獲得大量配方實驗數據。當用這種回歸算法來預測新的細胞的最佳配方時,需要花費大量人力物力完成大量配方數據,然后才能預測最佳配方,針對新細胞配方開發時間成本較高。
專利技術內容
[0005]針對現有技術的以上缺陷或改進需求,本專利技術提供了一種基于遷移學習的培養基配方開發方法及系統,其目的在于,應用遷移學習技術,采用少量針對特定細胞的培養基配方訓練數據,對由大量培養基配方訓練獲得的預訓練模型,針對特定細胞進行迅速的遷移訓練,從而減少培養基AI推薦系統開發所需要的訓練數據量和AI系統訓練時間,迅速獲得預測準確性良好的AI模型,由此解決現有的培養基開發方法需要針對特定細胞進行大量培養實驗的難題,解決收集足夠的訓練數據導致的AI模型的訓練成本高、開發周期長、已有數據庫不能利用的技術問題。
[0006]為實現上述目的,按照本專利技術的一個方面,提供了一種基于遷移學習的培養基配方開發方法,其包括以下步驟:
[0007](1)獲取以深度神經網絡為基礎的培養基預訓練模型、以及待開發細胞的訓練用培養基配方數據集;
[0008](2)預訓練模型遷移:一次或多次采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集,按照越靠近輸出端優先級越高的原則,更新所述預訓練模型的部分神經層,獲
得待開發細胞的回歸模型;
[0009](3)培養效果值回歸預測:對于待預測的培養基配方,采用步驟(2)獲得的最終模型進行培養效果值預測。
[0010]優選地,所述基于遷移學習的培養基配方開發方法,其步驟(2)所述更新預訓練模型的部分神經層具體為:
[0011]凍結不更新部分的神經層;
[0012]采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集訓練所述預訓練模型;
[0013]使得未被凍結的網絡層更新。
[0014]優選地,所述基于遷移學習的培養基配方開發方法,其步驟(2)當待開發細胞的訓練用培養基配方數據集大小在50至500之間時,凍結所述預訓練模型靠近輸入端的5至10層神經層,更新其余神經層。
[0015]優選地,所述基于遷移學習的培養基配方開發方法,其所述培養基預訓練模型,包括依次相連的多層神經層,按照數據輸入輸出順序依次為輸入層、隱藏層和輸出層;所述培養基配方依次經過輸入層、隱藏層以及輸出層預測所述培養基配方相應的培養效果值。
[0016]優選地,所述基于遷移學習的培養基配方開發方法,其步驟(2)包括以下子步驟:
[0017](2
?
1)輸出層調整:凍結步驟(1)獲取的預訓練模型的輸入層和隱藏層,采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集訓練所述預訓練模型,使得所述預訓練模型的輸出層更新,獲得中間訓練模型;
[0018](2
?
2)微調整:凍結步驟(2
?
1)獲得的所述中間訓練模型的靠近輸入端的部分隱藏層,采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據訓練所述中間訓練模型,使得所述中間訓練模型的輸出層和靠近輸出端的部分隱藏層更新,獲得待開發細胞的回歸模型。
[0019]優選地,所述基于遷移學習的培養基配方開發方法,其所述培養基預訓練模型,包括5至20層神經層,以配方各成分的添加濃度為輸入特征,以培養效果值為輸出特征,訓練用數據量在1000以上。
[0020]優選地,所述基于遷移學習的培養基配方開發方法,其培養基預訓練模型的輸入特征優選經過特征選擇步驟,選擇貢獻度大的特征,以保證預訓練模型在遷移過程中具有良好的泛化能力和準確性。
[0021]優選地,所述基于遷移學習的培養基配方開發方法,其培養基預訓練模型的訓練數據對應的配方形成包括以下四種方法:隨機生成配方、DOE實驗設計配方、混合形成配方、以及歷史AI推薦配方。
[0022]按照本專利技術的另一個方面提供了一種基于遷移學習的培養基配方開發系統,其待開發細胞的訓練用培養基配方數據生成模塊、培養基預訓練模型遷移模塊、以及培養效果值回歸預測模塊;
[0023]所述待開發細胞的訓練用培養基配方數據生成模塊,用于獲取待開發細胞的訓練用培養基配方數據集,并提交給所述培養基預訓練模型遷移模塊;
[0024]所述培養基預訓練模型遷移模塊,載入有培養基預訓練模型,采用所述訓練用培養基配方數據集,按照越靠近輸出端優先級越高的原則更新所述預訓練模型的部分神經
層,獲得待開發細胞的回歸模型并提交給所述培養效果值回歸預測模塊;
[0025]所述培養效果值回歸預測模塊,用于采用所述待開發細胞的回歸模型預測待預測的培養基配方的培養效果值。
[0026]按照本專利技術的另一個方面,提供了一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其所述計算機程序被處理器執行時實現本專利技術提供的基于遷移學習的培養基配方開發方法步驟。
[0027]總體而言,通過本專利技術所構思的以上技術方案與現有技術相比,能夠取得下列有益效果:
[0028]本專利技術通過采用少量訓練數據對培養基預訓練模型進行遷移訓練,反復利用現有的實驗驗證配方數據庫,大大壓縮了針對特定細胞株所需的訓練數據量,極大的減少配方收集成本,縮短配方的開發時間,從4
?
6個月壓縮至1
?
2個月,顯著降低開發成本。
[0029]由于本專利技術提供的培養基開發方法大幅縮減了培養基開發時間成本和經濟成本,而預訓練模型可以反復使用,因此對于同類型的細胞可以并行開發,同時為多個不同細胞株配方開發,進一步壓縮時間成本。
附圖說明
[0030]圖1是本專利技術提供的基于遷移學習的培本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于遷移學習的培養基配方開發方法,其特征在于,包括以下步驟:(1)獲取以深度神經網絡為基礎的培養基預訓練模型、以及待開發細胞的訓練用培養基配方數據集;(2)預訓練模型遷移:一次或多次采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集,按照越靠近輸出端優先級越高的原則,更新所述預訓練模型的部分神經層,獲得待開發細胞的回歸模型;(3)培養效果值回歸預測:對于待預測的培養基配方,采用步驟(2)獲得的最終模型進行培養效果值預測。2.如權利要求1所述的基于遷移學習的培養基配方開發方法,其特征在于,步驟(2)所述更新預訓練模型的部分神經層具體為:凍結不更新部分的神經層;采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集訓練所述預訓練模型;使得未被凍結的網絡層更新。3.如權利要求1所述的基于遷移學習的培養基配方開發方法,其特征在于,步驟(2)當待開發細胞的訓練用培養基配方數據集大小在50至500之間時,凍結所述預訓練模型靠近輸入端的5至10層神經層,更新其他神經層。4.如權利要求1所述的基于遷移學習的培養基配方開發方法,其特征在于,所述培養基預訓練模型,包括依次相連的多層神經層,按照數據輸入輸出順序依次為輸入層、隱藏層和輸出層;所述培養基配方依次經過輸入層、隱藏層以及輸出層預測所述培養基配方相應的培養效果值。5.如權利要求4所述的基于遷移學習的培養基配方開發方法,其特征在于,步驟(2)包括以下子步驟:(2
?
1)輸出層調整:凍結步驟(1)獲取的預訓練模型的輸入層和隱藏層,采用步驟(1)獲取的待開發細胞的訓練用培養基配方數據集訓練所述預訓練模型,使得所述預訓練模型的輸出層更新,獲得中間訓練模型;(2
?
2)微調整:凍結步驟(2
?
1)獲得的所述中間訓練模型...
【專利技術屬性】
技術研發人員:梁楚亨,張祥濤,陳亮,買買提依明,
申請(專利權)人:東莞太力生物工程有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。