System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及醫療健康數據分析領域,特別是針對原發性干燥綜合征(pss)預測模型的建立,涉及到臨床檢驗數據的特征篩選和機器學習方法的應用,具體是一種基于多項臨床檢驗指標的pss預測模型的建立方法及pss預測系統。
技術介紹
1、原發性干燥綜合征(pss)是一種常見的自身免疫性疾病,傳統的預測模型通常依賴于患者的癥狀和實驗室檢驗結果,然而,這些方法的準確性和靈敏度有限。近年來,隨著數據科學和機器學習技術的快速發展,將機器學習方法應用于臨床數據分析,能夠實現疾病的早期預警模型的建立。現有技術中,雖然有部分研究探索了多種機器學習方法在臨床數據分析中的應用,但由于臨床數據的高維特性及其復雜性,目前仍然缺乏有效的特征篩選和多模型集成的優化方法。
技術實現思路
1、本專利技術的目的在于提供一種基于多項臨床檢驗指標的pss預測模型的建立方法及pss預測系統,通過集成多種機器學習方法和特征篩選算法,本專利技術提出了一種新的數據處理和分析框架,實現了對pss患者的預測模型建立,并揭示了重要特征對模型決策的貢獻度。
2、為實現上述目的,本專利技術采用了如下技術方案:
3、一種基于多項臨床檢驗指標的pss預測模型的建立方法,該方法包括以下步驟:
4、步驟(1)數據收集:收集所有研究對象的血常規、尿常規、生化全項、凝血、血淋巴細胞亞群計數等五項檢測數據;
5、步驟(2)數據預處理:對收集的數據進行預處理,包括刪除超過80%空值的行,并利用空值所在列計算的平均
6、步驟(3)數據標準化:對過濾后的樣本的臨床檢測數據集進行標準化處理;
7、步驟(4)數據集劃分:將標準化后的數據集按3:1的比例劃分為訓練集和測試集;
8、步驟(5)特征重要性評估與篩選:使用randomforestclassifier、cv2、f-score、xgb、lasso、lgbmclassifier六種算法對特征重要性進行評估,計算六種特征重要性值,并篩選出16個重要特征;
9、步驟(6)機器學習模型構建:基于篩選的特征構建七種機器學習模型,包括rf、svm、lr、gn、lightgbm、xgboost、knn模型;
10、步驟(7)模型優化與評估:通過五折交叉驗證和調整超參數對模型進行優化,并基于五折交叉驗證策略用acc、recall、f1、auc、精確度五個指標對模型性能進行評估;
11、步驟(8)模型解釋:利用shap解釋方法計算每個特征的shap值,反映特征對模型預測能力的貢獻度。
12、所述步驟(2)數據預處理中使用平均值填補空值;所述步驟(5)特征重要性評估與篩選中使用的特征篩選算法為randomforestclassifier、cv2、f-score、xgboost、lasso和lightgbm。
13、步驟步驟(6)機器學習模型構建中所使用的模型包括rf、svm、lr、gnb、lightgbm、xgboost和knn模型。
14、所述步驟(7)模型優化與評估通過五折交叉驗證和網格搜索調參實現;所述步驟(7)模型優化與評估基于五個指標,即acc、recall、f1、auc和precision。
15、所述步驟(8)模型解釋中使用shap方法計算每個特征的shap值。
16、本專利技術還提供一種基于多項臨床檢驗指標的pss預測系統,該系統包括:
17、(1)數據采集模塊,用于采集臨床檢驗數據;
18、(2)數據處理模塊,用于進行數據預處理和標準化;
19、(3)特征選擇模塊,用于使用多種算法評估特征重要性并篩選重要特征;
20、(4)模型訓練模塊,用于基于篩選的特征訓練多種機器學習模型;
21、(5)模型優化模塊,用于通過交叉驗證和超參數調整優化模型;
22、(6)模型評估模塊,用于評估模型的預測性能;
23、(7)模型解釋模塊,用于解釋特征對模型預測結果的影響。
24、所述數據處理模塊包括數據預處理單元和數據標準化單元,特征選擇模塊包括特征重要性評估單元和特征篩選單元。
25、本專利技術還提供一種基于所述的基于多項臨床檢驗指標的pss預測系統的pss預測方法,包括以下步驟:
26、步驟(1)通過數據采集模塊采集臨床檢驗數據;
27、步驟(2)使用數據處理模塊對數據進行預處理和標準化;
28、步驟(3)通過特征選擇模塊評估特征重要性并篩選重要特征;
29、步驟(4)使用模型訓練模塊基于篩選的特征訓練多種機器學習模型;
30、步驟(5)通過模型優化模塊對模型進行優化;
31、步驟(6)使用模型評估模塊評估模型的預測性能;
32、步驟(7)通過模型解釋模塊解釋特征對模型預測結果的影響。
33、所述步驟(3)中使用randomforestclassifier、cv2、f-score、xgboost、lasso和lightgbm算法評估特征重要性。
34、所述步驟(4)中訓練的機器學習模型為rf、svm、lr、gnb、lightgbm、xgboost和knn模型。
35、與現有技術相比,本專利技術有益效果如下:
36、本專利技術提供了一種基于多項臨床檢驗指標的pss預測模型的建立方法及pss預測系統,通過多種算法的集成優化,實現了對pss患者的準確預測,并揭示了重要特征對模型決策的貢獻度,特別適用于原發性干燥綜合征的早期預測模型。
37、本專利技術結果表明,基于血常規、尿常規、生化全項、凝血、血淋巴細胞亞群計數五項結果的基礎臨床檢驗數據可以實現對pss患者的有效預測。使用lasso策略得到16個特征作為lightgbm輸入特征構建的pss預測模型取得優異性能,準確率達到了0.88,auc達到0.93,精確率達到0.89。此外,通過模型解釋探究16個特征指標如何影響模型做出決策,例如glu和ua的升高會提升模型預測效果。通過比較16個特征指標在患者和健康樣本的表達,進一步證實其可以作為pss預測的關鍵指標。
本文檔來自技高網...【技術保護點】
1.一種基于多項臨床檢驗指標的pSS預測模型的建立方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的基于多項臨床檢驗指標的pSS預測模型的建立方法,其特征在于,所述步驟(2)數據預處理中使用平均值填補空值;所述步驟(5)特征重要性評估與篩選中使用的特征篩選算法為RandomForestClassifier、CV2、F-score、XGBoost、Lasso和LightGBM。
3.根據權利要求1所述的基于多項臨床檢驗指標的pSS預測模型的建立方法,其特征在于,步驟步驟(6)機器學習模型構建中所使用的模型包括RF、SVM、LR、GNB、LightGBM、XGBOOST和KNN模型。
4.根據權利要求1所述的基于多項臨床檢驗指標的pSS預測模型的建立方法,其特征在于,所述步驟(7)模型優化與評估通過五折交叉驗證和網格搜索調參實現;所述步驟(7)模型優化與評估基于五個指標,即ACC、Recall、F1、AUC和Precision。
5.根據權利要求1所述的基于多項臨床檢驗指標的pSS預測模型的建立方法,其特征在于,所述步驟(
6.一種基于多項臨床檢驗指標的pSS預測系統,其特征在于,該系統包括:
7.根據權利要求6所述的基于多項臨床檢驗指標的pSS預測系統,其特征在于,所述數據處理模塊包括數據預處理單元和數據標準化單元,特征選擇模塊包括特征重要性評估單元和特征篩選單元。
8.一種基于權利要求6或7所述的基于多項臨床檢驗指標的pSS預測系統的pSS預測方法,其特征在于,包括以下步驟:
9.根據權利要求8所述的pSS預測方法,其特征在于,所述步驟(3)中使用RandomForestClassifier、CV2、F-score、XGBoost、Lasso和LightGBM算法評估特征重要性。
10.根據權利要求8或9所述的pSS預測方法,其特征在于,所述步驟(4)中訓練的機器學習模型為RF、SVM、LR、GNB、LightGBM、XGBOOST和KNN模型。
...【技術特征摘要】
1.一種基于多項臨床檢驗指標的pss預測模型的建立方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的基于多項臨床檢驗指標的pss預測模型的建立方法,其特征在于,所述步驟(2)數據預處理中使用平均值填補空值;所述步驟(5)特征重要性評估與篩選中使用的特征篩選算法為randomforestclassifier、cv2、f-score、xgboost、lasso和lightgbm。
3.根據權利要求1所述的基于多項臨床檢驗指標的pss預測模型的建立方法,其特征在于,步驟步驟(6)機器學習模型構建中所使用的模型包括rf、svm、lr、gnb、lightgbm、xgboost和knn模型。
4.根據權利要求1所述的基于多項臨床檢驗指標的pss預測模型的建立方法,其特征在于,所述步驟(7)模型優化與評估通過五折交叉驗證和網格搜索調參實現;所述步驟(7)模型優化與評估基于五個指標,即acc、recall、f1、auc和precision。
5.根據權利要求1所述的基...
【專利技術屬性】
技術研發人員:劉舒,劉鐵,袁欣然,吳觀皓,潘夢格,
申請(專利權)人:南京鼓樓醫院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。