System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據分類,特別涉及一種基于人工智能的數據分類分級方法。
技術介紹
1、隨著醫療領域迅速積累大量數據,這些數據的規模和復雜性超出了傳統分析方法的處理能力。采用人工智能技術可以通過自動化特征提取和模式識別來處理這些龐大的數據集,為醫療數據的分類和分級提供高效解決方案。然而,醫療數據分類分級的準確性和一致性對于診斷和治療至關重要。當前的技術主流是構建能夠持續學習和適應的數據分類分級模型,以提供更加可靠的分類分級結果。然而,數據分類分級模型的構建仍然面臨許多挑戰,其中如何在構建過程中進行調優是需要重點解決的問題。
2、現有方案在處理多樣的醫療數據時,一些樣本會因為存在缺失值而無法被使用,這就會使本就稀少的數據變得更少。在構建數據分類分級深度神經網絡模型的過程中,經常會因為樣本類別不均衡,且大量類別中的可訓練樣本非常少等原因導致模型過擬合,即:模型在訓練數據上表現良好,但是在新的未見過的數據上泛化能力差。為了解決在醫療數據中存在的過擬合問題,本專利技術結合醫療數據的特點,設計了一種k-近鄰插補的數據補全方法,以充分利用珍貴的醫療數據。還創新性地提出了一個獎勵函數正則化方法,該正則化旨在直接激勵模型主動追求理想的狀態,如模型簡單性、分類置信度等。通過在損失函數中引入獎勵項,模型在優化過程中將自主權衡模型復雜度和任務相關性能指標,從而獲得更佳的防止過擬合的效果。
技術實現思路
1、本專利技術的目的在于提供一種基于人工智能的數據分類分級方法,用于解決上述至少一個技術問題,
2、本專利技術的實施例是這樣實現的:
3、一種基于人工智能的數據分類分級方法,其包括:
4、采集原始醫療數據,采用k均值聚類算法對所述原始醫療數據進行預處理,分配到不同的簇中,得到聚類醫療數據集。
5、對所述聚類醫療數據集采用k-近鄰插補方法進行數據補全,得到完整聚類醫療數據集。
6、利用卷積神經網絡和基于獎勵函數的正則化技術,構建醫療數據預測模型。
7、采用所述完整聚類醫療數據集對所述醫療數據預測模型進行模型訓練。
8、結合貝葉斯優化算法,對所述醫療數據預測模型進行超參數調優。
9、將待分類分級的醫療數據輸入超參數調優后的所述醫療數據預測模型,得到分類分級結果。
10、在本專利技術較佳的實施例中,上述基于人工智能的數據分類分級方法中,所述采集原始醫療數據,采用k均值聚類算法對所述原始醫療數據進行預處理,分配到不同的簇中,得到聚類醫療數據集包括:
11、從確定的數據源中采集原始醫療數據,所述數據源包括醫院數據庫、電子健康記錄、醫學影像數據庫和生物標志物數據中的至少一種。
12、對所述原始醫療數據進行數據標準化處理,轉換為統一形式的標準醫療數據。
13、確定聚類數目k,將所有所述標準醫療數據分成k個簇。
14、執行距離分配算法,將每個所述標準醫療數據對應的數據點分配到最近的聚類中心。
15、重新計算每個簇的均值,更新聚類中心,直到聚類中心位置的變化小于設定的閾值,使得每個數據點被分配到一個指定的簇中,所有所述數據點對應的所述標準醫療數據根據簇標簽進行分類,形成聚類醫療數據集。
16、其技術效果在于:采用k均值聚類算法對標準化后的醫療數據進行聚類處理,通過距離分配算法將每個數據點分配到最近的聚類中心,并迭代更新聚類中心,直至收斂,確保了聚類結果的準確性和穩定性,使得每個數據點都能被分配到一個合適的簇中。最終得到的聚類醫療數據集反映了數據內在的模式和結構,每個簇代表了具有相似特征和屬性的數據點的集合,這種集群化的數據集有助于后續的數據分析和模型建立,能夠更好地理解和利用醫療數據的內在關聯性。
17、在本專利技術較佳的實施例中,上述基于人工智能的數據分類分級方法中,所述對所述聚類醫療數據集采用k-近鄰插補方法進行數據補全,得到完整聚類醫療數據集包括:
18、檢查并識別所述聚類醫療數據集的原始數據矩陣x中缺失值的位置。
19、通過交叉驗證選擇n_neighbors的值。
20、使用每個所述缺失值的n_neighbors個最近鄰進行插補,計算得到插補值。
21、將計算得到的所述插補值補入所述原始數據矩陣x中,,得到完整聚類醫療數據集。
22、其技術效果在于:k-近鄰插補方法能夠有效地填補原始數據矩陣中的缺失值,通過分析每個缺失值周圍的n_neighbors個最近鄰來計算插補值,保持數據集的完整性,確保所有數據都可以被納入分析和建模中,避免了因數據缺失而導致的信息損失和偏差;通過插補缺失值,可以減少數據集中的偏差和不完整性對分析結果的影響,為后續建立預測模型提供了更加準確和全面的數據基礎,能夠更穩定地支持數據分析和模型構建過程。
23、在本專利技術較佳的實施例中,上述基于人工智能的數據分類分級方法中,所述使用數據集中每個缺失值的n_neighbors個最近鄰進行插補,計算得到插補值包括:
24、計算所述聚類醫療數據集中所有樣本之間的n×n的距離矩陣d,矩陣中的每個元素表示樣本和樣本之間的距離,計算公式為,其中,n為樣本的數量,m是特征的數量,是樣本i在第k個特征上的值,是樣本j在第k個特征上的值。
25、對于每個缺失值,找到其在特征j上非缺失值樣本的最近鄰樣本集合。
26、計算最近鄰樣本和之間的權重值,計算公式為。
27、計算最近鄰樣本的加權均值,計算公式為,其中,為最近鄰樣本在特征j上的值。
28、對最近鄰樣本的值乘以對應權重,除以所有權重之和,得到插補值。
29、其技術效果在于:基于數據集中每個缺失值的n_neighbors個最近鄰進行插補的方法,通過充分利用樣本間的相似性和權重信息,有效提高了插補過程的準確性和數據的完整性。
30、在本專利技術較佳的實施例中,上述基于人工智能的數據分類分級方法中,所述利用卷積神經網絡和基于獎勵函數的正則化技術,構建醫療數據預測模型包括:
31、定義醫療數據預測模型的神經網絡結構,包括輸入層、第一卷積層、第一最大池化層、第二卷積層、第二最大池化層、第一全連接層、第一dropout層、第二全連接層、第二dropout層和輸出層。
32、所述輸入層的大小為醫療數據包含的特征數量。
33、所述第一卷積層應用多個濾波器提取輸入數據的低級特征,采用relu激活函數,輸出與輸入相同的張量維度,通道數根據濾波器數目增加。
34、所述第一最大池化層的步幅與池化窗口的大小相同,輸出張量的高度和寬度減半,通道數保持不變。
35、所述第一dropout層在訓練過程中隨機斷開指定比例的神經元連接,防止過擬合。
36、所述第本文檔來自技高網...
【技術保護點】
1.一種基于人工智能的數據分類分級方法,其特征在于,包括:
2.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述采集原始醫療數據,采用k均值聚類算法對所述原始醫療數據進行預處理,分配到不同的簇中,得到聚類醫療數據集包括:
3.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述對所述聚類醫療數據集采用K-近鄰插補方法進行數據補全,得到完整聚類醫療數據集包括:
4.根據權利要求3所述的基于人工智能的數據分類分級方法,其特征在于,所述使用數據集中每個缺失值的n_neighbors個最近鄰進行插補,計算得到插補值包括:
5.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述利用卷積神經網絡和基于獎勵函數的正則化技術,構建醫療數據預測模型包括:
6.根據權利要求5所述的基于人工智能的數據分類分級方法,其特征在于,所述在訓練損失函數中加入基于獎勵函數的正則化項包括:
7.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述采用所述完整聚類醫療數據集對
8.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述結合貝葉斯優化算法,對所述醫療數據預測模型進行超參數調優包括:
9.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述將待分類分級的醫療數據輸入超參數調優后的所述醫療數據預測模型,得到分類分級結果包括:
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至9中任一項所述的基于人工智能的數據分類分級方法。
...【技術特征摘要】
1.一種基于人工智能的數據分類分級方法,其特征在于,包括:
2.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述采集原始醫療數據,采用k均值聚類算法對所述原始醫療數據進行預處理,分配到不同的簇中,得到聚類醫療數據集包括:
3.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述對所述聚類醫療數據集采用k-近鄰插補方法進行數據補全,得到完整聚類醫療數據集包括:
4.根據權利要求3所述的基于人工智能的數據分類分級方法,其特征在于,所述使用數據集中每個缺失值的n_neighbors個最近鄰進行插補,計算得到插補值包括:
5.根據權利要求1所述的基于人工智能的數據分類分級方法,其特征在于,所述利用卷積神經網絡和基于獎勵函數的正則化技術,構建醫療數據預測模型包括:
6...
【專利技術屬性】
技術研發人員:孔斌,劉陽,王濤,
申請(專利權)人:杭州迪普科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。