System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 免费无码作爱视频,亚洲爆乳无码专区,性无码免费一区二区三区在线
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種模型訓練方法、裝置、存儲介質及處理器制造方法及圖紙

    技術編號:44083986 閱讀:16 留言:0更新日期:2025-01-21 12:22
    本申請公開了一種模型訓練方法、裝置、存儲介質及處理器。該方案中,獲取用于訓練初始預測模型的訓練樣本集合;通過初始預測模型確定訓練樣本集合中訓練樣本各自對應的預測結果;根據預測結果與所對應訓練樣本的樣本標簽得到的預測誤差,確定各個訓練樣本對應的樣本分布密度;根據各個訓練樣本的預測結果和樣本分布密度,構建預測損失函數;通過預測損失函數對初始預測模型進行參數調整,得到預測模型。通過上述方案能夠在處理第一類樣本的數量少于第二類樣本的數量的訓練樣本集合時,通過動態調節易分樣本和難分樣本在模型總體損失中所占的比重,降低易分樣本在模型總體損失中所占的比重,提高模型對難分樣本的分類性能。

    【技術實現步驟摘要】

    本申請涉及人工智能,特別是涉及一種模型訓練方法、裝置、存儲介質及處理器


    技術介紹

    1、隨著人工智能技術的快速發展,人工智能技術被廣泛應用在各個行業和領域中,例如,在醫療健康領域,通過人工智能技術將臨床大數據轉化為臨床可用的知識,并構建智能預測模型,實現對疾病的風險提示。

    2、然而,在構建智能預測模型的過程中,經常會遇到一些不平衡樣本數據的處理,例如處理罕見病等不同類別的樣本數量有量級上的差距的樣本數據。由于此類數據中正常樣本的數量遠大于異常樣本的數量,導致在智能預測模型的訓練過程中,易分樣本的數量較多,使模型過度關注易分樣本而忽視了難分樣本,導致模型對難分樣本的分類性能下降。


    技術實現思路

    1、基于上述問題,本申請提供了一種模型訓練方法、裝置、存儲介質及處理器,目的是在處理第一類樣本的數量少于第二類樣本的數量的訓練樣本集合時,通過動態調節易分樣本和難分樣本在模型總體損失中所占的比重,降低易分樣本在模型總體損失中所占的比重,提高模型對難分樣本的分類性能。

    2、本申請實施例公開了如下技術方案:

    3、本申請第一方面,提供了一種模型訓練方法,該方法包括:

    4、獲取用于訓練初始預測模型的訓練樣本集合,訓練樣本集合的訓練樣本包括第一類樣本和第二類樣本,第一類樣本的樣本標簽為目標標簽,第二類樣本的樣本標簽為非目標標簽,第一類樣本的數量在訓練樣本集合中少于第二類樣本的數量;

    5、通過初始預測模型,確定訓練樣本集合中訓練樣本各自對應的預測結果;

    6、根據預測結果與所對應訓練樣本的樣本標簽得到的預測誤差,確定各個訓練樣本對應的樣本分布密度;其中,針對訓練樣本集合中的第i個訓練樣本,確定以第i個訓練樣本的預測誤差為中心點的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據誤差數量確定第i個訓練樣本對應的樣本分布密度;

    7、根據各個訓練樣本的預測結果和樣本分布密度,構建預測損失函數;在預測損失函數中,樣本分布密度用于作為所對應預測結果的損失權重,損失權重與所對應樣本分布密度呈負相關;

    8、通過預測損失函數對初始預測模型進行參數調整,得到預測模型;預測模型用于識別待處理數據屬于目標標簽對應的目標類別,或者屬于非目標標簽對應的其他類別。

    9、在可選的實現方式中,針對訓練樣本集合中的第i個訓練樣本,確定以第i個訓練樣本的預測誤差為中心點的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據誤差數量確定第i個訓練樣本對應的樣本分布密度,包括:

    10、基于訓練樣本集合的訓練樣本的數量確定目標長度;

    11、將第i個訓練樣本的預測誤差作為中心點,以目標長度為半徑確定第i個訓練樣本對應的誤差值區間;

    12、統計第i個訓練樣本對應的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據誤差數量確定第i個訓練樣本對應的樣本分布密度。

    13、在可選的實現方式中,依據誤差數量確定第i個訓練樣本對應的樣本分布密度,包括:

    14、確定第i個訓練樣本對應的誤差值區間的區間長度;

    15、基于誤差數量和區間長度,確定第i個訓練樣本對應的樣本分布密度。

    16、在可選的實現方式中,在獲取用于訓練初始預測模型的訓練樣本集合之前,模型訓練方法還包括:

    17、獲取目標數據集合;目標數據集合中包括多個樣本數據,每個樣本數據中包括多個子數據;

    18、基于每個樣本數據中的子數據的缺失情況確定該樣本數據的數據缺失率,得到每個樣本數據的數據缺失率;

    19、依據每個樣本數據的數據缺失率對該樣本數據中缺失的子數據進行數據填充處理,得到訓練樣本。

    20、在可選的實現方式中,依據每個樣本數據的數據缺失率對該樣本數據中缺失的子數據進行數據填充處理,得到訓練樣本,包括:

    21、判斷樣本數據的數據缺失率是否小于預設閾值;

    22、若樣本數據的數據缺失率大于或等于預設閾值,則刪除樣本數據;

    23、若樣本數據的數據缺失率小于預設閾值,且樣本數據中缺失的子數據為數值數據,則獲取目標數據集合中的所有目標子數據,并基于所有目標子數據的平均值對樣本數據中缺失的子數據進行填充,得到訓練樣本;目標子數據的數據類別與缺失的子數據的數據類別相同,且目標子數據對應的樣本數據的樣本標簽與缺失的子數據對應的樣本數據的樣本標簽相同。

    24、在可選的實現方式中,根據各個訓練樣本的預測結果和樣本分布密度,構建預測損失函數,包括:

    25、基于第一類樣本的數量和第二類樣本的數量確定目標調節參數;

    26、根據目標調節參數、各個訓練樣本的預測結果和樣本分布密度,構建預測損失函數。

    27、本申請第二方面,提供了一種模型訓練裝置,該裝置包括:

    28、獲取模塊,用于獲取用于訓練初始預測模型的訓練樣本集合,訓練樣本集合的訓練樣本包括第一類樣本和第二類樣本,第一類樣本的樣本標簽為目標標簽,第二類樣本的樣本標簽為非目標標簽,第一類樣本的數量在訓練樣本集合中少于第二類樣本的數量;

    29、預測模塊,用于通過初始預測模型,確定訓練樣本集合中訓練樣本各自對應的預測結果;

    30、樣本分布密度確定模塊,用于根據預測結果與所對應訓練樣本的樣本標簽得到的預測誤差,確定各個訓練樣本對應的樣本分布密度;其中,針對訓練樣本集合中的第i個訓練樣本,確定以第i個訓練樣本的預測誤差為中心點的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據誤差數量確定第i個訓練樣本對應的樣本分布密度;

    31、損失函數構建模塊,用于根據各個訓練樣本的預測結果和樣本分布密度,構建預測損失函數;在預測損失函數中,樣本分布密度用于作為所對應預測結果的損失權重,損失權重與所對應樣本分布密度呈負相關;

    32、模型訓練模塊,用于通過預測損失函數對初始預測模型進行參數調整,得到預測模型;預測模型用于識別待處理數據屬于目標標簽對應的目標類別,或者屬于非目標標簽對應的其他類別。

    33、可選地,樣本分布密度確定模塊包括:

    34、長度確定單元,用于基于訓練樣本集合的訓練樣本的數量確定目標長度;

    35、誤差值區間確定單元,用于針對訓練樣本集合中的第i個訓練樣本,將第i個訓練樣本的預測誤差作為中心點,以目標長度為半徑確定第i個訓練樣本對應的誤差值區間;

    36、樣本分布密度確定單元,用于統計第i個訓練樣本對應的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據誤差數量確定第i個訓練樣本對應的樣本分布密度。

    37、本申請第三方面,提供了一種計算機可讀存儲介質,計算機可讀存儲介質中存儲有計算機程序,當計算機程序被處理器運行時,實現上述第一方面介紹的模型訓練方法。

    38、本申請第四方面,提供了一種處理器,用于運行計算機程序,計算機程序運行時執行上述第一方面介紹的模型訓本文檔來自技高網...

    【技術保護點】

    1.一種模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述針對所述訓練樣本集合中的第i個訓練樣本,確定以所述第i個訓練樣本的預測誤差為中心點的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據所述誤差數量確定所述第i個訓練樣本對應的樣本分布密度,包括:

    3.根據權利要求2所述的方法,其特征在于,所述依據所述誤差數量確定所述第i個訓練樣本對應的樣本分布密度,包括:

    4.根據權利要求1所述的方法,其特征在于,在獲取用于訓練初始預測模型的訓練樣本集合之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述依據每個所述樣本數據的數據缺失率對該樣本數據中缺失的子數據進行數據填充處理,得到所述訓練樣本,包括:

    6.根據權利要求1所述的方法,其特征在于,所述根據各個所述訓練樣本的預測結果和所述樣本分布密度,構建預測損失函數,包括:

    7.一種模型訓練裝置,其特征在于,包括:

    8.根據權利要求7所述的裝置,其特征在于,所述樣本分布密度確定模塊包括:

    9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,當所述計算機程序被處理器運行時,實現如權利要求1-6中所述的模型訓練方法。

    10.一種處理器,其特征在于,用于運行計算機程序,所述計算機程序運行時執行如權利要求1-6中所述的模型訓練方法。

    ...

    【技術特征摘要】

    1.一種模型訓練方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述針對所述訓練樣本集合中的第i個訓練樣本,確定以所述第i個訓練樣本的預測誤差為中心點的誤差值區間中的所有訓練樣本的預測誤差的誤差數量,并依據所述誤差數量確定所述第i個訓練樣本對應的樣本分布密度,包括:

    3.根據權利要求2所述的方法,其特征在于,所述依據所述誤差數量確定所述第i個訓練樣本對應的樣本分布密度,包括:

    4.根據權利要求1所述的方法,其特征在于,在獲取用于訓練初始預測模型的訓練樣本集合之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述依據每個所述樣本數據的數據缺失率對該...

    【專利技術屬性】
    技術研發人員:聞英友何濤李志李世誠許曉非王偉苗苗楊青文
    申請(專利權)人:東軟云科技沈陽有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩乱码人妻无码中文字幕久久| 精品久久久无码人妻中文字幕豆芽 | 国产免费黄色无码视频| 精品人妻无码一区二区三区蜜桃一| 国产精品无码v在线观看| 亚洲av专区无码观看精品天堂| 韩国无码AV片在线观看网站 | 91嫩草国产在线无码观看| 国产成人无码a区在线观看视频免费| 亚洲精品无码mv在线观看网站| 免费A级毛片无码久久版| 久久久无码精品亚洲日韩蜜臀浪潮 | 亚洲av无码av制服另类专区| 日韩少妇无码喷潮系列一二三| 玖玖资源站无码专区| 伊人久久无码中文字幕| 影院无码人妻精品一区二区| 亚洲色无码专区一区| 久久人妻无码中文字幕| 久久无码专区国产精品| 国产乱人伦Av在线无码| 久久亚洲AV无码西西人体| 少妇无码太爽了不卡视频在线看| 精品无码一区在线观看 | 亚洲AV无码成人网站在线观看| 无码一区二区三区在线观看| 国产在线精品无码二区| 亚洲成a人片在线观看无码| 精品无码久久久久久久久久| 亚洲av无码国产精品色在线看不卡| 日韩av片无码一区二区不卡电影| 亚洲国产AV无码一区二区三区| 亚洲精品无码高潮喷水A片软| 亚洲国产成人精品无码区在线网站| 少妇伦子伦精品无码STYLES| 久久亚洲AV成人无码| 在人线av无码免费高潮喷水| 无码中文字幕乱码一区| 免费无码国产V片在线观看| 无码精品人妻一区二区三区免费| 无码精品人妻一区二区三区AV|