System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码日韩精品一区二区人妻,亚洲人成无码www久久久,中文字幕人妻三级中文无码视频
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于機器學習的樣本數(shù)據(jù)處理方法和裝置制造方法及圖紙

    技術編號:42975008 閱讀:21 留言:0更新日期:2024-10-15 13:14
    本發(fā)明專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置,所述方法包括:獲取待處理的原始數(shù)據(jù),并構建第一數(shù)據(jù)庫,將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型,以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù);對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計;其中,所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的,所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。解決了現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題,提高了模型訓練效率。

    【技術實現(xiàn)步驟摘要】

    本專利技術涉及數(shù)據(jù)處理,尤其涉及一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置


    技術介紹

    1、在進行醫(yī)療圖像等數(shù)據(jù)處理時,通常會用到人工智能識別系統(tǒng),利用人工智能識別系統(tǒng)提高醫(yī)療圖像的識別效率和識別準確性。在搭建人工智能識別系統(tǒng)時,需要收集大量的目標數(shù)據(jù),并對收集到的數(shù)據(jù)經領域專家或相關標注人員進行精準標注,構建龐大的數(shù)據(jù)庫。對于自然場景下數(shù)據(jù)的標注,可以分發(fā)給數(shù)據(jù)標注人員,由大量的標注人員進行數(shù)據(jù)標注。由于數(shù)據(jù)量龐大,人力標注成本較高,且對于大規(guī)模的待標注數(shù)據(jù),易在標注時產生標注錯誤。在醫(yī)療圖像場景下,此類數(shù)據(jù)標注需要大批富有經驗,高年資的專家學者對數(shù)據(jù)的具體類別進行精準判定。但對于人才緊缺的醫(yī)療行業(yè),無法在有限的標注資源下,展開大規(guī)模的數(shù)據(jù)標注。并且在大規(guī)模的數(shù)據(jù)庫中,不同樣本間可能含有相似的信息,故信息冗余現(xiàn)象可能存在。

    2、在已有技術中,用于醫(yī)療圖像識別的人工智能識別系統(tǒng)通常是基于監(jiān)督學習的統(tǒng)計學習識別模型,在構建過程中需要進行特征構建,數(shù)據(jù)的預處理,統(tǒng)計學習模型的訓練等過程。在此過程中,由深度神經網絡直接進行特征抽取和自動分類,無差別的對所有收集到的數(shù)據(jù)進行標注。但是,已有技術采用的方法對訓練數(shù)據(jù)集中所有樣本一視同仁,未考慮數(shù)據(jù)集的信息冗余情況,對所有數(shù)據(jù)均進行標注,產生大量無效的標注(信息冗余),嚴重浪費稀有的標注資源;且將采集到的大量數(shù)據(jù)均進行模型訓練,延長了模型的訓練周期,增加了訓練成本,無法對模型進行快速迭代,影響模型訓練的效率。

    3、鑒于此,提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置,以期對采集到的原始數(shù)據(jù)進行處理,降低用于參與訓練的數(shù)據(jù)數(shù)量,剔除數(shù)據(jù)庫中的冗余數(shù)據(jù),減少標注量,從而提高模型訓練效率,就成為本領域技術人員亟待解決的問題。


    技術實現(xiàn)思路

    1、本專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置,用于解決現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題,以期通過對采集到的原始數(shù)據(jù)進行處理,降低用于參與訓練的數(shù)據(jù)數(shù)量,剔除數(shù)據(jù)庫中的冗余數(shù)據(jù),減少標注量,從而提高模型訓練效率。

    2、本專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法,所述方法包括:

    3、獲取待處理的數(shù)據(jù),并構建第一數(shù)據(jù)庫;

    4、將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型,以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù);

    5、對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計;

    6、其中,所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的,所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

    7、在一些實施例中,基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練,得到所述數(shù)據(jù)處理模型,具體包括:

    8、獲取原始數(shù)據(jù)樣本;

    9、將采集到的所述原始數(shù)據(jù)樣本劃分為多個子集,將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型,以得到所述樣本選擇模型輸出的圖像樣本;

    10、對篩選出的所述圖像樣本進行標注,以得到與每個圖像樣本對應的類別標簽;

    11、利用所述圖像樣本和所述類別標簽構建所述第二數(shù)據(jù)庫;

    12、將所述第二數(shù)據(jù)庫劃分為訓練集、驗證集和測試集;

    13、將所述訓練集中的樣本輸入預先構建的深度學習網絡進行訓練,以得到初始數(shù)據(jù)處理模型;

    14、利用驗證集對所述初始數(shù)據(jù)處理模型進行模型參數(shù)選擇,以得到所述數(shù)據(jù)處理模型。

    15、在一些實施例中,將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型,以得到所述樣本選擇模型輸出的圖像樣本,具體包括:

    16、將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型,在所述樣本選擇模型中計算互信息,以每個子集中互信息最大的樣本作為所述圖像樣本輸出。

    17、在一些實施例中,在所述樣本選擇模型的構建過程中,對所述樣本選擇模型進行參數(shù)采樣。

    18、在一些實施例中,在所述樣本選擇模型的構建過程中,對神經網絡中的最后一層全連接層的神經元進行隨機失活處理。

    19、在一些實施例中,所述互信息的表達式為:

    20、;

    21、其中,i(x,y)表示x和y的互信息,h(x|y)表示給定y時x的條件熵。

    22、本專利技術還提供一種基于機器學習的樣本數(shù)據(jù)處理裝置,所述裝置包括:

    23、數(shù)據(jù)采集單元,用于獲取待處理的數(shù)據(jù),并構建第一數(shù)據(jù)庫;

    24、數(shù)據(jù)篩選單元,用于將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型,以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù);

    25、數(shù)據(jù)統(tǒng)計單元,用于對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計;

    26、其中,所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的,所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

    27、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的方法。

    28、本專利技術還提供一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

    29、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

    30、本專利技術提供的基于機器學習的樣本數(shù)據(jù)處理方法和裝置,通過獲取待處理的數(shù)據(jù),并構建第一數(shù)據(jù)庫,將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型,以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù);對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計;其中,所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的,所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

    31、這樣,在數(shù)據(jù)處理模型的訓練過程中,通過對第二數(shù)據(jù)庫中篩選出的樣本和對應的標簽進行訓練,使得訓練出的數(shù)據(jù)處理模型具備樣本篩選能力,通過該模型可以從原始數(shù)據(jù)中挑選出最具有代表性的樣本,而后針對這些樣本經由專家標注,可以在不影響識別精度的前提下,大幅度減少需標注的樣本的數(shù)量,可以充分的利用有限的標注資源;同時,在標注數(shù)據(jù)有限的情形下,對富含信息量最大的樣本進行標注,將大幅度提高模型的識別精度并減小實驗周期,同時有效的緩解數(shù)據(jù)收集時產生的數(shù)據(jù)不均衡等實際應用中常見的問題。解決了現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題,通過對采集到的原始數(shù)據(jù)進行處理,降低了用于參與訓練的數(shù)據(jù)數(shù)量,剔除了數(shù)據(jù)庫中的冗余數(shù)據(jù),減少了標注量,從而提高了模型訓練效率。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練,得到所述數(shù)據(jù)處理模型,具體包括:

    3.根據(jù)權利要求2所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型,以得到所述樣本選擇模型輸出的圖像樣本,具體包括:

    4.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,在所述樣本選擇模型的構建過程中,對所述樣本選擇模型進行參數(shù)采樣。

    5.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,在所述樣本選擇模型的構建過程中,對神經網絡中的最后一層全連接層的神經元進行隨機失活處理。

    6.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,所述互信息的表達式為:

    7.一種基于機器學習的樣本數(shù)據(jù)處理裝置,其特征在于,所述裝置包括:

    8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權利要求1至6任一項所述的方法。

    9.一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述的方法。

    10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,所述方法包括:

    2.根據(jù)權利要求1所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,基于預先構建的深度學習網絡,利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練,得到所述數(shù)據(jù)處理模型,具體包括:

    3.根據(jù)權利要求2所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型,以得到所述樣本選擇模型輸出的圖像樣本,具體包括:

    4.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,在所述樣本選擇模型的構建過程中,對所述樣本選擇模型進行參數(shù)采樣。

    5.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法,其特征在于,在所述樣本選擇模型的構建過程中,...

    【專利技術屬性】
    技術研發(fā)人員:李柏蕤,連荷清,陳磊,
    申請(專利權)人:北京小蠅科技有限責任公司,
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 麻豆aⅴ精品无码一区二区| 亚洲欧洲精品无码AV| 色综合久久久无码网中文| 亚洲熟妇无码AV不卡在线播放| 亚洲熟妇无码一区二区三区| 不卡无码人妻一区三区音频| 中字无码av电影在线观看网站| 国产精品JIZZ在线观看无码| 亚洲毛片无码专区亚洲乱| av无码东京热亚洲男人的天堂| 97久久精品亚洲中文字幕无码| 日韩成人无码中文字幕| 无码一区二区三区AV免费| 无码H肉动漫在线观看| 人妻少妇乱子伦无码专区| 亚洲AV无码专区在线观看成人| 人妻无码视频一区二区三区| 国产成人无码AV一区二区| 一本大道无码日韩精品影视_| 亚洲欧洲国产综合AV无码久久| 久久精品岛国av一区二区无码| 精品人妻少妇嫩草AV无码专区| 无码人妻丰满熟妇区毛片| AV无码人妻中文字幕| 亚洲中文字幕在线无码一区二区| 国产午夜无码精品免费看| 国产成人无码精品久久久性色 | 亚洲中文字幕无码mv| 亚洲精品无码久久一线| 精品久久久久久无码人妻热| 精品少妇人妻av无码专区| 免费无码国产V片在线观看| 久久中文字幕无码一区二区| 无码射肉在线播放视频| 成人无码精品一区二区三区| 无码国模国产在线无码精品国产自在久国产| 亚洲久热无码av中文字幕| 无码专区永久免费AV网站| 成人免费无码大片a毛片| 一本大道久久东京热无码AV| 日韩少妇无码一区二区三区|