基于機器學習的樣本數(shù)據(jù)處理方法和裝置制造方法及圖紙

技術編號：42975008 閱讀：21 留言：0更新日期：2024-10-15 13:14

本發(fā)明專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置，所述方法包括：獲取待處理的原始數(shù)據(jù)，并構建第一數(shù)據(jù)庫，將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型，以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù)；對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計；其中，所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的，所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。解決了現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題，提高了模型訓練效率。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及數(shù)據(jù)處理，尤其涉及一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置。

技術介紹

1、在進行醫(yī)療圖像等數(shù)據(jù)處理時，通常會用到人工智能識別系統(tǒng)，利用人工智能識別系統(tǒng)提高醫(yī)療圖像的識別效率和識別準確性。在搭建人工智能識別系統(tǒng)時，需要收集大量的目標數(shù)據(jù)，并對收集到的數(shù)據(jù)經領域專家或相關標注人員進行精準標注，構建龐大的數(shù)據(jù)庫。對于自然場景下數(shù)據(jù)的標注，可以分發(fā)給數(shù)據(jù)標注人員，由大量的標注人員進行數(shù)據(jù)標注。由于數(shù)據(jù)量龐大，人力標注成本較高，且對于大規(guī)模的待標注數(shù)據(jù)，易在標注時產生標注錯誤。在醫(yī)療圖像場景下，此類數(shù)據(jù)標注需要大批富有經驗，高年資的專家學者對數(shù)據(jù)的具體類別進行精準判定。但對于人才緊缺的醫(yī)療行業(yè)，無法在有限的標注資源下，展開大規(guī)模的數(shù)據(jù)標注。并且在大規(guī)模的數(shù)據(jù)庫中，不同樣本間可能含有相似的信息，故信息冗余現(xiàn)象可能存在。

2、在已有技術中，用于醫(yī)療圖像識別的人工智能識別系統(tǒng)通常是基于監(jiān)督學習的統(tǒng)計學習識別模型，在構建過程中需要進行特征構建，數(shù)據(jù)的預處理，統(tǒng)計學習模型的訓練等過程。在此過程中，由深度神經網絡直接進行特征抽取和自動分類，無差別的對所有收集到的數(shù)據(jù)進行標注。但是，已有技術采用的方法對訓練數(shù)據(jù)集中所有樣本一視同仁，未考慮數(shù)據(jù)集的信息冗余情況，對所有數(shù)據(jù)均進行標注，產生大量無效的標注（信息冗余），嚴重浪費稀有的標注資源；且將采集到的大量數(shù)據(jù)均進行模型訓練，延長了模型的訓練周期，增加了訓練成本，無法對模型進行快速迭代，影響模型訓練的效率。

3、鑒于此，提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置，以

技術實現(xiàn)思路

1、本專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法和裝置，用于解決現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題，以期通過對采集到的原始數(shù)據(jù)進行處理，降低用于參與訓練的數(shù)據(jù)數(shù)量，剔除數(shù)據(jù)庫中的冗余數(shù)據(jù)，減少標注量，從而提高模型訓練效率。

2、本專利技術提供一種基于機器學習的樣本數(shù)據(jù)處理方法，所述方法包括：

3、獲取待處理的數(shù)據(jù)，并構建第一數(shù)據(jù)庫；

4、將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型，以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù)；

5、對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計；

6、其中，所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的，所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

7、在一些實施例中，基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練，得到所述數(shù)據(jù)處理模型，具體包括：

8、獲取原始數(shù)據(jù)樣本；

9、將采集到的所述原始數(shù)據(jù)樣本劃分為多個子集，將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型，以得到所述樣本選擇模型輸出的圖像樣本；

10、對篩選出的所述圖像樣本進行標注，以得到與每個圖像樣本對應的類別標簽；

11、利用所述圖像樣本和所述類別標簽構建所述第二數(shù)據(jù)庫；

12、將所述第二數(shù)據(jù)庫劃分為訓練集、驗證集和測試集；

13、將所述訓練集中的樣本輸入預先構建的深度學習網絡進行訓練，以得到初始數(shù)據(jù)處理模型；

14、利用驗證集對所述初始數(shù)據(jù)處理模型進行模型參數(shù)選擇，以得到所述數(shù)據(jù)處理模型。

15、在一些實施例中，將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型，以得到所述樣本選擇模型輸出的圖像樣本，具體包括：

16、將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型，在所述樣本選擇模型中計算互信息，以每個子集中互信息最大的樣本作為所述圖像樣本輸出。

17、在一些實施例中，在所述樣本選擇模型的構建過程中，對所述樣本選擇模型進行參數(shù)采樣。

18、在一些實施例中，在所述樣本選擇模型的構建過程中，對神經網絡中的最后一層全連接層的神經元進行隨機失活處理。

19、在一些實施例中，所述互信息的表達式為：

20、；

21、其中，i（x,y）表示x和y的互信息，h（x|y）表示給定y時x的條件熵。

22、本專利技術還提供一種基于機器學習的樣本數(shù)據(jù)處理裝置，所述裝置包括：

23、數(shù)據(jù)采集單元，用于獲取待處理的數(shù)據(jù)，并構建第一數(shù)據(jù)庫；

24、數(shù)據(jù)篩選單元，用于將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型，以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù)；

25、數(shù)據(jù)統(tǒng)計單元，用于對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計；

26、其中，所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的，所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

27、本專利技術還提供一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的方法。

28、本專利技術還提供一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

29、本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

30、本專利技術提供的基于機器學習的樣本數(shù)據(jù)處理方法和裝置，通過獲取待處理的數(shù)據(jù)，并構建第一數(shù)據(jù)庫，將所述第一數(shù)據(jù)庫中的數(shù)據(jù)輸入預先訓練的數(shù)據(jù)處理模型，以得到所述數(shù)據(jù)處理模型輸出的目標樣本類別和各目標樣本類別對應的數(shù)據(jù)；對各目標樣本類別的數(shù)據(jù)數(shù)量進行統(tǒng)計；其中，所述數(shù)據(jù)處理模型是基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練得到的，所述第二數(shù)據(jù)庫是利用預先構建的樣本選擇模型從原始數(shù)據(jù)樣本中篩選出的圖像樣本構建的。

31、這樣，在數(shù)據(jù)處理模型的訓練過程中，通過對第二數(shù)據(jù)庫中篩選出的樣本和對應的標簽進行訓練，使得訓練出的數(shù)據(jù)處理模型具備樣本篩選能力，通過該模型可以從原始數(shù)據(jù)中挑選出最具有代表性的樣本，而后針對這些樣本經由專家標注，可以在不影響識別精度的前提下，大幅度減少需標注的樣本的數(shù)量，可以充分的利用有限的標注資源；同時，在標注數(shù)據(jù)有限的情形下，對富含信息量最大的樣本進行標注，將大幅度提高模型的識別精度并減小實驗周期，同時有效的緩解數(shù)據(jù)收集時產生的數(shù)據(jù)不均衡等實際應用中常見的問題。解決了現(xiàn)有技術中存在的數(shù)據(jù)集中存在較多的無效標注的問題，通過對采集到的原始數(shù)據(jù)進行處理，降低了用于參與訓練的數(shù)據(jù)數(shù)量，剔除了數(shù)據(jù)庫中的冗余數(shù)據(jù)，減少了標注量，從而提高了模型訓練效率。

本文檔來自技高網...

【技術保護點】

1.一種基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，所述方法包括：

2.根據(jù)權利要求1所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，基于預先構建的深度學習網絡，利用第二數(shù)據(jù)庫中的圖像樣本和對應的類別標簽進行訓練，得到所述數(shù)據(jù)處理模型，具體包括：

3.根據(jù)權利要求2所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，將各所述子集中的數(shù)據(jù)分別輸入預先構建的樣本選擇模型，以得到所述樣本選擇模型輸出的圖像樣本，具體包括：

4.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，在所述樣本選擇模型的構建過程中，對所述樣本選擇模型進行參數(shù)采樣。

5.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，在所述樣本選擇模型的構建過程中，對神經網絡中的最后一層全連接層的神經元進行隨機失活處理。

6.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，所述互信息的表達式為：

7.一種基于機器學習的樣本數(shù)據(jù)處理裝置，其特征在于，所述裝置包括：

8.一種電子設備，包括存儲器、處理器及

9.一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述的方法。

10.一種計算機程序產品，包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至6任一項所述的方法。

...

【技術特征摘要】

1.一種基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，所述方法包括：

5.根據(jù)權利要求3所述的基于機器學習的樣本數(shù)據(jù)處理方法，其特征在于，在所述樣本選擇模型的構建過程中，...

【專利技術屬性】
技術研發(fā)人員：李柏蕤，連荷清，陳磊，
申請(專利權)人：北京小蠅科技有限責任公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術