本公開提供了一種樣本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及機(jī)器學(xué)習(xí)領(lǐng)域。具體實(shí)現(xiàn)方案為:獲取待分類樣本,其中,待分類樣本的樣本特征維度大于預(yù)設(shè)閾值;采用多種特征編碼方式對待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量;對多個(gè)特征向量進(jìn)行聚類分析,確定待分類樣本的目標(biāo)分類。樣本的目標(biāo)分類。樣本的目標(biāo)分類。
【技術(shù)實(shí)現(xiàn)步驟摘要】
樣本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
[0001]本公開涉及數(shù)據(jù)挖掘
,進(jìn)一步涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種樣本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
技術(shù)介紹
[0002]聚類分析是指將物理或抽象對象的集合分組由類似的對象組成多個(gè)類的分析過程。
[0003]相關(guān)方案中,采用K均值(K
?
means)聚類算法描述數(shù)據(jù)樣本,衡量樣本間的相似性,以及將樣本分類到不同的簇中。但是,在對高維度特征的樣本進(jìn)行聚類時(shí),K
?
means聚類算法會(huì)把毫無關(guān)聯(lián)的樣本聚到一起,導(dǎo)致聚類效果較差。
技術(shù)實(shí)現(xiàn)思路
[0004]本公開提供了一種樣本分類方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),以至少解決相關(guān)方案中對于高維度特征的樣本進(jìn)行聚類時(shí)準(zhǔn)確性低下的技術(shù)問題。
[0005]根據(jù)本公開的一方面,提供了一種樣本分類方法,包括:獲取待分類樣本,其中,待分類樣本的樣本特征維度大于預(yù)設(shè)閾值;采用多種特征編碼方式對待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量;對多個(gè)特征向量進(jìn)行聚類分析,確定待分類樣本的目標(biāo)分類。
[0006]根據(jù)本公開的又一方面,提供了一種樣本分類裝置,包括:獲取模塊,用于獲取待分類樣本,其中,待分類樣本的樣本特征維度大于預(yù)設(shè)閾值;編碼模塊,用于采用多種特征編碼方式對待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量;聚類模塊,用于對多個(gè)特征向量進(jìn)行聚類分析,確定待分類樣本的目標(biāo)分類。
[0007]根據(jù)本公開的又一方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及與至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,存儲(chǔ)器存儲(chǔ)有可被至少一個(gè)處理器執(zhí)行的指令,指令被至少一個(gè)處理器執(zhí)行,以使至少一個(gè)處理器能夠執(zhí)行本公開提出的樣本分類方法。
[0008]根據(jù)本公開的又一方面,提供了一種存儲(chǔ)有計(jì)算機(jī)指令的非瞬時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行本公開提出的樣本分類方法。
[0009]根據(jù)本公開的又一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行本公開提出的樣本分類方法。
[0010]在本公開中,通過獲取待分類樣本,待分類樣本的樣本特征維度大于預(yù)設(shè)閾值,繼而采用多種特征編碼方式對待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量,最后對多個(gè)特征向量進(jìn)行聚類分析,確定待分類樣本的目標(biāo)分類,達(dá)到了快速、準(zhǔn)確地確定待分類樣本的目標(biāo)分類的目的,實(shí)現(xiàn)了提高高維度特征的樣本聚類的準(zhǔn)確性的效果,從而解決了相關(guān)方案中對于高維度特征的樣本進(jìn)行聚類時(shí)準(zhǔn)確性低下的技術(shù)問題。
[0011]應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
[0012]附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
[0013]圖1是根據(jù)本公開實(shí)施例的一種用于實(shí)現(xiàn)樣本分類方法的計(jì)算機(jī)終端(或移動(dòng)設(shè)備)的硬件結(jié)構(gòu)框圖;
[0014]圖2是根據(jù)本公開實(shí)施例的一種樣本分類方法流程圖;
[0015]圖3是根據(jù)本公開實(shí)施例的一種樣本分類方法示意圖;
[0016]圖4是根據(jù)本公開實(shí)施例的一種樣本分類裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
[0017]以下結(jié)合附圖對本公開的示范性實(shí)施例做出說明,其中包括本公開實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本公開的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
[0018]需要說明的是,本公開的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本公開的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送猓g(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0019]K
?
means聚類算法的實(shí)現(xiàn)過程為:首先,逐個(gè)掃描樣本,每個(gè)樣本依據(jù)其與已掃描過的樣本的距離,被歸為以前的類,或生成一個(gè)新類;其次,對已獲得的類依據(jù)類間距離進(jìn)行合并,按照一定的預(yù)設(shè)標(biāo)準(zhǔn),停止合并。但是,在對高維度特征的樣本進(jìn)行聚類時(shí),K
?
means聚類算法會(huì)把毫無關(guān)聯(lián)的樣本聚到一起,導(dǎo)致聚類效果較差。
[0020]根據(jù)本公開實(shí)施例,提供了一種樣本分類方法,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0021]本公開實(shí)施例所提供的方法實(shí)施例可以在移動(dòng)終端、計(jì)算機(jī)終端或者類似的電子設(shè)備中執(zhí)行。電子設(shè)備旨在表示各種形式的數(shù)字計(jì)算機(jī),諸如,膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、工作臺(tái)、個(gè)人數(shù)字助理、服務(wù)器、刀片式服務(wù)器、大型計(jì)算機(jī)、和其它適合的計(jì)算機(jī)。電子設(shè)備還可以表示各種形式的移動(dòng)裝置,諸如,個(gè)人數(shù)字處理、蜂窩電話、智能電話、可穿戴設(shè)備和其它類似的計(jì)算裝置。本文所示的部件、它們的連接和關(guān)系、以及它們的功能僅僅作為示例,并且不意在限制本文中描述的和/或者要求的本公開的實(shí)現(xiàn)。圖1示出了一種用于實(shí)現(xiàn)樣本分類方法的計(jì)算機(jī)終端(或移動(dòng)設(shè)備)的硬件結(jié)構(gòu)框圖。
[0022]如圖1所示,計(jì)算機(jī)終端100包括計(jì)算單元101,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(ROM)102中的計(jì)算機(jī)程序或者從存儲(chǔ)單元108加載到隨機(jī)訪問存儲(chǔ)器(RAM)103中的計(jì)算機(jī)程序,來執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在RAM 103中,還可存儲(chǔ)計(jì)算機(jī)終端100操作所需的各種程序和數(shù)據(jù)。計(jì)算單元101、ROM 102以及RAM 103通過總線104彼此相連。輸入/輸出(I/O)接口105也連接至總線104。
[0023]計(jì)算機(jī)終端100中的多個(gè)部件連接至I/O接口105,包括:輸入單元106,例如鍵盤、鼠標(biāo)等;輸出單元107,例如各種類型的顯示器、揚(yáng)聲器等;存儲(chǔ)單元108,例如磁盤、光盤等;以及通信單元109,例如網(wǎng)卡、調(diào)制解調(diào)器、無線通信收發(fā)機(jī)等。通信單元109允許計(jì)算機(jī)終端100通過諸如因特網(wǎng)的計(jì)算機(jī)網(wǎng)絡(luò)和/或各種電信網(wǎng)絡(luò)與其他設(shè)備交換信息/數(shù)據(jù)。
[0024]計(jì)算單元101可以是各種具有處理和計(jì)算能力的通用和/或?qū)S锰幚斫M件。計(jì)算單元101的一些示例包括但不限于中央處理單元(CPU)、圖形處理單元(GPU)、各種專用的人工智能(AI)計(jì)算芯片、各種運(yùn)行機(jī)器學(xué)習(xí)模型算法的計(jì)算單元、數(shù)字信號處理器(DSP)、以及任何適當(dāng)?shù)奶幚砥鳌⒖刂破鳌⑽⒖刂破鞯取S?jì)算單元101執(zhí)行本文所描述的樣本分類方法。例如本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種樣本分類方法,包括:獲取待分類樣本,其中,所述待分類樣本的樣本特征維度大于預(yù)設(shè)閾值;采用多種特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量;對所述多個(gè)特征向量進(jìn)行聚類分析,確定所述待分類樣本的目標(biāo)分類。2.根據(jù)權(quán)利要求1所述的樣本分類方法,其中,所述多種特征編碼方式中每種特征編碼方式分別用于所述待分類樣本的樣本特征維度降維至不同維度的特征向量。3.根據(jù)權(quán)利要求1所述的樣本分類方法,其中,采用所述多種特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到所述多個(gè)特征向量包括:采用主成分分析或線性判別分析的特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到第一特征向量;采用回歸預(yù)測特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到第二特征向量;采用深度神經(jīng)網(wǎng)絡(luò)特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到第三特征向量。4.根據(jù)權(quán)利要求3所述的樣本分類方法,其中,所述第一特征向量的特征維度小于所述第三特征向量的特征維度,且所述第三特征向量的特征維度小于所述第二特征向量的特征維度。5.根據(jù)權(quán)利要求1所述的樣本分類方法,其中,所述樣本分類方法還包括:設(shè)置多個(gè)樣本簇,其中,所述多個(gè)樣本簇用于在對所述多個(gè)特征向量進(jìn)行聚類分析之后,確定所述多個(gè)特征向量中每個(gè)特征向量歸屬的樣本簇。6.根據(jù)權(quán)利要求5所述的樣本分類方法,其中,對所述多個(gè)特征向量進(jìn)行聚類分析,確定所述目標(biāo)分類包括:對所述多個(gè)特征向量進(jìn)行聚類分析,分別確定所述多個(gè)特征向量中每個(gè)特征向量歸屬的樣本簇,得到聚類結(jié)果;利用投票機(jī)制從所述聚類結(jié)果中確定所述目標(biāo)分類。7.根據(jù)權(quán)利要求6所述的樣本分類方法,其中,所述聚類結(jié)果包括:多個(gè)候選簇,所述多個(gè)候選簇為所述多個(gè)樣本簇中的部分或全部簇,利用所述投票機(jī)制從所述聚類結(jié)果中確定所述目標(biāo)分類包括:利用所述投票機(jī)制從所述多個(gè)候選簇中選取目標(biāo)簇,其中,所述目標(biāo)簇中包含的特征向量數(shù)目大于其余每個(gè)候選簇中包含的特征向量數(shù)目;通過所述目標(biāo)簇確定所述目標(biāo)分類。8.根據(jù)權(quán)利要求6所述的樣本分類方法,其中,所述聚類結(jié)果包括:多個(gè)候選簇,所述多個(gè)候選簇為所述多個(gè)樣本簇中的部分或全部簇,利用所述投票機(jī)制從所述聚類結(jié)果中確定所述目標(biāo)分類包括:利用所述投票機(jī)制確定所述多個(gè)候選簇的每個(gè)候選簇中包含的特征向量數(shù)目相同;通過所述多個(gè)候選簇中的默認(rèn)簇確定所述目標(biāo)分類。9.一種樣本分類裝置,包括:獲取模塊,用于獲取待分類樣本,其中,所述待分類樣本的樣本特征維度大于預(yù)設(shè)閾
值;編碼模塊,用于采用多種特征編碼方式對所述待分類樣本的樣本特征進(jìn)行特征編碼,得到多個(gè)特征向量;聚類模塊,用于對所述多個(gè)特征向量進(jìn)行聚類分析,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉昊騁,
申請(專利權(quán))人:北京百度網(wǎng)訊科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。