【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及互聯(lián)網(wǎng)
,涉及一種面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法。
技術(shù)介紹
隨著互聯(lián)網(wǎng)和數(shù)據(jù)處理技術(shù)的不斷發(fā)展,搜索引擎、電子商務(wù)、微博和即時(shí)通訊等應(yīng)用為人們提供了海量的信息和便捷的服務(wù),在豐富人們生活的同時(shí)也極大提高了人們的工作效率和生活情趣。人們?cè)谑褂眠@些應(yīng)用和服務(wù)的過(guò)程中也產(chǎn)生了各種類型的數(shù)據(jù),如向搜索引擎發(fā)出搜索請(qǐng)求、在電商網(wǎng)站瀏覽商品,評(píng)論轉(zhuǎn)發(fā)微博和在線聊天等。這些數(shù)據(jù)經(jīng)過(guò)一定的時(shí)間積累規(guī)模都已十分龐大,并且保持著較高的增長(zhǎng)速率,大數(shù)據(jù)的“4V”特點(diǎn)——Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值),日益凸顯。海量數(shù)據(jù)流是指數(shù)據(jù)總量宏大且到達(dá)速率極高的數(shù)據(jù)流。例如大型傳感器網(wǎng)絡(luò)每秒可收集百萬(wàn)量級(jí)數(shù)據(jù),網(wǎng)絡(luò)路由器每秒收集到的數(shù)據(jù)量更是復(fù)雜和規(guī)模龐大。數(shù)據(jù)的總量和增量決定了這些數(shù)據(jù)不能經(jīng)過(guò)完全存儲(chǔ)后再進(jìn)行處理,而且必須保證對(duì)數(shù)據(jù)的處理速率要大于或等于數(shù)據(jù)的到達(dá)速率才能保證數(shù)據(jù)處理系統(tǒng)的有效運(yùn)轉(zhuǎn)。海量數(shù)據(jù)流的分類,相比于一般的數(shù)據(jù)流處理過(guò)程來(lái)說(shuō),計(jì)算量要高得多,這也對(duì)算法的性能提出了更大的挑戰(zhàn)。實(shí)現(xiàn)對(duì)數(shù)據(jù)流高效準(zhǔn)確的分類,具備極大的現(xiàn)實(shí)意義。一方面,可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的篩選,縮小下游節(jié)點(diǎn)處理數(shù)據(jù)的規(guī)模;另一方面,可以實(shí)時(shí)監(jiān)控目標(biāo)類別數(shù)據(jù)的變化情況,實(shí)現(xiàn)對(duì)于異常情況實(shí) 時(shí)告警。所以高效準(zhǔn)確是應(yīng)對(duì)海量數(shù)據(jù)流分類時(shí)必須解決的問(wèn)題。相關(guān)技術(shù)背景(1)Storm相關(guān)技術(shù)Topology是對(duì)運(yùn)行在Storm集群中一個(gè)工作任務(wù)的邏輯抽象,Stream是一個(gè)無(wú)界的數(shù)據(jù)流序列,其中的一條數(shù)據(jù)為T(mén)uple,處理Stream ...
【技術(shù)保護(hù)點(diǎn)】
一種面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于:所述的方法包括以下步驟:步驟一、數(shù)據(jù)Spout數(shù)量為1,連續(xù)產(chǎn)生數(shù)據(jù)記錄;步驟二、過(guò)濾批化Bolt數(shù)量為1,接收數(shù)據(jù)消息,對(duì)收集的數(shù)據(jù)進(jìn)行過(guò)濾篩選,并積累成批發(fā)送給模型Bolt;步驟三、模型Bolt數(shù)量為1,對(duì)一批數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)的分類結(jié)果,發(fā)送給評(píng)估Bolt進(jìn)行評(píng)估;將數(shù)據(jù)進(jìn)行分解,然后發(fā)送給局部統(tǒng)計(jì)與計(jì)算Bolt的對(duì)應(yīng)Task;當(dāng)數(shù)據(jù)所在的葉節(jié)點(diǎn)通過(guò)劃分測(cè)試時(shí),向局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)送計(jì)算消息,請(qǐng)求劃分結(jié)果;收到局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)來(lái)的計(jì)算結(jié)果后,判斷是否執(zhí)行最終劃分,如果通過(guò)最終劃分測(cè)試,則執(zhí)行劃分操作,并向局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)送刪除劃分前葉節(jié)點(diǎn)的統(tǒng)計(jì)信息的消息;步驟四、局部統(tǒng)計(jì)與計(jì)算Bolt數(shù)量為n,收到批屬性數(shù)據(jù)消息時(shí),更新屬性相關(guān)統(tǒng)計(jì)信息;收到計(jì)算消息時(shí),計(jì)算對(duì)應(yīng)節(jié)點(diǎn)的最優(yōu)劃分評(píng)估分?jǐn)?shù);收到刪除消息時(shí),刪除模型中已經(jīng)完成分割的節(jié)點(diǎn)的屬性相關(guān)統(tǒng)計(jì)信息;步驟五、評(píng)估Bolt。
【技術(shù)特征摘要】
1.一種面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于:所述的方法包括以下步驟:步驟一、數(shù)據(jù)Spout數(shù)量為1,連續(xù)產(chǎn)生數(shù)據(jù)記錄;步驟二、過(guò)濾批化Bolt數(shù)量為1,接收數(shù)據(jù)消息,對(duì)收集的數(shù)據(jù)進(jìn)行過(guò)濾篩選,并積累成批發(fā)送給模型Bolt;步驟三、模型Bolt數(shù)量為1,對(duì)一批數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)的分類結(jié)果,發(fā)送給評(píng)估Bolt進(jìn)行評(píng)估;將數(shù)據(jù)進(jìn)行分解,然后發(fā)送給局部統(tǒng)計(jì)與計(jì)算Bolt的對(duì)應(yīng)Task;當(dāng)數(shù)據(jù)所在的葉節(jié)點(diǎn)通過(guò)劃分測(cè)試時(shí),向局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)送計(jì)算消息,請(qǐng)求劃分結(jié)果;收到局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)來(lái)的計(jì)算結(jié)果后,判斷是否執(zhí)行最終劃分,如果通過(guò)最終劃分測(cè)試,則執(zhí)行劃分操作,并向局部統(tǒng)計(jì)與計(jì)算Bolt的所有Task發(fā)送刪除劃分前葉節(jié)點(diǎn)的統(tǒng)計(jì)信息的消息;步驟四、局部統(tǒng)計(jì)與計(jì)算Bolt數(shù)量為n,收到批屬性數(shù)據(jù)消息時(shí),更新屬性相關(guān)統(tǒng)計(jì)信息;收到計(jì)算消息時(shí),計(jì)算對(duì)應(yīng)節(jié)點(diǎn)的最優(yōu)劃分評(píng)估分?jǐn)?shù);收到刪除消息時(shí),刪除模型中已經(jīng)完成分割的節(jié)點(diǎn)的屬性相關(guān)統(tǒng)計(jì)信息;步驟五、評(píng)估Bolt。2.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟三包括:當(dāng)模型Bolt收到批數(shù)據(jù)消息后,對(duì)于批數(shù)據(jù)消息中的每一條數(shù)據(jù),找到對(duì)應(yīng)的葉結(jié)點(diǎn),并根據(jù)葉節(jié)點(diǎn)的數(shù)據(jù)類標(biāo)分布進(jìn)行分類,同時(shí)向評(píng)估Bolt發(fā)出分類結(jié)果的消息;如果數(shù)據(jù)所在的葉節(jié)點(diǎn)已經(jīng)處于劃分狀態(tài),則無(wú)需使用該數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,只執(zhí)行分類操作;否則,需要使用該數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。3.根據(jù)權(quán)利要求2所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的對(duì)模型進(jìn)行訓(xùn)練包括:首先更新葉節(jié)點(diǎn)的數(shù)據(jù)類標(biāo)分布,然后將數(shù)據(jù)分解為以節(jié)點(diǎn)編號(hào)、屬性編號(hào)、屬性值的三元組,并添加到節(jié)點(diǎn)的屬性消息列表中,根據(jù)節(jié)點(diǎn)的屬性消息列表生成批屬性消息,同時(shí)將葉節(jié)點(diǎn)加入到批數(shù)據(jù)所在葉節(jié)點(diǎn)的集合中。4.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟四中,在局部統(tǒng)計(jì)與計(jì)算Bolt中使用的數(shù)據(jù)結(jié)構(gòu)包括一個(gè):節(jié)點(diǎn)id,屬性id,屬性統(tǒng)計(jì)信息的表格localTable,該Bolt的每一個(gè)Task都有一個(gè)localTable。5.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟四中,對(duì)批屬性消息的處理是根據(jù)消息中的節(jié)點(diǎn)id和屬性id,更新屬性的統(tǒng)計(jì)信息。6.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟四中,對(duì)計(jì)算消息的處理是通過(guò)節(jié)點(diǎn)id,計(jì)算localTable中該節(jié)點(diǎn)的所有屬性的可行劃分,找出最優(yōu)和次優(yōu)劃分并作為局部計(jì)算結(jié)果返回。7.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟四中,對(duì)刪除消息的處理是根據(jù)消息中的節(jié)點(diǎn)id,刪除localTable中該節(jié)點(diǎn)所有屬性的統(tǒng)計(jì)信息。8.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟五包括:并行與非并行算法性能對(duì)比和/或批數(shù)據(jù)消息的大小對(duì)性能的影響分析。9.根據(jù)權(quán)利要求1所述的面向海量數(shù)據(jù)流的實(shí)時(shí)并行分類方法,其特征在于所述的步驟五包括實(shí)驗(yàn)分析,所述實(shí)驗(yàn)分析中的實(shí)驗(yàn)數(shù)據(jù)通過(guò)超平面生成算法生成;所述超平面生成算法包括:設(shè)需要生成的數(shù)據(jù)維度為attNum,每一個(gè)維度對(duì)應(yīng)一個(gè)屬性,數(shù)據(jù)中噪聲比率為noiseP,發(fā)生概念漂移的屬性數(shù)為driftNum,概念漂移幅度為magChange,反向...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李川,李旺龍,
申請(qǐng)(專利權(quán))人:四川大學(xué),
類型:發(fā)明
國(guó)別省市:四川;51
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。