本發(fā)明專利技術(shù)實(shí)施例公開(kāi)一種數(shù)據(jù)篩選引擎建立方法及數(shù)據(jù)篩選引擎,解決了目前的人工方式很難從海量的用戶行為中總結(jié)出區(qū)分出黑白名單的規(guī)則的技術(shù)問(wèn)題。本發(fā)明專利技術(shù)實(shí)施例數(shù)據(jù)篩選引擎建立方法包括:提取已注冊(cè)的用戶的基礎(chǔ)信息和用戶對(duì)應(yīng)的歷史行為數(shù)據(jù);根據(jù)基礎(chǔ)信息和歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè)用戶的特征向量;根據(jù)特征向量,并再次結(jié)合復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定高置信度名單;對(duì)高置信度名單通過(guò)采用預(yù)置分析方式進(jìn)行分析,建立相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī)則。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及數(shù)據(jù)處理
,尤其涉及一種數(shù)據(jù)篩選引擎建立方法及數(shù)據(jù)篩選 引擎。
技術(shù)介紹
隨著網(wǎng)絡(luò)游戲的發(fā)展,一些通過(guò)作弊程序獲取經(jīng)濟(jì)利益的灰色產(chǎn)業(yè)也膨脹起來(lái)。 這些作弊程序一般通過(guò)機(jī)器模擬合法用戶的行為,以刷禮品,刷人氣等為手段,大量消耗網(wǎng) 絡(luò)資源,嚴(yán)重影響平臺(tái)生態(tài)的發(fā)展。為了識(shí)別這些作弊程序,一般需要構(gòu)建黑白名單庫(kù),并 基于該庫(kù)訓(xùn)練出識(shí)別模型。其中黑名單一般代表使用作弊程序的賬號(hào),白名單代表合法用 戶帳號(hào)。黑白名單的構(gòu)建一般基于歷史沉淀,從大量的用戶反饋和人工觀察標(biāo)注等記錄中 獲取。但對(duì)于一些新業(yè)務(wù),歷史積累不足而且用戶反饋缺乏,沒(méi)有形成判定的標(biāo)準(zhǔn)。采用人 工標(biāo)注的方式來(lái)匯總黑白名單,人工量很大而且構(gòu)建速度很慢。 傳統(tǒng)方法一般靠人工觀察以及業(yè)務(wù)經(jīng)驗(yàn),從大量的結(jié)果數(shù)據(jù)中總結(jié)出規(guī)律,進(jìn)而 構(gòu)建黑白名單。但對(duì)于一些新業(yè)務(wù),如游戲直播,由于缺乏歷史的積累,沒(méi)有形成判定的標(biāo) 準(zhǔn)。另一方面,業(yè)務(wù)的用戶量很大,每天有數(shù)千萬(wàn)的用戶行為數(shù)據(jù),偽賬號(hào)跟正常用戶帳戶 混淆在一起。人工的方法很難甚至不可能從海量的用戶行為中總結(jié)出區(qū)分出黑白名單的規(guī) 則。 上述提及的人工方式很難從海量的用戶行為中總結(jié)出區(qū)分出黑白名單的規(guī)則的 技術(shù)問(wèn)題,已經(jīng)成為了本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)實(shí)施例提供了一種數(shù)據(jù)篩選引擎建立方法及數(shù)據(jù)篩選引擎,解決了目前的 人工方式很難從海量的用戶行為中總結(jié)出區(qū)分出黑白名單的規(guī)則的技術(shù)問(wèn)題。 本專利技術(shù)實(shí)施例中提供的一種數(shù)據(jù)篩選引擎建立方法,包括: 提取已注冊(cè)的用戶的基礎(chǔ)信息和所述用戶對(duì)應(yīng)的歷史行為數(shù)據(jù); 根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè) 用戶的特征向量; 根據(jù)所述特征向量,并再次結(jié)合復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯確定高置信度名單; 對(duì)所述高置信度名單通過(guò)采用預(yù)置分析方式進(jìn)行分析,建立相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī) 則。 可選地,提取已注冊(cè)的用戶的基礎(chǔ)信息和所述用戶對(duì)應(yīng)的歷史行為數(shù)據(jù)具體包 括: 通過(guò)接入客戶端提取已注冊(cè)的所述用戶的所述基礎(chǔ)信息; 提取與所述用戶對(duì)應(yīng)的所述歷史所述行為數(shù)據(jù),所述行為數(shù)據(jù)包括登錄行為數(shù) 據(jù)、觀看行為數(shù)據(jù)、消費(fèi)行為數(shù)據(jù)和互動(dòng)行為數(shù)據(jù)。 可選地,根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯 確定每個(gè)用戶的特征向量之前還包括: 建立復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯,所述業(yè)務(wù)邏輯與非常規(guī)注冊(cè)方式相對(duì)應(yīng)。 可選地,根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯 確定每個(gè)用戶的特征向量具體包括: 根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù)定義相對(duì)應(yīng)的復(fù)數(shù)個(gè)特征; 根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合所述業(yè)務(wù)邏輯量化出與所述業(yè)務(wù) 邏輯相對(duì)應(yīng)的復(fù)數(shù)個(gè)衍生特征; 根據(jù)復(fù)數(shù)個(gè)所述特征和/或復(fù)數(shù)個(gè)所述衍生特征,并結(jié)合所述業(yè)務(wù)邏輯建立相關(guān) 聯(lián)的復(fù)數(shù)個(gè)所述特征向量; 其中,所述特征向量為通過(guò)預(yù)置方式進(jìn)行歸一化處理的所述特征向量。 可選地,根據(jù)所述特征向量,并再次結(jié)合復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯確定高置信度名單 具體包括: 對(duì)復(fù)數(shù)個(gè)所述特征向量采用聚類方法進(jìn)行基于所述用戶的類別分類,確定每個(gè)所 述類別對(duì)應(yīng)的所述特征向量; 對(duì)每個(gè)所述類別對(duì)應(yīng)的所述特征向量再次結(jié)合復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯確定所述高 置信度名單,并將所述高置信度名單設(shè)定為每個(gè)所述類別對(duì)應(yīng)的參考樣本。 可選地,預(yù)置分析方式具體包括: 所述高置信度名單的自身特征信息分析,以及每個(gè)所述類別對(duì)應(yīng)的參考樣本和所 述高置信度名單的自身特征信息的相關(guān)性分析。 本專利技術(shù)實(shí)施例中提供的一種數(shù)據(jù)篩選引擎,包括: 數(shù)據(jù)接入單元,被配置為提取已注冊(cè)的用戶的基礎(chǔ)信息和所述用戶對(duì)應(yīng)的歷史行 為數(shù)據(jù); 特征構(gòu)造單元,被配置為根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合預(yù)置的 復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè)用戶的特征向量; 確定單元,被配置為根據(jù)所述特征向量,并再次結(jié)合復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯確定高 置信度名單; 規(guī)則建立單元,被配置為對(duì)所述高置信度名單通過(guò)采用預(yù)置分析方式進(jìn)行分析, 建立相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī)則。 可選地,所述數(shù)據(jù)接入單元具體包括: 基礎(chǔ)信息采集子單元,被配置為通過(guò)接入客戶端提取已注冊(cè)的所述用戶的所述基 礎(chǔ)信息; 行為數(shù)據(jù)采集子單元,被配置為提取與所述用戶對(duì)應(yīng)的所述歷史所述行為數(shù)據(jù); 所述行為數(shù)據(jù)采集子單元包括:登錄行為數(shù)據(jù)采集模塊、觀看行為數(shù)據(jù)采集模塊、 消費(fèi)行為數(shù)據(jù)采集子單元和互動(dòng)行為數(shù)據(jù)采集模塊。 可選地,所述數(shù)據(jù)篩選引擎還包括: 建立單元,被配置為建立復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯,所述業(yè)務(wù)邏輯與非常規(guī)注冊(cè)方式 相對(duì)應(yīng)。 可選地,特征構(gòu)造單元具體包括: 特征定義子單元,被配置為根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù)定義相對(duì)應(yīng)的 復(fù)數(shù)個(gè)特征; 特征衍生子單元,被配置為根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合所述 業(yè)務(wù)邏輯量化出與所述業(yè)務(wù)邏輯相對(duì)應(yīng)的復(fù)數(shù)個(gè)衍生特征; 特征向量構(gòu)建子單元,被配置為根據(jù)復(fù)數(shù)個(gè)所述特征和/或復(fù)數(shù)個(gè)所述衍生特 征,并結(jié)合所述業(yè)務(wù)邏輯建立相關(guān)聯(lián)的復(fù)數(shù)個(gè)所述特征向量; 其中,所述特征向量為通過(guò)預(yù)置方式進(jìn)行歸一化處理的所述特征向量。 可選地,確定單元具體包括: 無(wú)監(jiān)督聚類子單元,被配置為對(duì)復(fù)數(shù)個(gè)所述特征向量采用聚類方法進(jìn)行基于所述 用戶的類別分類,確定每個(gè)所述類別對(duì)應(yīng)的所述特征向量; 特征驗(yàn)證子單元,被配置為對(duì)每個(gè)所述類別對(duì)應(yīng)的所述特征向量再次結(jié)合復(fù)數(shù)個(gè) 所述業(yè)務(wù)邏輯確定所述高置信度名單,并將所述高置信度名單設(shè)定為每個(gè)所述類別對(duì)應(yīng)的 參考樣本。 可選地,規(guī)則建立單元包括: 第一規(guī)則建立子單元,被配置為對(duì)所述高置信度名單通過(guò)采用所述高置信度名單 的自身特征信息進(jìn)行分析,建立相對(duì)應(yīng)的所述數(shù)據(jù)篩選規(guī)則; 第二規(guī)則建立子單元,被配置為對(duì)所述高置信度名單通過(guò)采用對(duì)每個(gè)所述類別對(duì) 應(yīng)的參考樣本和所述高置信度名單的自身特征信息的相關(guān)性進(jìn)行分析,建立相對(duì)應(yīng)的所述 數(shù)據(jù)篩選規(guī)則。 從以上技術(shù)方案可以看出,本專利技術(shù)實(shí)施例具有以下優(yōu)點(diǎn): 本專利技術(shù)實(shí)施例提供的一種數(shù)據(jù)篩選引擎建立方法及數(shù)據(jù)篩選引擎,其中,數(shù)據(jù)篩 選引擎建立方法包括:提取已注冊(cè)的用戶的基礎(chǔ)信息和用戶對(duì)應(yīng)的歷史行為數(shù)據(jù);根據(jù)基 礎(chǔ)信息和歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè)用戶的特征向量;根據(jù)特 征向量,并再次結(jié)合復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定高置信度名單;對(duì)高置信度名單通過(guò)采用預(yù)置分 析方式進(jìn)行分析,建立相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī)則。本實(shí)施例中,通過(guò)基礎(chǔ)信息和歷史行為數(shù) 據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè)用戶的特征向量;根據(jù)特征向量,并再次結(jié)合復(fù) 數(shù)個(gè)業(yè)務(wù)邏輯確定高置信度名單;對(duì)高置信度名單通過(guò)采用預(yù)置分析方式進(jìn)行分析,建立 相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī)則,便建立了可進(jìn)行黑白名單篩選的數(shù)據(jù)篩選引擎,解決了目前的人 工方式很難從海量的用戶行為中總結(jié)出區(qū)分出黑白名單的規(guī)則的技術(shù)問(wèn)題。【附圖說(shuō)明】 為了更清楚地說(shuō)明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 專利技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可 以根據(jù)這些附圖獲得其它的附圖。 圖1為本專利技術(shù)實(shí)施例中提供的一種數(shù)據(jù)篩選引擎建立方法的一個(gè)實(shí)施例的流程 示意圖; 圖2為本專利技術(shù)實(shí)施例中提供的一種數(shù)據(jù)篩選引擎建立方法本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種數(shù)據(jù)篩選引擎建立方法,其特征在于,包括:提取已注冊(cè)的用戶的基礎(chǔ)信息和所述用戶對(duì)應(yīng)的歷史行為數(shù)據(jù);根據(jù)所述基礎(chǔ)信息和所述歷史行為數(shù)據(jù),并結(jié)合預(yù)置的復(fù)數(shù)個(gè)業(yè)務(wù)邏輯確定每個(gè)用戶的特征向量;根據(jù)所述特征向量,并再次結(jié)合復(fù)數(shù)個(gè)所述業(yè)務(wù)邏輯確定高置信度名單;對(duì)所述高置信度名單通過(guò)采用預(yù)置分析方式進(jìn)行分析,建立相對(duì)應(yīng)的數(shù)據(jù)篩選規(guī)則。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:余建興,
申請(qǐng)(專利權(quán))人:珠海多玩信息技術(shù)有限公司,
類型:發(fā)明
國(guó)別省市:廣東;44
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。