本發明專利技術公開了一種基于低代碼平臺的數據采集方法,屬于數據分析技術領域,包括事件分析、漏斗分析、留存分析、歸因分析、用戶路徑分析、屬性分析和間隔分析,其中,漏斗分析用于計算目標用戶在一系列設定點擊事件中的表現,留存分析用于計算指定時間段內用戶留存的情況,歸因分析則用于計算待歸因事件的點擊次數、有效用戶數和轉化值;用戶路徑分析旨在了解不同點擊事件的組合情況,屬性分析可根據設定屬性或標簽來篩選特定用戶集合,并得出各屬性或標簽的出現比例;間隔分析用于計算用戶的轉化時間和存在信息的間隔,從而深入挖掘用戶行為數據背后的含義和規律;本發明專利技術為實時用戶行為管理提供了更全面的分析手段。
【技術實現步驟摘要】
本專利技術涉及數據分析,具體涉及一種基于低代碼平臺的數據采集方法。
技術介紹
1、當前互聯網飛速發展的背景下,大量用戶數據產生,大數據計算能力也隨之快速發展。對于數據分析、營銷、數據挖掘、推薦算法等數據應用場景,實時數據存儲和分析能力需求與日俱增。傳統關系型數據庫對于海量數據處理已捉襟見肘,因此,海量數據分析的系統應運而生,其中基于hadoop和hive構建出的大數據平臺應用最為廣泛。
2、使用hive作為計算引擎,其基于磁盤計算的特性決定了只能用于離線數據分析,動輒幾分鐘甚至幾小時的計算時間讓其很難應用在實時查詢的場景上,而且基于hdfs的數據存儲也無法做數據的實時接入。apache?spark可以很好地集成hadoop和hive,解決了磁盤性能瓶頸,但是其仍然擺脫不了基于hdfs存儲數據無法實時入庫的缺陷,即使使用數據湖解決方案,也無法實現數據的實時入庫。
3、基于impala和kudu的方案,缺陷也十分明顯,kudu隨著數據量越來越大,其服務啟動速度、數據加載速度會急劇下降。雖然其可以通過將冷熱數據分開存儲,將不經常使用的冷數據遷移至hdfs中存儲,kudu中只保留熱數據,但是同時維護兩種存儲方式以及查詢數據時同時使用兩種存儲結構的數據,在維護成本和使用成本都是不小的開銷。
技術實現思路
1、本專利技術的目的在于提供一種基于低代碼平臺的數據采集方法,解決以下技術問題:
2、現有的數據分析方案維護成本和使用成本較高,且存在性能瓶頸。
<
p>3、本專利技術的目的可以通過以下技術方案實現:4、一種基于低代碼平臺的數據采集方法,包括以下步驟:
5、獲取用戶n天內的行為數據,n為正整數,篩選出符合設定標簽的用戶id,提取同時符合所有標簽的用戶標記為目標用戶,通過group?by聚合函數和bitmapbuild函數將目標用戶id壓縮為bitmap集合;
6、通過低代碼平臺查詢在n天內進行若干設定點擊事件的目標用戶,按照日期對點擊事件進行分類匯總統計;
7、獲取目標用戶任一天內觸發的瀏覽事件和點擊事件,統計當天目標用戶的漏斗轉化率,以日期順序輸出n天內的用戶行為數據;
8、根據所述用戶行為數據計算出待歸因事件的總點擊次數、有效點擊數、有效用戶數和目標轉化次數;
9、將設定點擊事件按時間順序生成事件序列,將事件序列分割成多個子鏈,將每個子鏈按照時間順序分割成多個session,并統計每個session中點擊事件的出現次數;
10、篩選符合設定屬性和標簽的用戶集合,統計用戶集合中屬性和標簽的出現次數,按照出現次數進行排序分為兩類,統計每一類中屬性和標簽值的出現次數和出現比例;
11、將所述事件序列拼接成一個新的事件序列,從新事件序列中提取出轉化時長信息,計算出n天內每個日期的轉化數據。
12、作為本專利技術進一步的方案:所述漏斗分析具體包括:
13、查詢在n天內進行若干設定點擊事件的用戶,所述點擊事件之間依次為遞進關系,每個點擊事件均有對應的分層標簽,計算每一分層標簽對應的用戶數量,統計n天內所有進行設定點擊時間的用戶總數,進行漏斗分析,得到每個用戶的每個點擊事件的轉化漏斗情況,編制成level_index數組,按照用戶id和事件日期分組,對level_index數組的各項進行求和,將所有用戶id所獲得的統計結果再取一次sum聚合函數生成漏斗分析總計數據。
14、作為本專利技術進一步的方案:所述留存分析具體包括:
15、使用窗口函數和分組操作來統計目標用戶在某一天內觸發了瀏覽事件和相應點擊事件的時間和次數,計算瀏覽事件與點擊事件之間的時間差,并計算出目標用戶在漏斗轉化路徑中所處的位置,根據返回結果再次聚合,統計在某一天內特定用戶群體的漏斗轉化率,包括從某個狀態到另一狀態的轉化次數,最后按照事件日期、事件剩余日期、日期差值將結果進行分組并計算出每組內的總次數。
16、作為本專利技術進一步的方案:所述歸因分析具體包括:
17、通過查詢命令返回設定點擊事件以及總點擊次數、有效點擊數、有效用戶數和目標轉化次數;
18、通過語法with?as對用戶行為數據中的點擊事件進行排序和整理,按時間順序排列并形成了一個有序的事件序列;
19、查詢命令使用array?join操作將每個用戶的不同行為重新組合成新的事件序列,并進行過濾;
20、利用group?by操作將所有行為按照每個用戶進行分組,算出每個用戶在待歸因事件中的指標:待歸因事件總數、有效點擊數、轉化次數以及有效用戶數;
21、最后通過select查詢命令返回每個用戶的指標總和,構成所有用戶行為的匯總數據。
22、作為本專利技術進一步的方案:所述用戶路徑分析具體包括:
23、設定點擊事件按時間順序生成事件序列,并按照用戶id分組,從事件序列中篩選出包含設定點擊事件的子鏈;
24、將子鏈中相鄰的事件組成元組,得到一個新的數組;將元組根據首個元素的大小進行排序,并篩選出第一個元素大于等于設定點擊事件時間點的元素,去除數組中的null元素,并標記出分割點;
25、將子鏈按照分割點分割成多個session;統計每個session中點擊事件的出現次數,返回分割后的子鏈、session和設定點擊事件出現次數。
26、作為本專利技術進一步的方案:所述屬性分析具體包括:
27、獲取用戶的屬性和標簽,并進行去重,篩選符合設定屬性和標簽的用戶集合,統計每個屬性和標簽值的出現次數;
28、按照出現次數進行排序,得到每個屬性和標簽值的出現次數;
29、將出現次數排名前m名的屬性和標簽值作為一類,m為正整數,剩下的屬性和標簽值作為另一類;
30、統計每一類中每個屬性和標簽值在所有用戶中出現的比例;
31、返回統計結果,包括屬性和標簽值、出現次數和出現比例。
32、作為本專利技術進一步的方案:所述間隔分析具體包括:
33、使用array?split把每條記錄按照事件類型分離成不同的數組元素,并按照事件發生時間進行排序,然后通過array?join操作把所有用戶的數據鏈接成一個大的關系型表格,所述記錄為某個用戶在某個日期內完成的所有事件;
34、使用array?reversesplit和arraymap操作把每個用戶的行為序列重新排列配對,將配對后的事件用arrayjoin連接起來并按照事件發生時間進行排序生成新的事件序列。
35、作為本專利技術進一步的方案:從所述用戶行為數據和新的事件序列中對每個用戶在n天內的轉化時間進行了統計計算;按照日期順序對轉化時間進行了分組聚合,獲得每個日期的轉化用戶數、人均轉化時間、最小值、最大值、四分之一點、中位數和四分之三點。
36、本專利技術的有益效果:
37、本專利技術利用低代本文檔來自技高網
...
【技術保護點】
1.一種基于低代碼平臺的數據采集方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述漏斗分析具體包括:
3.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述留存分析具體包括:
4.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述歸因分析具體包括:
5.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述用戶路徑分析具體包括:
6.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述屬性分析具體包括:
7.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述間隔分析具體包括:
8.根據權利要求7所述的一種基于低代碼平臺的數據采集方法,其特征在于,從所述用戶行為數據和新的事件序列中對每個用戶在n天內的轉化時間進行了統計計算;按照日期順序對轉化時間進行了分組聚合,獲得每個日期的轉化用戶數、人均轉化時間、最小值、最大值、四分之一點、中位數和四分之三點。</p>...
【技術特征摘要】
1.一種基于低代碼平臺的數據采集方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述漏斗分析具體包括:
3.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述留存分析具體包括:
4.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述歸因分析具體包括:
5.根據權利要求1所述的一種基于低代碼平臺的數據采集方法,其特征在于,所述用戶路徑分析具體包括:
【專利技術屬性】
技術研發人員:姚福源,
申請(專利權)人:北京遠景視點科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。