本發明專利技術涉及數據處理技術領域,尤其涉及一種以采集頻率與范圍為權重的數據關聯度計算方法,具體包括:實時接入采集的原始軌跡數據A和原始軌跡數據B;對原始軌跡數據A進行分組處理;對原始軌跡數據A進行排序和批次劃分,并去重;篩選得到目標設備采集范圍內的原始軌跡數據B的關聯設備;對原始軌跡數據B的關聯設備采集的數據進行篩選,提取得到同一時間段范圍內的數據集合;根據目標設備采集的數據和關聯設備采集的數據,計算總關聯度。本發明專利技術提出的計算方法,根據每個設備的有效采集范圍和采集頻率作為影響因子,將采集設備的差異性作為權重因素進行量化并帶入計算,對關聯的數據關聯度進行加權修正,具有可靠性高、動態可調的優點。動態可調的優點。動態可調的優點。
【技術實現步驟摘要】
一種以采集頻率與范圍為權重的數據關聯度計算方法
[0001]本專利技術涉及數據處理
,尤其涉及一種以采集頻率與范圍為權重的數據關聯度計算方法。
技術介紹
[0002][0003]公開了申請號為CN202210063001.5的一種圖碼關聯強度計算方法、裝置、設備及存儲介質,在預設區域內實時采集人臉圖片和手機IMSI軌跡,生成人臉集合和IMSI集合;遍歷人臉集合,得到目標人員的關聯IMSI集合;遍歷IMSI集合,得到目標手機的關聯人臉集合;根據點式互信息計算人臉圖片和手機IMSI的關聯強度。
[0004]在上述的算法中,區域是預先設置的,不支持根據設備的采集范圍進行動態調整,然而在實際應用中,每個設備因為制式的不同,其采集范圍和采集頻率都不一樣;同時對數據去重時沒有考慮設備的采集頻率,會出現不是同一個采集周期內的數據被去重的情況,這會影響數據關聯度計算結果的準確性。
技術實現思路
[0005]針對現有技術的不足,本專利技術提出了一種以采集頻率與范圍為權重的數據關聯度計算方法,其目的是能夠根據每個設備的有效采集范圍和采集頻率作為影響因子,對關聯的數據關聯度進行加權修正,以得到準確的關聯度結果。
[0006]為了實現上述目的,本專利技術通過如下的技術方案來實現:一種以采集頻率與范圍為權重的數據關聯度計算方法,所述方法包括:實時接入采集的原始軌跡數據A和原始軌跡數據B;對原始軌跡數據A進行分組處理;對原始軌跡數據A進行排序和批次劃分,并去重;篩選得到目標設備采集范圍內的原始軌跡數據B的關聯設備;對原始軌跡數據B的關聯設備采集的數據進行篩選,提取得到同一時間段范圍內的數據集合;根據目標設備采集的數據和關聯設備采集的數據,計算總關聯度。
[0007]作為本專利技術的一種優選方案,所述原始軌跡數據A和原始軌跡數據B為車輛軌跡數據、原始人臉圖片數據和原始IMSI軌跡數據中的任意兩種。
[0008]作為本專利技術的一種優選方案,對原始軌跡數據A進行分組處理,具體包括:對原始軌跡數據A進行預處理,根據設備編號對所述原始軌跡數據A進行分組,分組后的數據集合記為A={A1,A2,...,A
n
};其中A1表示設備編號為1采集的數據集合,A2表示設備編號為2采集的數據集合,A
n
表示設備編號為n采集的數據集合。
[0009]作為本專利技術的一種優選方案,對原始軌跡數據A進行排序和批次劃分,并去重,具體包括:設目標設備的編號為i,根據編號i獲取目標設備的基本信息,所述基本信息包括采
集半徑、采集頻率和上報周期;提取編號為i的目標設備采集的數據集合A
i
,對數據集合A
i
內的原始軌跡數據按采集時間由小到大進行排序;再根據采集頻率和上報周期,對排序之后的數據集合A
i
內的原始軌跡數據進行批次劃分,并對同一批次內的原始軌跡數據進行去重,得到無重復數據的批次集合A
i
={A
i1
,A
i2
,...,A
in
};其中,A
i1
為數據集合A
i
內第1個數據的批次集合,A
i2
為數據集合A
i
內第2個數據的批次集合,A
in
為數據集合A
i
內第n個數據的批次集合;提取數據集合A
i
內第f個數據的批次集合A
if
,生成批次的開始時間fs和結束時間fe。
[0010]作為本專利技術的一種優選方案,篩選得到目標設備采集范圍內的原始軌跡數據B的關聯設備,具體包括:根據目標設備的采集半徑,篩選得到目標設備有效采集范圍內的原始軌跡數據B的采集設備集合B
m
={B
k
,B
j
...} ,其中B
k
表示設備編號為k的采集設備,B
j
表示設備編號為j的采集設備。
[0011]作為本專利技術的一種優選方案,對原始軌跡數據B的關聯設備采集的數據進行篩選,提取得到同一時間段范圍內的數據集合,具體包括:對原始軌跡數據B的采集設備集合B
m
進行篩選,提取得到fs~fe時間段范圍內的所有原始軌跡數據B的數據集合B
f
。
[0012]作為本專利技術的一種優選方案,根據目標設備采集的數據和關聯設備采集的數據,計算總關聯度,具體包括:根據目標設備的批次集合A
if
和關聯設備的數據集合B
f
,分別計算單組合單批次和單組合多批次的關聯度;單組合單批次的關聯度的計算公式為:其中:表示編號為i的目標設備的第f個數據的批次集合A
if
,關聯任意一個原始軌跡數據B的關聯度;表示在fs~fe時間段范圍內,關聯的原始軌跡數據B去重之后的總數;表示編號為i的目標設備的采集半徑對應的權重系數;單組合多批次的關聯度的計算公式為:其中:表示關聯度在目標設備采集的批次集合A
i
中所占的權重系數;根據單組合單批次和單組合多批次的關聯度計算總關聯度,計算公式為:。本專利技術的有益效果是:本專利技術提出的數據關聯度計算方法,在計算關聯數據之間關聯度時,根據每個設備的有效采集范圍和采集頻率作為影響因子,將采集設備的差異性作為權重因素進行量化并帶入計算,對關聯的數據關聯度進行加權修正,具有可靠性高、動態可調的優點。
附圖說明
[0013]為了更清楚地說明本專利技術實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。其中:圖1為本專利技術優選實施例中的方法流程圖。
實施方式
[0014]為使本專利技術實施例的目的、技術方案和優點更加清楚,下面將結合本專利技術實施例的附圖,對本專利技術實施例的技術方案進行清楚、完整地描述。顯然,所描述的實施例是本專利技術的一部分實施例,而不是全部的實施例。基于所描述的本專利技術的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本專利技術保護的范圍。
[0015]實施例1:如圖1所示,該實施例提供了一種以采集頻率與范圍為權重的數據關聯度計算方法,包括如下步驟:步驟S1:實時接入采集的原始軌跡數據A和原始軌跡數據B;原始軌跡數據A和原始軌跡數據B為車輛軌跡數據、原始人臉圖片數據和原始IMSI軌跡數據中的任意兩種。
[0016]步驟S2:對原始軌跡數據A進行分組處理;對原始軌跡數據A進行預處理,根據設備編號對原始軌跡數據A進行分組,分組后的數據集合記為A={A1,A2,...,A
n
};其中A1表示設備編號為1采集的數據集合,A2表示設備編號為2采集的數據集合,A
n
表示設備編號為n采集的數據集合。
[0017]步驟S3:對原始軌跡數據A進行排序和批次劃分,并去重;設本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種以采集頻率與范圍為權重的數據關聯度計算方法,其特征在于,所述方法包括:實時接入采集的原始軌跡數據A和原始軌跡數據B;對原始軌跡數據A進行分組處理;對原始軌跡數據A進行排序和批次劃分,并去重;篩選得到目標設備采集范圍內的原始軌跡數據B的關聯設備;對原始軌跡數據B的關聯設備采集的數據進行篩選,提取得到同一時間段范圍內的數據集合;根據目標設備采集的數據和關聯設備采集的數據,計算總關聯度。2.如權利要求1所述的一種以采集頻率與范圍為權重的數據關聯度計算方法,其特征在于,所述原始軌跡數據A和原始軌跡數據B為車輛軌跡數據、原始人臉圖片數據和原始IMSI軌跡數據中的任意兩種。3.如權利要求2所述的一種以采集頻率與范圍為權重的數據關聯度計算方法,其特征在于,對原始軌跡數據A進行分組處理,具體包括:對原始軌跡數據A進行預處理,根據設備編號對所述原始軌跡數據A進行分組,分組后的數據集合記為A={A1,A2,...,A
n
};其中A1表示設備編號為1采集的數據集合,A2表示設備編號為2采集的數據集合,A
n
表示設備編號為n采集的數據集合。4.如權利要求3所述的一種以采集頻率與范圍為權重的數據關聯度計算方法,其特征在于,對原始軌跡數據A進行排序和批次劃分,并去重,具體包括:設目標設備的編號為i,根據編號i獲取目標設備的基本信息,所述基本信息包括采集半徑、采集頻率和上報周期;提取編號為i的目標設備采集的數據集合A
i
,對數據集合A
i
內的原始軌跡數據按采集時間由小到大進行排序;再根據采集頻率和上報周期,對排序之后的數據集合A
i
內的原始軌跡數據進行批次劃分,并對同一批次內的原始軌跡數據進行去重,得到無重復數據的批次集合A
i
={A
i1
,A
i2
,...,A
in
};其中,A
i1
為數據集合A
i
內第1個數據的批次集合,A
i2
為數據集合A...
【專利技術屬性】
技術研發人員:胡業勇,王亞飛,張鵬,
申請(專利權)人:南京小唐安樸科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。