System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機聚類分析領域,尤其涉及一種基于時空數據的聚類分析人群的方法、系統及裝置。
技術介紹
1、隨著城市的發展,時空數據在研究城市人群行為特征方面具有重要意義。時空數據的來源廣泛且種類繁多,例如出租車gps軌跡數據、用戶通話數據等,這些時空數據能反映人群的活動范圍、出行習慣、社交聯系等多方面信息,通過對時空數據的深入挖掘,可以更好地規劃城市布局、優化交通管理、提升公共服務水平等。
2、在現有技術中,已有許多研究針對不同類型的時空數據提出了分析人類行為、人類群體流動等特點的方法,該類分析通常從單一類型的數據入手,對該類型數據中的離群點進行處理,然后再結合算法模型對處理完成的數據進行分析,例如從人類行為特征的一個側面,分析人群移動軌跡模式。
3、然而,基于單一類型數據源的數據分析,只能獲取到片面的信息,會使聚類分析所得到的結果不夠全面,導致對人類特征的理解存在偏差,進而影響決策的準確性。
技術實現思路
1、為了解決上述技術問題,本申請提供了一種基于時空數據的聚類分析人群的方法、系統及裝置。
2、下面對本申請中提供的技術方案進行描述:
3、本申請第一方面提供了一種基于時空數據的聚類分析人群的方法,所述方法包括:
4、獲取時空數據,所述時空數據包括時間數據、空間數據、交通數據、環境數據以及社會經濟數據;
5、將所述時空數據進行特征處理得到特征數量,并基于特征數量構建時空數據矩陣;
6、通過預設分析算
7、根據所述數據矩陣中的預設點,計算以所述預設點為中心的預設半徑的體積及半徑內的點數,并基于所述半徑內的點數和所述體積計算得到局部密度;
8、計算所述數據矩陣中每個點與最近目標點的距離,并基于所述距離和所述局部密度選擇目標鄰域半徑;
9、基于所述特征數量確定數據維度,并通過所述數據維度設置最小點數;
10、根據所述目標領域半徑和所述最小點數,通過密度聚類算法對所述數據矩陣中每個點進行標記,得到聚類結果,所述聚類結果包含有多個聚類簇;
11、基于所述多個聚類簇分析所述聚類結果的特征。
12、可選的,所述通過預設分析算法對所述時空數據矩陣降維得到數據矩陣包括:
13、通過所述時空數據矩陣計算得到均值向量;
14、根據所述時空數據矩陣和所述均值向量計算得到協方差矩陣;
15、將所述協方差矩陣進行特征值分解,得到特征值和特征向量,并基于特征向量構建主成分,其中所述特征值為每個所述主成分所解釋的方差,所述特征向量為所述主成分的方向;
16、根據所述方差的大小選擇目標主成分,并基于所述目標主成分的所述特征向量構建特征向量矩陣;
17、將所述時空數據投影至所述特征向量矩陣得到數據矩陣。
18、可選的,所述協方差矩陣通過如下式子計算:
19、;
20、其中,表示所述協方差矩陣中特征和特征之間的協方差,表示所述時空數據的樣本數量,表示第個樣本在特征的值,表示第個樣本在特征的值,表示第個樣本的均值向量,表示第個樣本的均值向量。
21、可選的,所述根據所述方差的大小選擇目標主成分,并基于所述目標主成分的所述特征向量構建特征向量矩陣包括:
22、通過所述方差計算每個所述主成分的累計方差比例;
23、基于所述累計方差比例的大小選擇目標主成分;
24、基于所述目標主成分的所述特征向量構建特征向量矩陣。
25、可選的,所述基于所述累計方差比例的大小選擇目標主成分包括:
26、判斷所述累計方差比例是否大于或等于90%;
27、若是,則確定為所述目標主成分。
28、可選的,所述根據所述目標領域半徑和所述最小點數,通過密度聚類算法對所述數據矩陣中每個點進行標記,得到聚類結果,所述聚類結果包含有多個聚類簇包括:
29、步驟一:確定所述數據矩陣為樣本集d=(x1,x2,...,xm)、鄰域參數(?,minpts)和樣本距離度量方式,其中?表示所述目標領域半徑,minpts表示所述最小點數,所述樣本集中由多個tf-idf向量構成的集合;
30、步驟二:基于所述樣本距離度量方式,計算每個樣本xj的?-鄰域子樣本集n?(xj);
31、步驟三:將所述?-鄰域子樣本集n?(xj)的絕對值|n?(xj)|與所述minpts進行比較,并將大于所述minpts的樣本xj加入核心對象樣本集合ω中;
32、步驟四:當核心對象樣本集合ω不為空時,在核心對象樣本集合ω中隨機選擇一個核心對象o,并執行下述算法:
33、初始化當前簇核心對象隊列ωcur={o};
34、初始化類別序號k=k+1;
35、初始化當前簇樣本集合ck={o};
36、更新未訪問樣本集合γ=γ-{o};
37、步驟五:如果當前簇核心對象隊列ωcur為空,當前聚類簇ck生成完畢;在生成聚類簇ck之后,更新簇劃分c=c∪{ck},以及更新核心對象樣本集合ω=ω-ck;
38、步驟六:如果當前簇核心對象隊列ωcur不為空,則執行下述算法:
39、從當前簇核心對象隊列ωcur中取出一個核心對象o';
40、通過鄰域距離閾值?確定所有的?-鄰域子樣本集n?(o');
41、令δ=n?(o')∩γ;
42、更新當前簇樣本集合ck=ck∪δ,更新未訪問樣本集合γ=γ-δ;
43、更新ωcur=ωcur∪(δ∩ω)-{o'};
44、重復步驟五;
45、步驟七:輸出簇劃分c={c1,c2,...,ck},得到聚類結果,所述聚類結果包含有多個聚類簇。
46、可選的,在所述獲取時空數據,所述時空數據包括時間數據、空間數據、交通數據、環境數據以及社會經濟數據之后,在所述將時空數據進行特征處理得到特征數量,并基于特征數量構建時空數據矩陣之前,還包括:
47、對所述時空數據進行數據預處理,所述數據預處理包括:數據去重、缺失值處理以及統一數據類型。
48、可選的,所述局部密度通過如下式子計算:
49、;
50、其中,表示所述預設點的所述預設半徑內的點數,表示以所述預設點為中心的所述預設半徑的體積,表示所述局部密度。
51、本申請第二方面提供了一種基于時空數據的聚類分析人群的系統,所述系統包括:
52、獲取單元,用于獲取時空數據,所述時空數據包括時間數據、空間數據、交通數據、環境數據以及社會經濟數據;
53、構建單元,用于將所述時空數據進行特征處理得到特征數量,并基于特征數量構建時空數據矩陣;
54、降維單元,用于通過預設分析算法對所述時空數據矩陣本文檔來自技高網...
【技術保護點】
1.一種基于時空數據的聚類分析人群的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述通過預設分析算法對所述時空數據矩陣降維得到數據矩陣包括:
3.根據權利要求2所述的方法,其特征在于,所述協方差矩陣通過如下式子計算:
4.根據權利要求2所述的方法,其特征在于,所述根據所述方差的大小選擇目標主成分,并基于所述目標主成分的所述特征向量構建特征向量矩陣包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述累計方差比例的大小選擇目標主成分包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述目標領域半徑和所述最小點數,通過密度聚類算法對所述數據矩陣中每個點進行標記,得到聚類結果,所述聚類結果包含有多個聚類簇包括:
7.根據權利要求1所述的方法,其特征在于,在所述獲取時空數據,所述時空數據包括時間數據、空間數據、交通數據、環境數據以及社會經濟數據之后,在所述將時空數據進行特征處理得到特征數量,并基于特征數量構建時空數據矩陣之前,還包括:
8.根據權利要求1至6
9.一種基于時空數據的聚類分析人群的系統,其特征在于,包括:
10.一種基于時空數據的聚類分析人群的裝置,其特征在于,所述裝置包括:
...【技術特征摘要】
1.一種基于時空數據的聚類分析人群的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述通過預設分析算法對所述時空數據矩陣降維得到數據矩陣包括:
3.根據權利要求2所述的方法,其特征在于,所述協方差矩陣通過如下式子計算:
4.根據權利要求2所述的方法,其特征在于,所述根據所述方差的大小選擇目標主成分,并基于所述目標主成分的所述特征向量構建特征向量矩陣包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述累計方差比例的大小選擇目標主成分包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述目標領...
【專利技術屬性】
技術研發人員:龔昱鳴,蔡惠民,肖驥,支婷,謝紅韜,
申請(專利權)人:中電科大數據研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。