System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理,尤其是涉及一種基于異構圖嵌入的跨平臺身份關聯方法及裝置。
技術介紹
1、社交網絡主要包括用戶信息、用戶行為、用戶關系,每個類別都包含多種類型的節點。社交網絡關系的表示方法主要有用戶信息的關聯關聯、用戶節點的圖關系表示。圖關系表示法基于圖結構模擬用戶社交網絡拓撲,相比于關聯表示法更直觀,更容易挖掘用戶關系。圖結構根據其節點類型或邊類型的數量,分為同構圖和異構圖,異構圖包含了多種類型的節點或多種類型的邊。使用多類型節點描述用戶信息和用戶行為,使用節點關系描述用戶行為和用戶關系,能更真實反映現實社交網絡。
2、用戶身份關聯方法的與特征提取結果的形式密切相關,主要分為傳統方法、機器學習方法、深度學習方法三類。
3、傳統關聯方法,通常將單維或多維的用戶相似度值作為輸入,以閾值或相似度排序的方式,匹配同身份用戶組合。各類社交網絡平臺都有各自的賬號體系,傳統關聯算法閾值或排序方式無法描述多維參數間的非線性關系,基于該方式建立的知識庫,基本都是散落的節點,無法真正建立跨平臺的身份知識庫。
4、機器學習和深度學習方法的輸入通常使用多維的用戶相似度值,通過訓練數據集學習分類,實現用戶身份關聯。跨平臺社交網絡身份關聯,特征維度多,關聯關系復發,計算量大,在有限的計算資源下,大部分算法無法適配高維的數據處理。機器學習基于特征提取算法,實現網絡節點的主要特征提取,降低節點復雜度。深度學習利用多層神經網絡,使用大量標注數據來自動學習網絡節點的層級化特征表示。
5、目前國內社交平臺基本都支持
6、目前基于知識庫數據實現跨平臺用戶身份關聯主要有以下幾個問題:
7、用戶信息、用戶行為、用戶關系變更頻繁,大數據平臺知識庫記錄較多,缺乏高效計算關系權重的算法;
8、各社交網絡平臺用戶基數大,造成節點數量龐大;節點間頻繁互動,圖結構描述復雜,傳統方式難以適應;
9、基于異構圖的圖嵌入算法未考慮屬性差異,采用統一方式計算節點相似度;
10、知識庫數據隨時間衰老,噪聲數據多,容易導致多節點聚類,產生誤關聯。
11、因此,如何提供一種準確度更高的身份關聯方法,是目前亟待解決的問題。
技術實現思路
1、為了解決上述問題,本申請提供了一種基于異構圖嵌入的跨平臺身份關聯方法及裝置。
2、第一方面,本申請提供一種基于異構圖嵌入的跨平臺身份關聯方法,所述方法包括:
3、獲取社交網站的用戶數據;
4、采用圖關系表示法構建所獲取的用戶數據的社交網絡節點關系圖;
5、對關系圖中的節點關系權重進行計算得到關系權重矩陣,對節點相似度進行計算得到相似度矩陣;
6、對所述關系權重矩陣和所述相似度矩陣進行嵌入生成圖嵌入矩陣;
7、使用聚類算法對嵌入矩陣進行聚類,得到連通子圖。
8、可選的,所述對關系圖中的節點關系權重進行計算得到關系權重矩陣的步驟,具體包括:
9、基于定義的歷史記錄權重公式,計算每個時間戳的節點間關系權重;
10、基于定義的衰減因子,計算一定時間窗口內的關系權重,得到關系權重矩陣。
11、可選的,所述歷史記錄權重公式為:
12、
13、其中,為當前時間戳權重,為上一時間戳權重值;
14、為歷史權重系數,為本輪記錄時間戳,上一輪時間戳,單位為天;
15、n為數據源個數,為第k個關系來源的權重值,當前時間窗口內關系來源的關系記錄條數;為當前記錄的歷史權重,記為。
16、可選的,當在時間窗口內關系權重按天迭代時,歷史權重系數為固定值λ,當前時間窗口內關系r的關系權重的計算方式為:
17、
18、令w0=p0,則關系權重可表示為:
19、
20、其中,w0=η*wlst,η為衰減因子,wlst為當前時間窗口外最晚更新時間的歷史權重;
21、衰減因子η的計算方式為:
22、η=1-δ*lg(dn-dl)
23、其中,為當前時間,dl為當前時間窗口外最晚更新時間,為衰減系數;
24、所有關系r在時間窗口內n的關系權重矩陣為:
25、
26、可選的,所述對節點相似度進行計算得到相似度矩陣的步驟,具體包括:
27、獲取所述用戶數據中的身份數據和行為數據,分別提取身份特征和行為特征;
28、對身份特征和行為特征的相似度值進行聚合,得到節點相似度。
29、可選的,所述對所述關系權重矩陣和所述相似度矩陣進行嵌入生成圖嵌入矩陣的步驟,具體包括:
30、使用基于矩陣分解的aane算法,對所述關系權重矩陣和所述相似度矩陣進行嵌入,生成圖嵌入矩陣;
31、將節點類型作為分類標簽,對圖嵌入矩陣進行評估;
32、使用優化查找算法,尋找所述相似度矩陣和所述關系權重矩陣的最優超參數權重。
33、可選的,所述方法包括:
34、如果得到連通子圖中還存在大連通圖,則使用譜圖切割的方式對子圖進行切割。
35、第二方面,本申請提供一種基于異構圖嵌入的跨平臺身份關聯裝置,所述裝置包括:
36、數據獲取單元,用于獲取社交網站的用戶數據;
37、關系圖生成單元,用于采用圖關系表示法構建所獲取的用戶數據的社交網絡節點關系圖;矩陣計算單元,用于對關系圖中的節點關系權重進行計算得到關系權重矩陣,對節點相似度進行計算得到相似度矩陣;
38、圖嵌入單元,用于所述關系權重矩陣和所述相似度矩陣進行嵌入生成圖嵌入矩陣;
39、身份關聯單元,用于使用聚類算法對嵌入矩陣進行聚類,得到連通子圖。
40、第三方面,本申請提供一種電子設備,包括:
41、一個或多個處理器;
42、存儲器;
43、一個或多個應用程序,其中所述一個或多個應用程序被存儲在所述存儲器中并被配置為由所述一個或多個處理器執行,所述一個或多個程序配置用于執行如第一方面所述的方法。
44、第四方面,本申請提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有程序代碼,所述程序代碼可被處理器調用執行如第一方面所述的方法。
45、綜上所述,本申請包括以下至少有益技術效果:
46、1.提出基于時間窗口、數據來源、上報時間、關聯次數等維度,針對知識庫數據的節點權重計算方式,能夠高效計算關系權重;
47、2.使用圖嵌入算法,對知識庫本文檔來自技高網...
【技術保護點】
1.一種基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述對關系圖中的節點關系權重進行計算得到關系權重矩陣的步驟,具體包括:
3.根據權利要求2所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述歷史記錄權重公式為:
4.根據權利要求3所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,當在時間窗口內關系權重按天迭代時,歷史權重系數為固定值λ,當前時間窗口內關系r的關系權重的計算方式為:
5.根據權利要求1-4任意一項所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述對節點相似度進行計算得到相似度矩陣的步驟,具體包括:
6.根據權利要求5所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述對所述關系權重矩陣和所述相似度矩陣進行嵌入生成圖嵌入矩陣的步驟,具體包括:
7.根據權利要求1所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述方法包括:
8.一種基于異構圖嵌入的跨平臺身份關聯
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有程序代碼,所述程序代碼可被處理器調用執行如權利要求1-7任一項所述的方法。
...【技術特征摘要】
1.一種基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述對關系圖中的節點關系權重進行計算得到關系權重矩陣的步驟,具體包括:
3.根據權利要求2所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,所述歷史記錄權重公式為:
4.根據權利要求3所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在于,當在時間窗口內關系權重按天迭代時,歷史權重系數為固定值λ,當前時間窗口內關系r的關系權重的計算方式為:
5.根據權利要求1-4任意一項所述的基于異構圖嵌入的跨平臺身份關聯方法,其特征在...
【專利技術屬性】
技術研發人員:廖聞劍,祝遠鑒,馬曉玥,王聞笛,蔡嵩,
申請(專利權)人:南京烽火星空通信發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。