System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及時序數(shù)據(jù)異常檢測,尤其涉及一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法、系統(tǒng)、裝置及存儲介質(zhì)。
技術(shù)介紹
1、在社交網(wǎng)絡(luò)場景中,存在大量的時間序列數(shù)據(jù),比如用戶活動記錄:對用戶在社交網(wǎng)絡(luò)上的各種活動進(jìn)行記錄,例如發(fā)布帖子、發(fā)表評論、點贊、分享、關(guān)注或取消關(guān)注其他用戶等行為。再比如社交網(wǎng)絡(luò)指標(biāo):社交網(wǎng)絡(luò)平臺通常會記錄和統(tǒng)計一些關(guān)鍵指標(biāo),例如用戶數(shù)量、每日活躍用戶、點贊數(shù)、分享數(shù)、評論數(shù)等。對這些數(shù)據(jù)進(jìn)行異常檢測分析,可以有助于發(fā)掘潛在的價值。比如對用戶的點贊數(shù)、分享數(shù)等指標(biāo)進(jìn)行異常檢測,可以檢測惡意刷曝光度的行為。然而,很多情況下,在數(shù)據(jù)采集、傳輸、存儲等過程中,真實數(shù)據(jù)會存在一定的缺失,比如用戶由于隱私設(shè)置使得無法訪問到部分指標(biāo),或者不同的用戶類型其指標(biāo)類型并不完全相同,進(jìn)行對齊后也會存在缺失。數(shù)據(jù)缺失會對異常檢測方法帶來負(fù)面的影響。
2、當(dāng)前的異常檢測算法如基于圖結(jié)構(gòu)學(xué)習(xí)的物聯(lián)網(wǎng)異常檢測方法及裝置(cn117688504a)并沒有充分考慮到真實數(shù)據(jù)的復(fù)雜性,無法有效應(yīng)對當(dāng)輸入數(shù)據(jù)存在部分缺失的情況,針對輸入數(shù)據(jù)中的缺失信息,其大多在預(yù)處理階段利用一些確定性的算法對數(shù)據(jù)進(jìn)行補(bǔ)足,與后續(xù)的異常檢測任務(wù)為相互獨立的兩階段過程,效果不佳。
3、絕大多數(shù)方法也沒有有效處理時間維度和空間維度的數(shù)據(jù)信息,因此不能充分發(fā)掘出數(shù)據(jù)中的模式,極大地影響了異常檢測任務(wù)的實際效果。比如當(dāng)前異常檢測方法沒有考慮不同社交網(wǎng)絡(luò)時序數(shù)據(jù)之間的相互聯(lián)系,而是將所有社交網(wǎng)絡(luò)時序數(shù)據(jù)作為一個高維度的數(shù)據(jù)進(jìn)行處理。
>技術(shù)實現(xiàn)思路
1、本專利技術(shù)目的在于針對現(xiàn)有技術(shù)的不足,提出一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法、系統(tǒng)、裝置及存儲介質(zhì)。可以自動地對社交網(wǎng)絡(luò)中的時間序列數(shù)據(jù)中的缺失部分進(jìn)行補(bǔ)足并利用,并完成異常檢測。為了處理所得到數(shù)據(jù)存在部分缺失的情況,本專利技術(shù)提出利用高斯核函數(shù)捕捉窗口中的時序相關(guān)性,可以對缺失數(shù)據(jù)進(jìn)行插值補(bǔ)全;本專利技術(shù)將數(shù)據(jù)缺失信息融合進(jìn)特征提取部分,提出了一種基于節(jié)點嵌入的圖結(jié)構(gòu)學(xué)習(xí)機(jī)制與一種融合節(jié)點嵌入、缺失信息等多尺度信息的圖注意力機(jī)制,對數(shù)據(jù)進(jìn)行異常檢測分析。
2、本專利技術(shù)的目的是通過以下技術(shù)方案來實現(xiàn)的:第一方面,本專利技術(shù)提供了一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,該方法包括以下步驟:
3、(1)獲取社交網(wǎng)絡(luò)中的時間序列數(shù)據(jù),標(biāo)記缺失數(shù)據(jù)并劃分時間窗口;
4、(2)對每一個時間窗口中每一維度數(shù)據(jù)進(jìn)行基于高斯核函數(shù)的插值;
5、(3)定義節(jié)點嵌入并構(gòu)建圖結(jié)構(gòu),表示社交網(wǎng)絡(luò)時序數(shù)據(jù)維度之間的相互聯(lián)系;
6、(4)基于從圖結(jié)構(gòu)中獲取到的鄰居節(jié)點集合對插值后的數(shù)據(jù)進(jìn)行高層特征提取;
7、(5)將每一維度的高層特征,與對應(yīng)的節(jié)點嵌入進(jìn)行按位相乘融合,輸入到多層感知機(jī)中用于下一時刻數(shù)據(jù)的預(yù)測,完成訓(xùn)練過程;
8、(6)獲取需要待檢測的社交網(wǎng)絡(luò)時序數(shù)據(jù)并劃分時間窗口,以實際數(shù)據(jù)和預(yù)測數(shù)據(jù)計算每一個特征維度的異常分?jǐn)?shù)并進(jìn)行標(biāo)準(zhǔn)化,基于標(biāo)準(zhǔn)化的異常分?jǐn)?shù)計算整個數(shù)據(jù)點的異常情況。
9、進(jìn)一步地,步驟(1)中,標(biāo)記的缺失數(shù)據(jù)構(gòu)建成缺失掩碼矩陣,為和社交網(wǎng)絡(luò)時序數(shù)據(jù)具有相同維度的0,1矩陣,表征數(shù)據(jù)的缺失情況,每個位點值為0則表示社交網(wǎng)絡(luò)時序數(shù)據(jù)對應(yīng)值出現(xiàn)缺失。
10、進(jìn)一步地,步驟(2)中,高斯核函數(shù)衡量了時間序列窗口內(nèi)任意時間點對于目標(biāo)時間點的時間維度影響,基于高斯核函數(shù)獲得數(shù)據(jù)點處的總體時序信息,為了建模對應(yīng)數(shù)據(jù)點的數(shù)據(jù)密集信息,引入強(qiáng)度函數(shù)進(jìn)行控制,得到時間窗口中目標(biāo)時間點的數(shù)據(jù)。
11、進(jìn)一步地,步驟(3)中,節(jié)點嵌入的數(shù)量和社交網(wǎng)絡(luò)時序數(shù)據(jù)特征維度相同,構(gòu)建特征維度的候選集合,當(dāng)計算特征維度關(guān)聯(lián)維度節(jié)點時,從候選集合中選擇對應(yīng)節(jié)點嵌入相似度最高的k個維度并更新鄰接矩陣構(gòu)建出圖結(jié)構(gòu),k為超參數(shù),用于限定鄰接矩陣的稀疏性。
12、進(jìn)一步地,步驟(4)中,將時間窗口中特征維度以及圖結(jié)構(gòu)中獲取到的鄰居節(jié)點的對應(yīng)輸入數(shù)據(jù)分別與對應(yīng)的數(shù)據(jù)缺失信息進(jìn)行連接,經(jīng)過線性變換為與節(jié)點嵌入相同長度的向量,基于注意力加權(quán)計算,通過激活函數(shù)提取高層特征。
13、進(jìn)一步地,步驟(6)中,以特征維度在所有時間點中的預(yù)測異常分?jǐn)?shù)的中位數(shù)和四分位距作為標(biāo)準(zhǔn)化的均值和方差,其中四分位距的計算方式為:先將數(shù)據(jù)劃分為四個等份,然后取其第三四分位數(shù)和第一四分位數(shù)作差,作為四分位距;標(biāo)準(zhǔn)化后的異常分?jǐn)?shù)與異常閾值比較判斷數(shù)據(jù)是否異常。
14、第二方面,本專利技術(shù)還提供了一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測系統(tǒng),該系統(tǒng)數(shù)據(jù)獲取模塊、預(yù)插值模塊、節(jié)點嵌入模塊、高層特征提取模塊、信息融合模塊和異常檢測模塊;
15、所述數(shù)據(jù)獲取模塊用于獲取社交網(wǎng)絡(luò)時序數(shù)據(jù),標(biāo)記缺失數(shù)據(jù)并劃分時間窗口;
16、所述預(yù)插值模塊用于對每一個時間窗口中每一維度數(shù)據(jù)進(jìn)行基于高斯核函數(shù)的插值;
17、所述節(jié)點嵌入模塊用于定義節(jié)點嵌入并構(gòu)建圖結(jié)構(gòu),表示社交網(wǎng)絡(luò)時序數(shù)據(jù)維度之間的相互聯(lián)系;
18、所述高層特征提取模塊用于基于從圖結(jié)構(gòu)中獲取到的鄰居節(jié)點集合對插值后的數(shù)據(jù)進(jìn)行高層特征提取;
19、所述信息融合模塊用于將每一維度的高層特征,與對應(yīng)的節(jié)點嵌入進(jìn)行按位相乘融合,輸入到多層感知機(jī)中用于下一時刻數(shù)據(jù)的預(yù)測,完成訓(xùn)練過程;
20、所述異常檢測模塊用于獲取需要待檢測的社交網(wǎng)絡(luò)時序數(shù)據(jù)并劃分時間窗口,以實際數(shù)據(jù)和預(yù)測數(shù)據(jù)計算每一個特征維度的異常分?jǐn)?shù)并進(jìn)行標(biāo)準(zhǔn)化,基于標(biāo)準(zhǔn)化的異常分?jǐn)?shù)計算整個數(shù)據(jù)點的異常情況。
21、第三方面,本專利技術(shù)還提供了一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測裝置,包括存儲器和一個或多個處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
22、第四方面,本專利技術(shù)還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有程序,所述程序被處理器執(zhí)行時,實現(xiàn)所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
23、第五方面,本專利技術(shù)還提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時,實現(xiàn)所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
24、本專利技術(shù)的有益效果:
25、1、當(dāng)前的異常檢測算法并沒有充分考慮到真實數(shù)據(jù)的復(fù)雜性,無法有效應(yīng)對當(dāng)輸入數(shù)據(jù)存在部分缺失的情況,針對輸入數(shù)據(jù)中的缺失信息,其大多在預(yù)處理階段利用一些確定性的算法對數(shù)據(jù)進(jìn)行補(bǔ)足,與后續(xù)的異常檢測任務(wù)為相互獨立的兩階段過程,效果不佳。本方法可以在流程中自動補(bǔ)全數(shù)據(jù)的缺失,無需額外的處理,具有更好的便捷性。并且算法可以自學(xué)習(xí)地調(diào)整插值過程,具有更好的插值準(zhǔn)確性。
26、2、傳統(tǒng)方法沒有有效處理時間維度和空間維度的數(shù)據(jù)信息,因此不能充分發(fā)掘出數(shù)據(jù)中的模式,極大地影響了異常檢測任務(wù)的實際效果。比如當(dāng)前異常檢測方法沒有考慮不同社交網(wǎng)絡(luò)時序數(shù)據(jù)之間的相互聯(lián)系,本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(1)中,標(biāo)記的缺失數(shù)據(jù)構(gòu)建成缺失掩碼矩陣,為和社交網(wǎng)絡(luò)時序數(shù)據(jù)具有相同維度的0,1矩陣,表征數(shù)據(jù)的缺失情況,每個位點值為0則表示社交網(wǎng)絡(luò)時序數(shù)據(jù)對應(yīng)值出現(xiàn)缺失。
3.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(2)中,高斯核函數(shù)衡量了時間序列窗口內(nèi)任意時間點對于目標(biāo)時間點的時間維度影響,基于高斯核函數(shù)獲得數(shù)據(jù)點處的總體時序信息,為了建模對應(yīng)數(shù)據(jù)點的數(shù)據(jù)密集信息,引入強(qiáng)度函數(shù)進(jìn)行控制,得到時間窗口中目標(biāo)時間點的數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(3)中,節(jié)點嵌入的數(shù)量和社交網(wǎng)絡(luò)時序數(shù)據(jù)特征維度相同,構(gòu)建特征維度的候選集合,當(dāng)計算特征維度關(guān)聯(lián)維度節(jié)點時,從候選集合中選擇對應(yīng)節(jié)點嵌入相似度最高的K個維度并更新鄰接矩陣構(gòu)建出圖結(jié)構(gòu),K為超參數(shù),用于限定鄰接矩陣的稀疏性。
5.根據(jù)權(quán)
6.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(6)中,以特征維度在所有時間點中的預(yù)測異常分?jǐn)?shù)的中位數(shù)和四分位距作為標(biāo)準(zhǔn)化的均值和標(biāo)準(zhǔn)差,其中四分位距的計算方式為:先將數(shù)據(jù)劃分為四個等份,然后取其第三四分位數(shù)和第一四分位數(shù)作差,作為四分位距;標(biāo)準(zhǔn)化后的異常分?jǐn)?shù)與異常閾值比較判斷數(shù)據(jù)是否異常。
7.一種實現(xiàn)權(quán)利要求1-6任一項所述社交網(wǎng)絡(luò)異常檢測方法的面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測系統(tǒng),其特征在于,該系統(tǒng)數(shù)據(jù)獲取模塊、預(yù)插值模塊、圖結(jié)構(gòu)學(xué)習(xí)模塊、時空信息提取模塊、信息融合預(yù)測模塊和異常檢測模塊;
8.一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測裝置,包括存儲器和一個或多個處理器,所述存儲器中存儲有可執(zhí)行代碼,其特征在于,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)如權(quán)利要求1-6中任一項所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
9.一種計算機(jī)可讀存儲介質(zhì),其上存儲有程序,其特征在于,所述程序被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1-6中任一項所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
10.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時,實現(xiàn)如權(quán)利要求1-6任一項所述的一種面向時序缺失數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法。
...【技術(shù)特征摘要】
1.一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,該方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(1)中,標(biāo)記的缺失數(shù)據(jù)構(gòu)建成缺失掩碼矩陣,為和社交網(wǎng)絡(luò)時序數(shù)據(jù)具有相同維度的0,1矩陣,表征數(shù)據(jù)的缺失情況,每個位點值為0則表示社交網(wǎng)絡(luò)時序數(shù)據(jù)對應(yīng)值出現(xiàn)缺失。
3.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(2)中,高斯核函數(shù)衡量了時間序列窗口內(nèi)任意時間點對于目標(biāo)時間點的時間維度影響,基于高斯核函數(shù)獲得數(shù)據(jù)點處的總體時序信息,為了建模對應(yīng)數(shù)據(jù)點的數(shù)據(jù)密集信息,引入強(qiáng)度函數(shù)進(jìn)行控制,得到時間窗口中目標(biāo)時間點的數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(3)中,節(jié)點嵌入的數(shù)量和社交網(wǎng)絡(luò)時序數(shù)據(jù)特征維度相同,構(gòu)建特征維度的候選集合,當(dāng)計算特征維度關(guān)聯(lián)維度節(jié)點時,從候選集合中選擇對應(yīng)節(jié)點嵌入相似度最高的k個維度并更新鄰接矩陣構(gòu)建出圖結(jié)構(gòu),k為超參數(shù),用于限定鄰接矩陣的稀疏性。
5.根據(jù)權(quán)利要求1所述的一種面向缺失時序數(shù)據(jù)的社交網(wǎng)絡(luò)異常檢測方法,其特征在于,步驟(4)中,將時間窗口中特征維度以及圖結(jié)構(gòu)中獲取到的鄰居節(jié)點的對應(yīng)輸入數(shù)據(jù)分別與對應(yīng)的數(shù)據(jù)缺失信息進(jìn)行連接,經(jīng)過線性變換為與節(jié)點嵌入相同長度的...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王新宇,高楊,王雷,姚都,蔣煒,
申請(專利權(quán))人:浙江邦盛科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。