System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及非現場數據處理,具體是一種非現場數據智能辨識、處置方法及系統。
技術介紹
1、對于一個單位或者企業,尤其是有自己核心技術的單位或者企業,技術保密是重中之重,但是在日常工作中,這些保密技術又需要向某些賬戶開放,規模越大,此類賬戶越多,這些賬戶的使用記錄屬于通過計算機設備間接獲取到的非現場數據,現有的對這些非現場數據的識別過程大都發現在使用后,也即,由管理人員定時復盤賬戶的使用情況,由人工進行異常判定,實時性不高,如何提供一種實時的非現場數據的辯識方法,快速定位賬戶異常,提高保密技術的安全性是本專利技術技術方案想要解決的技術問題。
技術實現思路
1、本專利技術的目的在于提供一種非現場數據智能辨識、處置方法及系統,以解決上述
技術介紹
中提出的問題。
2、為實現上述目的,本專利技術提供如下技術方案:
3、一種非現場數據智能辨識、處置方法,所述方法包括:
4、接收管理方定時更新的內部賬戶表,向每個使用者廣播基于內部賬戶表的備份請求,接收使用者反饋的備份許可;所述內部賬戶是管理方提供的應用于預設的平臺的賬戶;
5、接收到使用者反饋的備份許可后,根據賬戶的ip地址確定檢測時長,以當前時刻為端點,獲取當前時刻前檢測時長內備份的訪問記錄;
6、將訪問記錄轉換為文檔集,基于所述文檔集中抽取文檔-主題矩陣和主題-詞語矩陣;
7、在主題-詞語矩陣中選取元素值大于預設閾值的詞語,反饋至評估端,確定主題名稱;
8、
9、作為本專利技術進一步的方案:所述接收到使用者反饋的備份許可后,根據賬戶的ip地址確定檢測時長,以當前時刻為端點,獲取當前時刻前檢測時長內備份的訪問記錄的步驟包括:
10、接收到使用者反饋的備份許可后,獲取使用者每次登錄賬戶時的ip地址,更新地址直方圖;所述地址直方圖的橫軸用于表示ip地址,縱軸表示每個ip地址對應的登錄次數總數;
11、在地址直方圖中查詢當前ip地址的登錄次數總數,根據登錄次數總數確定檢測時長;所述檢測時長和所述登錄次數總數呈正比;
12、以當前時刻為端點,基于備份許可建立與備份數據庫的連接通道,獲取當前時刻前檢測時長內備份的訪問記錄。
13、作為本專利技術進一步的方案:所述將訪問記錄轉換為文檔集,基于所述文檔集中抽取文檔-主題矩陣和主題-詞語矩陣的步驟包括:
14、按照時間順序將訪問記錄轉換為文檔集;文檔集中各文檔的文檔編號與時間一一對應;
15、對每個文檔進行詞語識別,得到每個文檔的詞語集合;其中,在識別出詞語時,判斷詞語是否屬于預設的停用詞集,當詞語屬于預設的停用詞集時,剔除該詞語;
16、統計所有文檔的詞語集合,得到詞語空間,計算每個詞語集合中各個詞語的tf-idf值,構建文檔-詞語矩陣;
17、接收管理方輸入的主題數量,基于主題數量對文檔-詞語矩陣進行矩陣分解,得到文檔-主題矩陣和主題-詞語矩陣;
18、其中,文檔-詞語矩陣中的行與文檔對應,行數與文檔總數相同,列與詞語對應,列數與詞語總數相同;文檔-主題矩陣中的行與文檔對應,行數與文檔總數相同,列與主題對應,列數與主題數量相同;主題-詞語矩陣中的行與主題對應,行數與主題數量相同,列與詞語對應,列數與詞語總數相同。
19、作為本專利技術進一步的方案:tf-idf值的計算過程為:
20、tf-idf(t,d)=tf(t,d)×idf(t);
21、
22、式中,tf-idf(t,d)表示詞語t在文檔d中的tf-idf值,tf(t,d)表示詞語t在文檔d中的詞頻,n(t)為詞語t的出現次數,n(d)為文檔d的總詞數;idf(t)為詞語t的逆文檔頻率,w為總文檔數,w(t)為包含詞語t的文檔數;
23、對文檔-詞語矩陣進行矩陣分解的過程為:
24、設文檔-詞語矩陣為v,v的大小為m×n;
25、將v拆分為w和h,w表示文檔-主題矩陣,大小為m×k,h表示主題詞語矩陣,大小為k×n;
26、分解過程中的目標函數為:
27、其中,||x||f是x的frobenius范數,表示矩陣元素的平方和的平方根;
28、優化過程為:
29、
30、其中,α和β是矩陣h的行和列,γ和δ是矩陣w的行和列。
31、作為本專利技術進一步的方案:所述在主題-詞語矩陣中選取元素值大于預設閾值的詞語,反饋至評估端,確定主題名稱的步驟包括:
32、讀取主題-詞語矩陣,遍歷矩陣中的元素值,將其與預設閾值進行比對;
33、當元素值大于預設閾值時,讀取該元素對應的詞語,作為該元素對應的主題的特征詞;
34、統計特征詞,反饋至評估端,接收評估端發送的主題名稱。
35、作為本專利技術進一步的方案:所述基于主題名稱在文檔-主題矩陣中抽取特征主題,比對同一賬戶在不同時間的特征主題,判定身份異常度的步驟包括:
36、將主題名稱插入文檔-主題矩陣;
37、遍歷文檔-主題矩陣中的各個元素,當某一元素的元素值滿足預設條件時,將該元素對應的主題作為該元素對應的文檔的特征主題;
38、獲取同一賬戶在不同時間的特征主題,更新主題直方圖;所述主題直方圖的橫軸用于表示特征主題,縱軸表示每個特征主題對應的頻數;
39、在主題直方圖中查詢當前特征主題的頻數,根據所述頻數確定身份異常度;所述身份異常度和所述頻數呈反比。
40、本專利技術技術方案還提供了一種非現場數據智能辨識、處置系統,所述系統包括:
41、許可接收模塊,用于接收管理方定時更新的內部賬戶表,向每個使用者廣播基于內部賬戶表的備份請求,接收使用者反饋的備份許可;所述內部賬戶是管理方提供的應用于預設的平臺的賬戶;
42、記錄查詢模塊,用于接收到使用者反饋的備份許可后,根據賬戶的ip地址確定檢測時長,以當前時刻為端點,獲取當前時刻前檢測時長內備份的訪問記錄;
43、文檔集識別模塊,用于將訪問記錄轉換為文檔集,基于所述文檔集中抽取文檔-主題矩陣和主題-詞語矩陣;
44、主題名稱確定模塊,用于在主題-詞語矩陣中選取元素值大于預設閾值的詞語,反饋至評估端,確定主題名稱;
45、異常度判定模塊,用于基于主題名稱在文檔-主題矩陣中抽取特征主題,比對同一賬戶在不同時間的特征主題,判定身份異常度。
46、作為本專利技術進一步的方案:所述記錄查詢模塊包括:
47、地址記錄單元,用于接收到使用者反饋的備份許可后,獲取使用者每次登錄賬戶時的ip地址,更新地址直方圖;所述地址直方圖的橫軸用于表示ip地址,縱軸表示每個ip地址對應的登錄次數總數;
48、時長確定單元,用于在本文檔來自技高網...
【技術保護點】
1.一種非現場數據智能辨識、處置方法,其特征在于,所述方法包括:
2.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述接收到使用者反饋的備份許可后,根據賬戶的IP地址確定檢測時長,以當前時刻為端點,獲取當前時刻前檢測時長內備份的訪問記錄的步驟包括:
3.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述將訪問記錄轉換為文檔集,基于所述文檔集中抽取文檔-主題矩陣和主題-詞語矩陣的步驟包括:
4.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,TF-IDF值的計算過程為:
5.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述在主題-詞語矩陣中選取元素值大于預設閾值的詞語,反饋至評估端,確定主題名稱的步驟包括:
6.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述基于主題名稱在文檔-主題矩陣中抽取特征主題,比對同一賬戶在不同時間的特征主題,判定身份異常度的步驟包括:
7.一種非現場數據智能辨識、處置系統,其特征在于,所述系統包括:<
...【技術特征摘要】
1.一種非現場數據智能辨識、處置方法,其特征在于,所述方法包括:
2.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述接收到使用者反饋的備份許可后,根據賬戶的ip地址確定檢測時長,以當前時刻為端點,獲取當前時刻前檢測時長內備份的訪問記錄的步驟包括:
3.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述將訪問記錄轉換為文檔集,基于所述文檔集中抽取文檔-主題矩陣和主題-詞語矩陣的步驟包括:
4.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,tf-idf值的計算過程為:
5.根據權利要求1所述的非現場數據智能辨識、處置方法,其特征在于,所述在主題-詞語矩...
【專利技術屬性】
技術研發人員:趙銀春,劉龍,
申請(專利權)人:湖南途凌數智科技有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。