System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機,尤其涉及一種網頁檢測方法、裝置及電子設備。
技術介紹
1、隨著網絡規模的擴展與復雜化,企業內部管理系統的安全分布與管理愈發關鍵。企業內部管理系統儲存著企業的核心業務數據與敏感信息,其安全性直接影響企業的經濟損失與聲譽。
2、然而,傳統的登錄頁面識別方法受限于硬編碼和關鍵詞匹配,難以應對多樣化的前端技術與設計,導致識別不準確。現有技術通過模擬用戶行為來識別管理后臺登錄,雖提高了準確性,但過程復雜耗時,依賴外部工具且易受環境網絡影響,響應速度及適應性受限。
3、如何提升網頁檢測速度以及準確性成為一種值得商榷的問題。
技術實現思路
1、本申請實施例提供一種網頁檢測方法、裝置及電子設備,用于提升網頁檢測速度以及準確性。
2、第一方面,本申請實施例提供一種網頁檢測方法,該方法包括:
3、從目標網頁中提取表示網頁內容的頁面數據信息;
4、采用關鍵詞典遍歷頁面數據信息,確定頁面數據信息是否包含關鍵詞典中的關鍵詞,并進行標記得到標記序列,關鍵詞典是基于登錄操作相關的高頻語義詞對確定的;
5、計算所述目標網頁中每個表單form標簽內的字符長度與網頁內容字符長度的比值得到內容比例,內容比例用于表示form標簽相對于整個網頁內容的元素占比,計算包含交互動作關鍵詞的子元素數量與對應的form標簽內總元素數量的比值得到元素命中比例,元素命中比例用于表示form標簽中與用戶交互相關的元素占比;
6、輸入標準化
7、可選的,上述關鍵詞典采取如下方式確定:
8、從正樣本集合中提取有關于登錄系統的高頻詞集合,正樣本集合包括管理系統隱私數據;
9、輸入高頻詞集合中至詞向量word2vec模型,得到交互高頻詞集合中的同義詞對集合,word2vec模型基于不同詞語間的余弦相似度進行訓練,同義詞對中的詞語的語義接近;
10、將同義詞對集合的詞嵌入向量輸入至第二模型中,得到對應的詞對類別標簽,第二模型是基于預設數據集合對神經網絡模型進行訓練得到的,預設數據集合包括多個用于標注詞對之間關系的標簽;
11、根據預設規則對同義詞對集合進行分類,得到關鍵詞典。
12、可選的,上述根據預設規則對同義詞對集合進行分類,得到關鍵詞典,具體包括:
13、根據網頁的交互動作對同義詞對集合進行分類,得到關鍵詞典;
14、或,根據同義詞對集合在網頁中的功能進行分類,得到關鍵詞典。
15、可選的,上述word2vec模型采用如下方式進行訓練:
16、按照預設規則對待訓練的高頻詞集合進行預處理,得到預處理文本數據;
17、對預處理文本數據進行文本分詞,得到多個詞語;
18、輸入多個詞語中至待訓練的word2vec模型中,得到對應的詞嵌入向量;
19、計算任意一組詞嵌入向量對之間的余弦相似度,將余弦相似度最高的詞嵌入向量對作為同義詞對。
20、可選的,上述按照預設規則對待訓練的高頻詞集合進行預處理,具體包括:
21、刪除html標簽尖括號,保留標簽內的標簽名、文本和屬性值;
22、將文本轉換為小寫:
23、刪除預設的特殊字符和多余的空格,得到預處理文本。
24、可選的,上述從目標網頁中提取表示網頁內容的頁面數據信息,具體包括:
25、若目標網頁為動態加載內容,則模擬用戶網頁行為獲取目標網頁對應的頁面數據信息;
26、若目標網頁為靜態加載內容,則通過客戶端發送網絡請求獲取目標網頁對應的頁面數據信息。
27、可選的,上述計算所述目標網頁中每個表單form標簽內的字符長度與網頁內容字符長度的比值得到內容比例,具體包括:
28、使用超文本標記語言html解析庫解析頁面數據信息中的html源碼,刪除html源碼中與識別登錄頁面無關的標簽和注釋元素;
29、確定每個form標簽定義的表單區域的字符長度以及html源碼的剩余字符長度;
30、計算每個form標簽內的字符長度與html源碼的剩余字符長度的比值得到內容比例。
31、可選的,上述計算包含交互動作關鍵詞的子元素數量與對應的form標簽內總元素數量的比值得到元素命中比例,具體包括:
32、遍歷每個form標簽的子元素,并檢查子元素的屬性或內容是否命中與登錄操作相關的交互動作關鍵詞典;
33、計算包含交互動作關鍵詞的子元素數量與對應的form標簽內總元素數量的比值得到元素命中比例。
34、可選的,上述方法還包括:
35、若網頁中存在多個form標簽,遍歷所有form的命中比例,確定包含交互動作關鍵詞的子元素數量最多的form標簽作為目標標簽;
36、計算目標標簽包含交互動作關鍵詞的子元素數量與目標標簽內總元素數量的比值,得到元素命中比例。
37、可選的,上述決策樹模型采用如下方式進行訓練:
38、對包含登錄頁面和非登錄頁面的待訓練數據集合分別進行特征提取,得到待訓練特征數據,待訓練特征數據包括待訓練數據集合中每個網頁的標記序列、內容比例以及元素命中比例。
39、按照預設規則對特征數據進行數據預處理,得到標準化數據;
40、采用預設決策樹算法基于標準化數據訓練待訓練的決策樹模型,決策樹模型采用預設參數防止過擬合。
41、第二方面,本申請實施例提供一種網頁檢測裝置,該裝置包括:
42、處理模塊,用于從目標網頁中提取表示網頁內容的頁面數據信息;
43、處理模塊,還用于采用關鍵詞典遍歷頁面數據信息,確定頁面數據信息是否包含關鍵詞典中的關鍵詞,并進行標記得到標記序列,關鍵詞典是基于登錄操作相關的高頻語義詞對確定的;
44、計算模塊,用于計算所述目標網頁中每個表單form標簽內的字符長度與網頁內容字符長度的比值得到內容比例,內容比例用于表示form標簽相對于網頁內容的元素占比,計算包含交互動作關鍵詞的子元素數量與對應的form標簽內總元素數量的比值得到元素命中比例,元素命中比例用于表示form標簽中與用戶交互相關的元素占比;
45、處理模塊,還用于輸入標準化處理后的特征數據輸入至決策樹模型中,確定目標網頁是否為登錄頁面,特征數據包括標記序列、內容比例以及元素命中比例,決策樹模型是基于包含登錄頁面和非登錄頁面的待訓練數據集合訓練得到的。
46、第三方面,本申請實施例提供一種電子設備,包括存儲器,處理器及存儲在存儲器上并可在處理器運行的計算機程序,當計算機程序被處理器執行時,使得處理器實現上述第一方面中的任本文檔來自技高網...
【技術保護點】
1.一種網頁檢測方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述關鍵詞典采取如下方式確定:
3.根據權利要求2所述的方法,其特征在于,所述根據預設規則對所述同義詞對集合進行分類,得到所述關鍵詞典,具體包括:
4.根據權利要求2所述的方法,其特征在于,所述Word2Vec模型采用如下方式進行訓練:
5.根據權利要求4所述的方法,其特征在于,所述按照預設規則對待訓練的高頻詞集合進行預處理,具體包括:
6.根據權利要求1所述的方法,其特征在于,所述從目標網頁中提取表示網頁內容的頁面數據信息,具體包括:
7.根據權利要求1所述的方法,其特征在于,所述計算所述目標網頁中每個表單Form標簽內的字符長度與網頁內容字符長度的比值得到內容比例,具體包括:
8.根據權利要求1所述的方法,其特征在于,所述計算包含交互動作關鍵詞的子元素數量與對應的Form標簽內總元素數量的比值得到元素命中比例,具體包括:
9.根據權利要求1或8所述的方法,其特征在于,所述方法還包括:
...【技術特征摘要】
1.一種網頁檢測方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述關鍵詞典采取如下方式確定:
3.根據權利要求2所述的方法,其特征在于,所述根據預設規則對所述同義詞對集合進行分類,得到所述關鍵詞典,具體包括:
4.根據權利要求2所述的方法,其特征在于,所述word2vec模型采用如下方式進行訓練:
5.根據權利要求4所述的方法,其特征在于,所述按照預設規則對待訓練的高頻詞集合進行預處理,具體包括:
6.根據權利要求1所述的方法,其特征在于,所述從目標網頁中提取表示網頁內容的頁面數據信息,具體包括:
7.根據權利要求1所述的方法,其特征在于,所述計算所述目標網頁中每個表單form標簽內的字符長度與網頁內容字符長度的比值得到內容比例,具體包括:
8.根據權利要求1所述的方法,其特征在于,所述計算包含...
【專利技術屬性】
技術研發人員:周濤,馬尚榮,馬睿寧,何樂為,于鵬,
申請(專利權)人:天翼安全科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。