System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及網絡安全,尤其涉及一種數據處理方法、裝置及設備。
技術介紹
1、隨著互聯網技術的飛速發展,網站成為各大企業、組織或機構的信息展示平臺,為企業、組織或機構與用戶提供了信息交互和溝通的渠道。但由于網絡環境的開放性和匿名性,為一些不法分子提供了可乘之機。這些不法分子通過利用一些正常品牌或企業的名義制作虛假網站,利用虛假網站騙取網絡用戶的個人信息或財產信息等。
2、針對這一類安全問題,目前提出了一種基于網站的通用特征的仿冒網站檢測方法,但傳統的通用特征檢測方法在檢測不同類別的網站特征時仍存在一定的局限性,導致檢測仿冒網站的準確性較低。
技術實現思路
1、本申請提供一種數據處理方法、裝置及設備,用于提高檢測仿冒網站的準確性。
2、第一方面,本申請實施例提供一種數據處理方法,包括:根據所述待檢測的第一網站,獲取所述第一網站的網站數據;將所述網站數據輸入訓練后的行業分類模型,獲得所述第一網站的第一行業類別;根據所述第一行業類別,從預存的仿冒網站檢測模型集中確定與所述第一行業類別匹配的第一仿冒網站檢測模型,所述第一仿冒網站檢測模型是根據所述第一行業類別對應的樣本網站數據的語義特征訓練得到的;將所述第一行業類別和所述網站數據輸入所述第一仿冒網站檢測模型,獲得檢測結果,所述檢測結果用于指示所述第一網站是否為仿冒網站。
3、在本申請實施例中,先將待檢測的網站數據輸入訓練后的行業分類模型中,由訓練后的行業分類模型識別第一網站的第一行業類別,再基于第一行業類別選
4、并且,在訓練第一仿冒網站檢測模型時,是通過樣本網站數據的語義特征進行訓練,使得訓練后的第一仿冒網站檢測模型在檢測第一網站是否為仿冒網站時,也可基于網站數據中的語義特征識別,能夠更準確地檢測到不通過直接仿冒內容、直接進行品牌冒用從而達到欺詐或引流等目的的仿冒網站,進一步提高了檢測仿冒網站的準確性。
5、在一種可能的實施方式中,所述方法還包括:根據預采集的第一樣本網站數據集和預設的規則歸納算法,生成第一規則集,所述第一規則集為通過所述規則歸納算法對所述第一樣本網站數據集中的語義特征進行擴展、分類、歸納得到的多個第一規則;根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行處理,生成第三規則集,所述第三規則集中的規則是將所述第一規則集和所述第二規則集中存在包含關系的規則和存在沖突關系的規則進行合并之后得到的;根據所述第三規則集中所述第一行業類別的語義特征和所述第一行業類別的通用特征,結合交叉驗證和網格搜索算法,對初始第一仿冒網站檢測模型進行訓練,得到所述訓練后的第一仿冒網站檢測模型。
6、在該實施方式中,預存的第二規則集可以是由人工提取得到的規則集,在這種情況下,第三規則集包括由規則歸納算法自動提取得到的第一規則集和人工提取得到的第二規則集,使得用于訓練第一仿冒網站檢測模型的第三規則集更加豐富,從而提高了訓練后的第一仿冒網站檢測模型對仿冒網站數據的理解和處理能力。并且,由于冗余規則(存在包含關系的規則)可能導致重復的檢測結果,而沖突規則可能導致混亂或矛盾的檢測結果,所以對規則進行了規則合并,包括冗余規則合并沖突規則消減,可以降低檢測結果的誤報率,減少規則的數量并優化檢測結果,簡化檢測過程,提高檢測效率。
7、在一種可能的實施方式中,根據預采集的第一樣本網站數據集和預設的規則歸納算法,生成第一規則集,包括:根據所述第一樣本網站數據集的每個第一樣本網站數據中每個詞的出現頻率、第一閾值和預存的詞庫,生成所述每個第一樣本網站數據的特征向量集合;根據所述特征向量集合和所述規則歸納算法,生成所述每個第一樣本網站數據的規則集,所述規則集中每個規則對應關聯有置信度;將所述第一樣本網站數據的每個第一樣本網站數據的規則集中置信度超過第二閾值的規則,組成為所述第一規則集。
8、在該實施方式中,使用規則歸納算法實現自動挖掘規則,可以大大減輕人工挖掘規則的工作消耗,提高第一規則集的生成效率。
9、在一種可能的實施方式中,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合并,生成第三規則集,包括:根據所述第一規則集和所述第二規則集中每個規則的置信度和預設的置信度等級,為所述第一規則集和所述第二規則集中的每個規則關聯置信度等級;若確定第一規則集中存在第一規則指示的條件范圍大于第二規則指示的條件范圍,則判斷所述第一規則和所述第二規則是否屬于同一置信度等級,所述第二規則為所述第二規則集中的任一規則或所述第一規則集中除所述第一規則以外的任一規則;若所述第一規則和所述第二規則不屬于同一置信度等級,則刪除置信度等級更低的規則;若所述第一規則和所述第二規則屬于同一置信度等級,則刪除所述第一規則;根據合并后的第一規則集和第二規則集,生成所述第三規則集。
10、在一種可能的實施方式中,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合并,生成第三規則集,包括:確定所述第一規則集中是否存在第三規則和第四規則,所述第三規則和所述第四規則與同一樣本網站數據關聯,且所述第三規則和所述第四規則指示的行業類別不同;若存在,則判斷所述第三規則和所述第四規則包括的規則條件是否重疊;若重疊,則刪除置信度等級更低的規則;若不重疊,則將所述第三規則和所述第四規則合并為第五規則,并根據用戶基于所述第五規則輸入的第二行業類別,將所述第五規則與所述第二行業類別關聯并存入所述第一規則集;將所述第二規則集和合并后的第一規則集確定為所述第三規則集。
11、在一種可能的實施方式中,所述方法還包括:從第二樣本網站數據集中,提取得到各個行業類別的關鍵詞集合;統計所述關鍵詞集合中每個關鍵詞在各個行業類別中的出現次數和出現頻率,確定所述每個關鍵詞的信息增益,所述信息增益用于指示所述每個關鍵詞與所述各個行業類別的關聯程度;根據所述關鍵詞集合中每個關鍵詞的信息增益和第三閾值,確定所述各個行業類別的樣本關鍵詞。根據所述各個行業類別的樣本關鍵詞,結合交叉驗證和網格搜索算法,對初始行業分類模型進行訓練,得到所述訓練后的行業分類模型。
12、在該實施方式中,使用信息增益篩選得到樣本關鍵詞,能夠有效降低關鍵詞數量并提高模型效用。
13、第二方面,本申請實施例提供一種數據處理裝置,包括:獲取模塊,用于根據所述待檢測的第一網站,獲取所述第一網站的網站數據;確定模塊,用于將所述網站數據輸入訓練后的行業分類模型,獲得所述第一網站本文檔來自技高網...
【技術保護點】
1.一種數據處理方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,根據預采集的第一樣本網站數據集和預設的規則歸納算法,生成第一規則集,包括:
4.根據權利要求2所述的方法,其特征在于,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合并,生成第三規則集,包括:
5.根據權利要求2所述的方法,其特征在于,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合并,生成第三規則集,包括:
6.根據權利要求1-5任一項所述的方法,其特征在于,所述方法還包括:
7.一種數據處理裝置,其特征在于,包括:
8.一種數據處理設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,當所述計算機指令在計算機上運行時,使得計算機執行如權利要求1-6中任一項所述的方法。
10.一種計算機程序產品,其特征在于,包含有計算機
...【技術特征摘要】
1.一種數據處理方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,根據預采集的第一樣本網站數據集和預設的規則歸納算法,生成第一規則集,包括:
4.根據權利要求2所述的方法,其特征在于,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合并,生成第三規則集,包括:
5.根據權利要求2所述的方法,其特征在于,根據預設的規則處理操作,對所述第一規則集和預定義的第二規則集中的規則進行規則合...
【專利技術屬性】
技術研發人員:周濤,左云鶴,張世軒,施長春,劉文龍,
申請(專利權)人:天翼安全科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。