System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請涉及文本檢測,特別是涉及一種網(wǎng)址檢測方法及相關(guān)裝置、設(shè)備和存儲介質(zhì)。
技術(shù)介紹
1、隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)址檢測越來越受到關(guān)注。現(xiàn)實(shí)場景中,通過將包含諸如有害網(wǎng)址的短文本進(jìn)行隱藏、二次語義編碼等方式,使得網(wǎng)址難以被檢測到,從而致使諸如有害網(wǎng)址的順利傳播,增加了網(wǎng)絡(luò)安全的監(jiān)管難度。
2、現(xiàn)有技術(shù)中,通常依賴于傳統(tǒng)的自然語言模型實(shí)現(xiàn)對網(wǎng)址文本的安全監(jiān)測。但是,由于網(wǎng)址文本中所包含的有害網(wǎng)址的隱蔽性,對于實(shí)際應(yīng)用場景中復(fù)雜的網(wǎng)址數(shù)據(jù)具有較差的檢測精度,從而削弱網(wǎng)址檢測的準(zhǔn)確性。有鑒于此,如何提升網(wǎng)址檢測的準(zhǔn)確性,成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請主要解決的技術(shù)問題是提供一種網(wǎng)址檢測方法及相關(guān)裝置、設(shè)備和存儲介質(zhì),能夠提升網(wǎng)址檢測的準(zhǔn)確性。
2、為了解決上述技術(shù)問題,本申請第一方面提供了一種網(wǎng)址檢測方法,包括:分別提取目標(biāo)網(wǎng)址文本中不符合預(yù)設(shè)條件的各個目標(biāo)字符;其中,預(yù)設(shè)條件至少包括以下兩種:預(yù)設(shè)字體形式和預(yù)設(shè)網(wǎng)址字符;基于目標(biāo)字符屬于不符合預(yù)設(shè)條件的具體種類,采用與具體種類相匹配的校正方式處理目標(biāo)字符,得到目標(biāo)字符校正之后符合預(yù)設(shè)條件的標(biāo)準(zhǔn)字符;其中,與預(yù)設(shè)字體形式相匹配的校正方式包括至少基于目標(biāo)字符的目標(biāo)字符圖像,生成目標(biāo)字符的同形字符作為標(biāo)準(zhǔn)字符,與預(yù)設(shè)網(wǎng)址字符相匹配的校正方式包括轉(zhuǎn)換生成目標(biāo)字符的同音字符作為標(biāo)準(zhǔn)字符,且同形字符和同音字符均屬于預(yù)設(shè)網(wǎng)址字符;基于目標(biāo)字符的標(biāo)準(zhǔn)字符替換目標(biāo)字符,得到目標(biāo)網(wǎng)址文本的標(biāo)準(zhǔn)網(wǎng)址文本。
4、為了解決上述技術(shù)問題,本申請第三方面提供了一種電子設(shè)備,包括相互耦接的存儲器和處理器,存儲器中存儲有程序指令,處理器用于執(zhí)行程序指令以實(shí)現(xiàn)上述第一方面中的網(wǎng)址檢測方法。
5、為了解決上述技術(shù)問題,本申請第四方面提供了一種計算機(jī)可讀存儲介質(zhì),存儲有能夠被處理器運(yùn)行的程序指令,程序指令用于實(shí)現(xiàn)上述第一方面所述的網(wǎng)址檢測方法。
6、上述方案,至少將預(yù)設(shè)字體形式和預(yù)設(shè)網(wǎng)址字符設(shè)為預(yù)設(shè)條件,分別提取目標(biāo)網(wǎng)址文本中不符合預(yù)設(shè)條件的各個目標(biāo)字符,基于目標(biāo)字符屬于不符合預(yù)設(shè)條件的具體種類,采用與具體種類相匹配的校正方式處理目標(biāo)字符,與預(yù)設(shè)字體形式相匹配的校正方式包括至少基于目標(biāo)字符的目標(biāo)字符圖像,生成目標(biāo)字符的同形字符作為標(biāo)準(zhǔn)字符,與預(yù)設(shè)網(wǎng)址字符相匹配的校正方式包括轉(zhuǎn)換生成目標(biāo)字符的同音字符作為標(biāo)準(zhǔn)字符,且同形字符和同音字符均屬于預(yù)設(shè)網(wǎng)址字符,基于目標(biāo)字符的標(biāo)準(zhǔn)字符替換目標(biāo)字符,得到目標(biāo)網(wǎng)址文本的標(biāo)準(zhǔn)網(wǎng)址文本。對于目標(biāo)網(wǎng)址文本中通過改變字體形式隱藏網(wǎng)址內(nèi)容的目標(biāo)字符,可至少基于目標(biāo)字符的目標(biāo)字符圖像生成矯正后屬于預(yù)設(shè)網(wǎng)址字符的標(biāo)準(zhǔn)字符,對于目標(biāo)網(wǎng)址文本中通過同音字符替換隱藏網(wǎng)址內(nèi)容的目標(biāo)字符,可基于目標(biāo)字符的發(fā)音生成矯正后屬于預(yù)設(shè)網(wǎng)址字符的標(biāo)準(zhǔn)字符,因此,能夠?qū)⒉环暇W(wǎng)址命名規(guī)則的目標(biāo)網(wǎng)址文本轉(zhuǎn)換為符合網(wǎng)址命名規(guī)則的標(biāo)準(zhǔn)網(wǎng)址文本,而標(biāo)準(zhǔn)網(wǎng)址文本有利于降低后續(xù)的網(wǎng)址檢測難度。故能提升網(wǎng)址檢測的準(zhǔn)確性。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種網(wǎng)址檢測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述至少基于所述目標(biāo)字符的目標(biāo)字符圖像,生成所述目標(biāo)字符的同形字符,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述目標(biāo)字符圖像與所述標(biāo)準(zhǔn)字符圖像之間的相似度,選擇與所述標(biāo)準(zhǔn)字符圖像對應(yīng)的預(yù)設(shè)網(wǎng)址字符,作為所述同形字符,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在同一所述目標(biāo)字符不符合所述預(yù)設(shè)字體形式和所述預(yù)設(shè)網(wǎng)址字符的情況下,所述基于所述目標(biāo)字符屬于不符合所述預(yù)設(shè)條件的具體種類,采用與所述具體種類相匹配的校正方式處理所述目標(biāo)字符,得到所述目標(biāo)字符校正之后符合所述預(yù)設(shè)條件的標(biāo)準(zhǔn)字符,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述字符相似度和所述音素相似度,選擇所述同形字符或所述同音字符作為所述目標(biāo)字符的標(biāo)準(zhǔn)字符,包括以下至少一者:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述分別提取目標(biāo)網(wǎng)址文本中不符合預(yù)設(shè)條件的各個目標(biāo)字符之前,所述方法還包括:
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法
8.一種網(wǎng)址檢測裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括相互耦接的存儲器和處理器,所述存儲器中存儲有程序指令,所述處理器用于執(zhí)行所述程序指令以實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的網(wǎng)址檢測方法。
10.一種計算機(jī)可讀存儲介質(zhì),其上存儲有程序指令,其特征在于,所述程序指令被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的網(wǎng)址檢測方法。
...【技術(shù)特征摘要】
1.一種網(wǎng)址檢測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述至少基于所述目標(biāo)字符的目標(biāo)字符圖像,生成所述目標(biāo)字符的同形字符,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述目標(biāo)字符圖像與所述標(biāo)準(zhǔn)字符圖像之間的相似度,選擇與所述標(biāo)準(zhǔn)字符圖像對應(yīng)的預(yù)設(shè)網(wǎng)址字符,作為所述同形字符,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在同一所述目標(biāo)字符不符合所述預(yù)設(shè)字體形式和所述預(yù)設(shè)網(wǎng)址字符的情況下,所述基于所述目標(biāo)字符屬于不符合所述預(yù)設(shè)條件的具體種類,采用與所述具體種類相匹配的校正方式處理所述目標(biāo)字符,得到所述目標(biāo)字符校正之后符合所述預(yù)設(shè)條件的標(biāo)準(zhǔn)字符,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王玉杰,吳飛,張浩宇,方四安,徐承,柳林,
申請(專利權(quán))人:合肥訊飛數(shù)碼科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。