System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及短信攔截,具體涉及基于ai技術的短信攔截系統和方法。
技術介紹
1、短信是一種便捷的通信方式,被廣泛應用于各個領域;然而,由于垃圾短信和騷擾短信不斷泛濫,嚴重干擾了用戶的正常生活和工作,甚至可能造成經濟損失和個人信息泄露,因此,對于垃圾短信和騷擾短信的攔截是非常有必要的。
2、現有技術中,通過黑名單過濾、關鍵詞過濾等方法判斷是否含有已知的騷擾號碼和關鍵詞內容,實現短信的攔截;但由于用戶具有主觀的攔截需求,騷擾號碼不斷變化,且隨著網絡語言的發展和變化,新的騷擾詞匯和表達方式會不斷出現,黑名單過濾無法攔截未列入黑名單的新號碼發送的短信,關鍵詞過濾對于變體詞或無明顯關鍵詞的短信無法有效攔截,未能及時學習和適應變化的騷擾短信模式,短信攔截的效果較差。
技術實現思路
1、為了解決黑名單過濾無法攔截未列入黑名單的新號碼發送的短信,關鍵詞過濾對于變體詞或無明顯關鍵詞的短信無法有效攔截,未能及時學習和適應變化的騷擾短信模式,短信攔截的效果較差的技術問題,本專利技術的目的在于提供一種基于ai技術的短信攔截系統和方法,所采用的技術方案具體如下:
2、本專利技術提出了一種基于ai技術的短信攔截方法,所述方法包括:
3、獲取每個用戶的每個主動攔截短信的分詞數組和電話號碼;
4、對于任一主動攔截短信,獲得分詞數組中每個分詞的描述文本,根據分詞數組中每個分詞的描述文本和每個不同預設行業類別的小類別數組之間的相似性,獲得主動攔截短信中每個分詞所在的行
5、根據不同主動攔截短信對應描述文本的分詞數量,以及所有主動攔截短信中對應每個行業類別的分詞數量,獲得每個用戶對每個行業類別的短信攔截程度;根據每個用戶對每個行業類別的短信攔截程度,篩選出每個用戶的攔截優選行業類別;
6、獲得所有主動攔截短信中的鏈接攔截短信,根據每個用戶與其他用戶之間對應鏈接攔截短信的分布差異、以及攔截優選行業類別的相似性,獲得每個用戶與其他用戶之間主動攔截短信的攔截特征相似性;根據所述攔截特征相似性,篩選出每個用戶的攔截參考用戶;根據每個用戶對應所有電話號碼,以及每個用戶和攔截參考用戶之間攔截優選行業類別對應的分詞,獲得每個用戶的更新黑名單號碼庫和更新攔截分詞規則庫;
7、基于每個用戶的鏈接攔截短信的數量、更新黑名單號碼庫以及更新攔截分析規則庫對新短信進行攔截判斷。
8、進一步地,所述每個分詞所在的行業類別的獲取方法包括:
9、對于任一主動攔截短信,獲得每個描述文本的描述分詞數組,獲得分詞數組中每個分詞對應描述分詞數組和每個預設行業類別的小類別數組之間的相關系數,作為每個分詞的行業類別得分值;
10、選取主動攔截短信中每個分詞的行業類別得分值中最大的,對應行業類別作為每個分詞所在的行業類別。
11、進一步地,所述短信攔截程度的獲取方法包括:
12、對于每個用戶,獲得所有主動攔截短信對應描述文本的分詞數量的累加值,作為分詞描述數量;
13、計算所有主動攔截短信中每個行業類別的分詞數量和分詞描述數量的比值,獲得每個用戶對每個行業類別的短信攔截程度。
14、進一步地,所述攔截優選行業類別的獲取方法包括:
15、選取每個用戶對行業類別的短信攔截程度數值最高的前預設數量個,對應的行業類別作為攔截優選行業類別。
16、進一步地,所述攔截特征相似性的獲取方法包括:
17、基于url正則表達式獲得所有主動攔截短信中的鏈接攔截短信;計算每個用戶對應鏈接攔截短信的數量和所有主動攔截短信數量的比值,作為鏈接占比程度;
18、獲得每個用戶與每個其他用戶之間鏈接占比程度的差異,并進行負相關映射,作為第一相似性系數;獲得每個用戶與每個其他用戶之間攔截優選行業類別所組成數組的相關系數,作為第二相似性系數;
19、將第一相似性系數和第二相似性系數進行融合,獲得每個用于與每個其他用戶之間主動攔截短信的攔截特征相似性。
20、進一步地,所述攔截參考用戶的獲取方法包括:
21、若每個用戶與其他用戶之間主動攔截短信的攔截特征相似性大于預設相似閾值,對應其他用戶作為每個用戶的攔截參考用戶。
22、進一步地,所述每個用戶的更新黑名單號碼庫和更新攔截分詞規則庫的獲取方法包括:
23、獲得每個用戶的預設攔截分詞規則庫和黑名單號碼庫;
24、將每個用戶和攔截參考用戶之間所有攔截優選行業類別對應的分詞添加至預設攔截分詞規則庫中,構成更新攔截分詞規則庫;
25、將每個用戶對應的所有電話號碼添加至預設黑名單號碼庫中,構成更新黑名單號碼庫。
26、進一步地,所述基于每個用戶的鏈接攔截短信的數量、更新黑名單號碼庫以及更新攔截分析規則庫對新短信進行攔截判斷,包括:
27、若每個用戶的鏈接占比程度大于預設占比閾值,且新短信存在鏈接,判斷對新短信進行攔截;
28、若用戶的鏈接占比程度不大于預設占比閾值,或新短信不存在鏈接,獲得新短信對應的電話號碼和更新黑名單號碼庫中不同電話號碼的相似程度,若相似程度存在大于預設相似程度,判斷對新短信進行攔截;
29、若相似程度均不大于預設相似閾值,獲得每個新短信的分詞數組,統計分詞數組中分詞對應在更新攔截分詞規則庫中的數量,作為匹配數量;計算匹配數量和所有分詞數量的比值,作為攔截可能性,若攔截可能性大于預設攔截閾值,判斷對新短信進行攔截。
30、進一步地,采用jaccard相關系數獲得對應的相關系數。
31、本專利技術還提出了一種基于ai技術的短信攔截系統,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時,實現任意一項所述一種基于ai技術的短信攔截方法的步驟。
32、本專利技術具有如下有益效果:
33、本專利技術對于任一主動攔截短信,獲得分詞數組中每個分詞的描述文本,根據分詞數組中每個分詞的描述文本和每個不同預設行業類別的小類別數組之間的相似性,獲得主動攔截短信中每個分詞所在的行業類別,實現對短信內容的精細化分類,有助于更準確地理解短信內容的意圖;根據不同主動攔截短信對應描述文本的分詞數量,以及所有主動攔截短信中對應每個行業類別的分詞數量,獲得每個用戶對每個行業類別的短信攔截程度,反映用戶對每個行業類別短信的攔截行為,識別出用戶的偏好和重點關注的行業類別;根據每個用戶對每個行業類別的短信攔截程度,篩選出每個用戶的攔截優選行業類別,明確用戶最為關注的短信類型;考慮到不同用戶主動攔截短信的偏好有可能存在一致的情況,獲得所有主動攔截短信中的鏈接攔截短信,根據每個用戶與其他用戶之間對應鏈接攔截短信的分布差異、以及攔截優選行業類別的相似性,獲得每個用戶與其他用戶之間主動攔截短信的攔截特征相似性;根據攔截特征相似性,篩選出每個用戶的攔截參考用戶,發現具有相似攔截行為的用戶本文檔來自技高網...
【技術保護點】
1.一種基于AI技術的短信攔截方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述每個分詞所在的行業類別的獲取方法包括:
3.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述短信攔截程度的獲取方法包括:
4.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述攔截優選行業類別的獲取方法包括:
5.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述攔截特征相似性的獲取方法包括:
6.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述攔截參考用戶的獲取方法包括:
7.根據權利要求1所述的一種基于AI技術的短信攔截方法,其特征在于,所述每個用戶的更新黑名單號碼庫和更新攔截分詞規則庫的獲取方法包括:
8.根據權利要求5所述的一種基于AI技術的短信攔截方法,其特征在于,所述基于每個用戶的鏈接攔截短信的數量、更新黑名單號碼庫以及更新攔截分析規則庫對新短信進行攔截判斷,包括:
10.一種基于AI技術的短信攔截系統,所述系統包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1~9任意一項所述一種基于AI技術的短信攔截方法的步驟。
...【技術特征摘要】
1.一種基于ai技術的短信攔截方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于ai技術的短信攔截方法,其特征在于,所述每個分詞所在的行業類別的獲取方法包括:
3.根據權利要求1所述的一種基于ai技術的短信攔截方法,其特征在于,所述短信攔截程度的獲取方法包括:
4.根據權利要求1所述的一種基于ai技術的短信攔截方法,其特征在于,所述攔截優選行業類別的獲取方法包括:
5.根據權利要求1所述的一種基于ai技術的短信攔截方法,其特征在于,所述攔截特征相似性的獲取方法包括:
6.根據權利要求1所述的一種基于ai技術的短信攔截方法,其特征在于,所述攔截參考用戶的獲取方法包括:
7.根據權利要求1所...
【專利技術屬性】
技術研發人員:鄭亞珂,
申請(專利權)人:北京秒信科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。