System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及短信識別,尤其是涉及一種通信文本信息轉換方法及系統。
技術介紹
1、通信文本信息轉換是將文本數據轉換為另一種形式或格式的過程,隨著移動通信技術的飛速發展,手機已成為人們日常生活中不可或缺的通訊工具。然而,伴隨著手機使用的普及,騷擾短信的問題也日益嚴重。故如何通過對通訊是的文本信息進行轉換以提高對騷擾短信攔截的準確性亟待解決。
2、相關技術中,通過利用機器學習算法對短信內容進行分析和分類,以標定同類型的短信是否為垃圾短信,然而,不法分子可能會在短信中添加干擾符、采用繁體字、諧音字、拆分字等替換手段,來變換短信內容,從而躲避分類模型的檢測,使得對垃圾短信的識別不夠準確,降低用戶的使用體驗,故亟需一種通信文本信息轉換方法和系統,提高垃圾短信的識別率和攔截效果。
技術實現思路
1、為了提高騷擾短信的識別準確率,本申請提供了一種通信文本信息轉換方法及系統。
2、第一方面,本申請提供了一種通信文本信息轉換方法,采用如下的技術方案:
3、一種通信文本信息轉換方法,包括:
4、獲取用戶接收到的短信信息,并對短信信息進行成分識別,得到信息成分數據;所述信息成分數據包括文本數據和鏈接數據;
5、對信息成分數據中是否包含文本數據進行判斷,若信息成分數據中包含文本數據,則對文本數據進行文本信息轉換分析確定短信類別;
6、若信息成分數據中不包含文本數據,則判定短信信息的短信類別為純鏈接類別;
7、對短信信息進行關鍵
8、對信息成分數據中的文本數據進行判斷,以確定文本數據的危險性;
9、對信息成分數據中的鏈接數據進行判斷,以確定鏈接數據的危險性;
10、基于短信信息的可信度值、文本數據的危險性和鏈接數據的危險性,確定短信信息的危險性指數;
11、基于短信信息的短信類別,對用戶的受騙指數進行匹配,得到用戶在對應短信類別上的受騙指數;
12、將短信信息的危險性指數與對應短信類別上的受騙指數進行比較,將危險性指數小于對應短信類別上的受騙指數的短信信息標記為安全短信,并加以呈現,將危險性指數大于等于對應短信類別上的受騙指數的短信信息標記為危險短信,并加以攔截。
13、優選的,對文本數據進行語義理解,得到第一語義數據,并對第一語義數據進行語義完整性判斷;
14、若第一語義數據具有完整性,則對文本數據進行中心內容判斷,以確定中心內容是否為商品信息;
15、若中心內容為商品信息,則判定短信類別為廣告推銷;
16、若中心內容不是商品信息,則對文本數據進行敏感詞匯匹配,確定文本數據中是否存在敏感詞匯;
17、若文本數據中存在敏感詞匯,則判定短信類別為垃圾短信;
18、若文本數據中不存在敏感詞匯,則根據第一語義數據對文本數據進行誘導性判斷;
19、若文本數據對用戶的行為具有誘導性,則判定短信類別為誘導類別;
20、若第一語義數據不具有完整性,則獲取文本數據的音節數據,并根據音節數據生成對應的語音數據,對語音數據進行文字轉換,得到識別文字數據;
21、對識別文字數據進行語義理解,得到第二語義數據;
22、對第二語義數據進行語義完整性判斷,以確定第二語義數據的完整性,并根據第二語義數據的完整性對識別文字數據進行短信類別確定。
23、優選的,對第二語義數據進行語義完整性判斷,若第二語義數據具有完整性,則對識別文字數據進行短信類別確定;
24、若第二語義數據不具有完整性,則根據語句的完整性對第二語義數據進行劃分,得到具有語句順序的第二語義子數據;所述第二語義子數據包括具有完整語義的第二完整子數據和不具有完整語句的第二殘缺子數據;
25、根據第二語義子數據對識別文字數據進行拆分,得到對應第二語義子數據下的識別文字子數據;所述識別文字子數據包括第二完整子數據對應的完整文字子數據和第二殘缺子數據對應的殘缺文字子數據;
26、基于內置的語法結構將完整文字子數據和殘缺文字子數據進行相互比對,對殘缺文字子數據進行語法結構修正,并對修正后的殘缺文字子數據進行語義完整性判斷,得到具有完整語義的識別文字數據;
27、對具有完整語義的識別文字數據進行短信類別確定。
28、優選的,基于文本數據的短信類別,對文本數據的安全性進行判斷;
29、若短信類別為廣告推銷,則對短信內容進行購買途徑檢索,以確定購買途徑,并對購買途徑進行安全性判斷;
30、若購買途徑為安全平臺,則判定該短信內容具有安全性,并將該短信內容的安全值記為1,若購買途徑為非安全平臺,則根據短信內容確定商品信息的消費金額,并將消費金額與內置的安全金額進行比對;
31、若消費金額大于等于內置的安全金額,則判定短信內容的安全值為0;若消費金額小于內置的安全金額,則計算消費金額與安全金額的比值數據,并將安全狀態下的安全值與該比值數據的差值記為該短信內容的安全值;
32、若短信類別為垃圾短信,則判定短信內容的安全值為1;
33、若短信類別為誘導類別,則獲取文本數據的中心內容,并對中心內容的危險性進行判斷,以確定短信內容的安全值。其中,中心內容可以為誘導鏈接點擊、誘導賭博等,而鏈接數據、誘導賭博均對應著不同的安全值。
34、將各個短信類別對應的安全值作為該文本數據的危險值。
35、優選的,基于短信類別,若短信類別為純鏈接數據,則獲取發送該短信內容的賬號信息,根據賬號信息對用戶接收到的短信內容進行讀取,得到短信內容集;
36、對短信內容集中的短信類別進行判斷,若短信內容集僅包括鏈接數據,則將鏈接數據的安全值與短信內容的可信度值的和值作為該短信信息的危險性指數;
37、若短信內容集包括文本數據,則對文本數據與鏈接數據進行關聯度匹配,以確定文本數據與鏈接數據之間的關聯度數據;
38、基于文本數據的短信類別,獲取文本數據的安全值,并基于安全值、可信度值和關聯度數據,對短信信息的安全性進行判斷,確定短信信息的危險性指數。
39、優選的,對短信信息的發件人信息進行讀取,以確定發件人是否為已知人員;
40、若判定發件人為已知人員,則獲取用戶與該發件人之間的短信交換數據,并根據短信交換數據確定用戶與該發件人的信息溝通頻率;
41、將信息溝通頻率與內置的可信度表進行匹配,得到發件人的可信度值;
42、若判定發件人為未知人員,則對該短信信息中的文本數據進行關鍵信息讀取,確定該文本數據中是否存在人物關鍵信息;
43、若判定該文本數據中存在人物關鍵信息,則將人物關鍵信息與內置的可信度表進行關鍵信息匹配,確定該發件人的可信度值;其中,內置的可信度表包括不同信息溝通頻率下的可信度值和不同本文檔來自技高網...
【技術保護點】
1.一種通信文本信息轉換方法,其特征在于,包括:
2.根據權利要求1所述的一種通信文本信息轉換方法,其特征在于:所述若信息成分數據中包含文本數據,則對文本數據進行文本信息轉換分析確定短信類別,具體為:
3.根據權利要求2所述的一種通信文本信息轉換方法,其特征在于:所述對第二語義數據進行語義完整性判斷,以確定第二語義數據的完整性,并根據第二語義數據的完整性對識別文字數據進行短信類別確定,具體為:
4.根據權利要求3所述的一種通信文本信息轉換方法,其特征在于:所述對信息成分數據中的文本數據進行判斷,以確定文本數據的危險性,具體為:
5.根據權利要求4所述的一種通信文本信息轉換方法,其特征在于:所述基于短信信息的可信度值、文本數據的危險性和鏈接數據的危險性,確定短信信息的危險性指數,具體為:
6.根據權利要求1所述的一種通信文本信息轉換方法,其特征在于:所述對短信信息進行關鍵信息讀取,并將關鍵信息與內置的可信度表進行匹配,得到可信度值,具體為:
7.根據權利要求1所述的一種通信文本信息轉換方法,其特征在于:所述用戶
8.一種通信文本信息轉換系統,其特征在于,所述系統用于實現權利要求1-7中任意一項所述的一種通信文本信息轉換方法:包括:短信獲取模塊、類別判斷模塊、危險判斷模塊和短信攔截模塊;
...【技術特征摘要】
1.一種通信文本信息轉換方法,其特征在于,包括:
2.根據權利要求1所述的一種通信文本信息轉換方法,其特征在于:所述若信息成分數據中包含文本數據,則對文本數據進行文本信息轉換分析確定短信類別,具體為:
3.根據權利要求2所述的一種通信文本信息轉換方法,其特征在于:所述對第二語義數據進行語義完整性判斷,以確定第二語義數據的完整性,并根據第二語義數據的完整性對識別文字數據進行短信類別確定,具體為:
4.根據權利要求3所述的一種通信文本信息轉換方法,其特征在于:所述對信息成分數據中的文本數據進行判斷,以確定文本數據的危險性,具體為:
5.根據權利要求4所...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。