System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術一個或多個實施例涉及數(shù)據(jù)處理技術,尤其涉及敏感語句的檢測方法及系統(tǒng)。
技術介紹
1、在數(shù)字化時代,互聯(lián)網(wǎng)飛速發(fā)展,信息傳播的速度與廣度達到了前所未有的高度,有效檢測、管理和過濾文本信息中的敏感詞或敏感句,是數(shù)據(jù)安全體系中的重要環(huán)節(jié)。比如,在已嵌入大模型的應用中,與大模型的文本交互必不可少,加入敏感語句檢測步驟可以防止大模型對敏感輸入進行語言生成或者生成較為敏感的語言。
2、目前主要是通過人工對文本數(shù)據(jù)進行關鍵詞匹配,來實現(xiàn)敏感語句的檢測。在公司內部信息化體系中,需要傳輸大量的文本數(shù)據(jù),如若每次傳輸都進行人工檢測,會極大降低工作效率,并且對于大文本的檢測準確率也無法保證。
技術實現(xiàn)思路
1、本專利技術一個或多個實施例描述了敏感語句的檢測方法及系統(tǒng),能夠提高檢測效率以及檢測的準確性。
2、根據(jù)第一方面,提供了一種敏感語句的檢測方法,該方法包括:
3、將預先確定的敏感詞保存在敏感詞數(shù)據(jù)庫中;
4、將預先確定的具有敏感語義的語句轉換為向量,將該向量保存在敏感向量數(shù)據(jù)庫中;
5、該方法還包括:
6、接收待檢測的內容;
7、根據(jù)該待檢測的內容得到待檢測的文本數(shù)據(jù);
8、將所述待檢測的文本數(shù)據(jù)劃分為至少一個檢測單元;該檢測單元為:具有完整句意的一段文本數(shù)據(jù);
9、針對每一個檢測單元,在敏感詞數(shù)據(jù)庫中進行敏感詞檢索,確定該檢測單元是否為敏感語句;
10、將每一個檢測單元
11、輸出敏感語句的檢索結果。
12、所述待檢測的內容為:信息化系統(tǒng)的文件系統(tǒng)輸出的docx格式、doc格式、txt格式或者pdf格式的文件;
13、或者,
14、所述待檢測的內容為:人工智能模型輸出的文本數(shù)據(jù)。
15、當待檢測的內容為pdf格式的文件時;所述根據(jù)該待檢測的內容得到待檢測的文本數(shù)據(jù),包括:
16、將pdf格式的文件轉換為docx、doc或者txt格式的文本數(shù)據(jù),該轉換后的docx、doc或者txt格式的文本數(shù)據(jù)作為所述待檢測的文本數(shù)據(jù)。
17、所述將所述待檢測的文本數(shù)據(jù)劃分為至少一個檢測單元,包括:
18、以逗號、句號、問號、感嘆號、分號以及省略號為分割標識,對所述待檢測的文本數(shù)據(jù)進行切分,得到至少一個檢測單元。
19、所述針對每一個檢測單元在敏感詞數(shù)據(jù)庫中進行敏感詞檢索,包括:
20、對每一個檢測單元進行分詞,從而得到該檢測單元對應的包括至少一個詞語的分詞集;
21、遍歷分詞集中的每一個詞語,在敏感詞數(shù)據(jù)庫中檢索該分詞集中的每一個詞語;
22、如果在敏感詞數(shù)據(jù)庫中能夠檢索到一個分詞集中的詞語,那么則將該分詞集對應的檢測單元確定為敏感語句。
23、所述在敏感向量數(shù)據(jù)庫中對轉換后的每一個向量進行檢索,包括:
24、針對每一個檢測單元對應的向量,根據(jù)預先設定的相似度閾值對轉換出的每一個向量與敏感向量數(shù)據(jù)庫中保存的各個向量進行相似度匹配;
25、如果轉換出的一個向量與敏感向量數(shù)據(jù)庫中保存的一個向量的相似度大于相似度閾值,則將該轉換出的向量所對應的檢測單元確定為敏感語句。
26、所述輸出敏感語句的檢索結果,包括:
27、將每一個確定為敏感語句的檢測單元記錄在excel表格中的一個表格項中;
28、輸出該exce表格。
29、所述輸出敏感語句的檢索結果,包括:
30、如果所述待檢測的內容為文件,進一步輸出標注后的文件,在該文件中,標注被確定為敏感語句的各個檢測單元。
31、根據(jù)第二方面,提供了一種敏感語句的檢測系統(tǒng),該系統(tǒng)包括:
32、敏感詞數(shù)據(jù)庫,用于保存預先確定的敏感詞;
33、敏感向量數(shù)據(jù)庫,用于保存根據(jù)預先確定出的、具有敏感語義的語句所轉換出的向量;
34、待檢測數(shù)據(jù)獲取模塊,配置為接收待檢測的內容;根據(jù)該待檢測的內容得到待檢測的文本數(shù)據(jù);
35、劃分模塊,配置為將所述待檢測的文本數(shù)據(jù)劃分為至少一個檢測單元;該檢測單元為:具有完整句意的一段文本數(shù)據(jù);
36、第一敏感語句處理模塊,配置為針對每一個檢測單元,在敏感詞數(shù)據(jù)庫中進行敏感詞檢索,確定該檢測單元是否為敏感語句;
37、第二敏感語句處理模塊,配置為將每一個檢測單元轉換為向量,在敏感向量數(shù)據(jù)庫中對轉換后的每一個向量進行相似度匹配,確定該檢測單元是否為敏感語句;
38、輸出模塊,配置為根據(jù)第一敏感語句處理模塊以及第二敏感語句處理模塊的敏感語句確定結果,輸出敏感語句的檢索結果。
39、根據(jù)第三方面,提供了一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)本專利技術任一實施例所述的方法。
40、本專利技術各個實施例提供的敏感語句的檢測方法及系統(tǒng),至少具有如下有益效果:
41、1、本專利技術實施例中,無需人工參與,能夠由系統(tǒng)自動完成敏感語句的檢測,因此,極大了提高了工作效率,并且也保證了大文本的檢測準確率。
42、2、本專利技術能夠實現(xiàn)語義層面的敏感語句的處理,提高檢測的準確性和效率。在本專利技術實施例中,將待檢測的文本數(shù)據(jù)劃分為各個檢測單元,每一個檢測單元為具有完整句意的一段文本數(shù)據(jù),即每一個檢測單元可以對應一個語句,這樣,將檢測單元對應的向量與敏感向量數(shù)據(jù)庫中預先存儲的具有敏感語義的語句的向量進行相似度匹配,如果匹配成功,則說明被匹配的檢測單元具有敏感語義,因此,即使該檢測單元中不包括敏感詞,也可以準確地確定出具有敏感語義的檢測單元,也就是說,能夠檢測出具有敏感語義的語句。因此,本專利技術實施例進一步提高了敏感檢測的準確性。
43、3、本專利技術實施例中,待檢測的內容可以為:信息化系統(tǒng)的文件系統(tǒng)輸出的docx格式、doc格式、txt格式或者pdf格式的文件。這樣,就能夠對各種信息化系統(tǒng)比如公司的信息查詢系統(tǒng)輸出的文件,直接進行敏感語句的檢測,擴展了檢測范圍。
44、4、本專利技術實施例中,待檢測的內容可以為人工智能模型輸出的文本數(shù)據(jù)。這樣,就能夠對各種人工智能模型輸出的文本數(shù)據(jù)進行敏感檢測,比如問答助手智能模型針對一個用戶提出的問題輸出了該問題的文本數(shù)據(jù)形式的答案,本專利技術實施例則可以對該答案進行敏感檢測。
45、5、使用本專利技術實施例方法進行敏感語句檢測后,各信息化系統(tǒng)在接收用戶上傳的文件時可提高數(shù)據(jù)質量,退回敏感文件;在與大模型的交互過程中過濾敏感問題和回答,避免出現(xiàn)爭議,有助于提高人工智能使用的安全性。
本文檔來自技高網(wǎng)...【技術保護點】
1.敏感語句的檢測方法,其特征在于,該方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,
3.根據(jù)權利要求2所述的方法,其特征在于,當所述待檢測的內容為pdf格式的文件時;所述根據(jù)該待檢測的內容得到待檢測的文本數(shù)據(jù),包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述將所述待檢測的文本數(shù)據(jù)劃分為至少一個檢測單元,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述針對每一個檢測單元在敏感詞數(shù)據(jù)庫中進行敏感詞檢索,包括:
6.根據(jù)權利要求1所述的方法,其特征在于,所述在敏感向量數(shù)據(jù)庫中對轉換后的每一個向量進行檢索,包括:
7.根據(jù)權利要求1至6中任一所述的方法,其特征在于,所述輸出敏感語句的檢索結果,包括:
8.根據(jù)權利要求7所述的方法,其特征在于,所述輸出敏感語句的檢索結果,包括:
9.敏感語句的檢測系統(tǒng),其特征在于,該系統(tǒng)包括:
10.一種計算設備,包括存儲器和處理器,所述存儲器中存儲有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時,實現(xiàn)權利要求1-8中任一項所述的方
...【技術特征摘要】
1.敏感語句的檢測方法,其特征在于,該方法包括:
2.根據(jù)權利要求1所述的方法,其特征在于,
3.根據(jù)權利要求2所述的方法,其特征在于,當所述待檢測的內容為pdf格式的文件時;所述根據(jù)該待檢測的內容得到待檢測的文本數(shù)據(jù),包括:
4.根據(jù)權利要求1所述的方法,其特征在于,所述將所述待檢測的文本數(shù)據(jù)劃分為至少一個檢測單元,包括:
5.根據(jù)權利要求1所述的方法,其特征在于,所述針對每一個檢測單元在敏感詞數(shù)據(jù)庫中進行敏感詞檢索,包括:
6.根據(jù)...
【專利技術屬性】
技術研發(fā)人員:王新健,張敏,賈濤,
申請(專利權)人:浪潮云信息技術股份公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。