System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及電子數字數據處理,尤其涉及一種場景話術分類系統。
技術介紹
1、隨著反電信網絡詐騙的積極推動,如何高效、準確的對大量音頻數據進行話術匹配、分類,以便于更好的管控攔截和溯源,保護用戶的個人信息和財產安全不受損失,成為了比較重要的任務。
2、在現代信息社會,多種方法被應用于該項工作,例如某些方法通過語義識別等結合ai的方式進行分類,或者基于設定好的規則進行匹配等,這些技術極大地推動了信息化在治安方向的發展。
3、盡管現有的分類技術在該領域中得到了廣泛應用,但仍存在一些明顯的局限性和缺點,首先,大多數現有結合ai的技術需要較大的硬件資源以及長時間、大量數據的訓練,且前期對于結果的準確性需要進一步的人工干預審核,其次,它和另外一些簡易的規則匹配方法一樣,無法滿足特殊場景下的業務功能需求。
技術實現思路
1、本專利技術的目的在于提供一種場景話術分類系統,能夠滿足特殊場景下的業務功能需求,且能在占用極少資源的情況下,同時保證高效、高準確率的場景話術分類。
2、為實現上述目的,本專利技術提供了一種場景話術分類系統,包括話術樣本關鍵詞提取模塊、音頻處理模塊和話術篩選模塊;
3、所述話術樣本關鍵詞提取模塊、所述音頻處理模塊和所述話術篩選模塊依次連接;
4、所述話術樣本關鍵詞提取模塊用于提取詐騙樣本話術中的關鍵詞,并將關鍵詞分類加入詞庫中;
5、所述音頻處理模塊用于提取音頻中的關鍵詞,并將關鍵詞分類加入詞庫中;
>6、所述話術篩選模塊用于根據詞庫中的關鍵詞評估文本的風險等級。
7、其中,所述話術樣本關鍵詞提取模塊包括話術樣本關鍵詞提取單元和標明類別單元;所述標明類別單元和所述話術樣本關鍵詞提取單元連接;
8、所述話術樣本關鍵詞提取單元用于提取詐騙樣本話術中的關鍵詞;
9、所述標明類別單元用于將關鍵詞分類加入詞庫中。
10、其中,所述音頻處理模塊包括降噪單元、語音識別單元、話術文本關鍵詞提取單元、熱詞庫維護單元和語音模型調節單元;
11、所述降噪單元、所述語音識別單元、所述話術文本關鍵詞提取單元、所述熱詞庫維護單元和所述語音模型調節單元依次連接;
12、所述降噪單元用于對輸入音頻進行降噪處理;
13、所述語音識別單元用于采用語音識別模型將降噪后的音頻轉化為話術文本;
14、所述話術文本關鍵詞提取單元用于提取話術文本中的關鍵詞,并將關鍵詞分類加入熱詞庫中;
15、所述熱詞庫維護單元用于根據具體應用場景和用戶需求不斷維護和更新熱詞庫;
16、所述語音模型調節單元用于在語音識別模型中增加熱詞的權重,提升關鍵術語的識別準確性。
17、其中,所述話術篩選模塊包括關鍵詞過濾兼分類單元、風險等級劃分單元、數據輸出單元和新詞入庫單元;所述關鍵詞過濾兼分類單元、所述風險等級劃分單元、所述數據輸出單元和所述新詞入庫單元依次連接;
18、所述關鍵詞過濾兼分類單元用于采用混合正則表達式對待測文本進行匹配,按設定好的風險等級進行過濾;
19、所述風險等級劃分單元用于按設定好的閾值進行等級劃分,分為高中低,以及未命中四類;
20、所述數據輸出單元用于將高危數據輸出到結果報告,其余數據輸入到無監督學習模型進行新的關鍵詞收集;
21、所述新詞入庫單元用于將無監督模型匹配到的新詞,做人工篩選復核,添加到詞庫,形成循環。
22、本專利技術的一種場景話術分類系統,所述話術樣本關鍵詞提取模塊采用wwh方法進行樣本詐騙話術關鍵詞提取,即:誰(who),干什么(what),怎么做(how)。例如,對于以下詐騙話術:“你好,我是xx銀行的客服,你的銀行卡存在風險,需要你提供卡號和密碼進行核實。”提取的關鍵詞為:他是誰(銀行客服),他找我干什么(核實銀行卡風險),需要我怎么做(提供卡號和密碼)。所述音頻處理模塊采用譜減法對輸入音頻進行降噪處理,這是一種廣泛應用的降噪技術,通過估計噪聲的功率譜并從含噪音頻信號的功率譜中減去來實現降噪,該方法的優點在于實現簡單且對于恒定噪聲有良好的降噪效果;通過asr將音頻轉換為文本模式,并對其進行關鍵詞提取,將提取到的關鍵詞加入熱詞庫,通過在語言模型中增加熱詞的權重,提升這些關鍵術語的識別準確性。在識別過程中,系統會優先考慮熱詞,使其在語音識別輸出中更可能被正確識別。這一過程可以通過動態調整語言模型的概率分布實現,也可以通過訓練專門的熱詞增強模型來增強識別效果。此外,熱詞庫的維護和更新需要根據具體應用場景和用戶需求不斷進行,以確保系統能夠及時適應新的關鍵詞和術語,從而提供更加精準和高效的語音識別服務。所述話術篩選模塊根據詞庫的關鍵詞評估文本的風險等級,通過讀取文件中的文本數據,所述話術篩選模塊依次檢查每條記錄中的關鍵詞,匹配到特定類別后記錄下命中詞、類別及其風險等級,最后,將處理結果寫入新的文件中,方便用戶進一步分析和處理。本專利技術未使用較為龐大的ai模型,也考慮到了過度人工干預造成的人力成本增加,并且添加了可視化界面結果展示,使得用戶在體驗時,能夠迅速獲得結果的同時,也較為方便的查閱結果。本專利技術能夠滿足特殊場景下的業務功能需求,且能在占用極少資源的情況下,同時保證高效、高準確率的場景話術分類。
本文檔來自技高網...【技術保護點】
1.一種場景話術分類系統,其特征在于,
2.如權利要求1所述的一種場景話術分類系統,其特征在于,
3.如權利要求2所述的一種場景話術分類系統,其特征在于,
4.如權利要求3所述的一種場景話術分類系統,其特征在于,
【技術特征摘要】
1.一種場景話術分類系統,其特征在于,
2.如權利要求1所述的一種場景話術分類系統,其特征在于,
3...
【專利技術屬性】
技術研發人員:謝羽凱,丁卓,
申請(專利權)人:南京龍垣信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。