System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理。尤其涉及一種多人一訴事件解析方法、系統及介質。
技術介紹
1、當前,在政務熱線客服服務中,多個客戶可能會對同一事件進行咨詢、投訴或建議。此時,需要對這些工單進行統一的管理和處理,以便于政務及時關注熱點事件,提高機構的服務質量和用戶滿意度。但是,由于用戶的咨詢、投訴或建議可能來自不同的途徑(電話、app等),不同的市民用戶可能描述同一事件的方式不同,同時不同受理人員整理記錄的工單內容也不盡相同,使得熱線機構難以準確掌握事件情況。
2、目前的處理方法是,受理人員需要手動整理和比對工單信息,從而識別多人一訴事件。這種方法效率低下、易出錯,難以滿足實際需求。
技術實現思路
1、本專利技術提供一種多人一訴事件解析方法、系統及介質。以解決現有技術存在效率低下、易出錯的問題。
2、為實現上述目的,本專利技術提供一種多人一訴事件解析方法,包括以下步驟:獲取工單數據,提取所述工單數據的文字部分;
3、隨機抽取預設數量工單數據,對所述預設數量工單數據的文字部分進行同義句轉寫,形成語義相同但表述不同的同義工單數據;
4、以所述隨機抽取的預設數量工單數據為基礎庫,剩余的工單數據為負例庫,改寫的同義句工單數據為正例庫,由隨機抽取的zi、zj、zk三條數據組成三元組,形成訓練數據集,其中,zi表示基礎庫中的一條數據,zj表示正例庫中的一條數據,zk表示負例庫中的一條數據;
5、采用對比學習的技術,基于roberta模型,在
6、將所有需要智能化分析的工單數據,輸入到所述大規模語義表征模型,取得模型的輸出cls向量作為每條需要智能化分析的工單數據的編碼表征,所述工單數據的編碼表征為一維向量;
7、采用密度聚類的方式,對所有需要智能化分析工單數據的編碼特征進行聚類,設置初始聚類閾值,根據初始密度聚類結果調整聚類閾值,以控制調整后的密度聚類結果中同一類別的工單數據是表述同一事件;
8、根據所述調整后的密度聚類結果,將同一類別有多個工單數據的情況識別為多人一訴事件。
9、優選的,提取所述工單數據的文字部分,還包括:提取所述工單數據的文字部分,對所述工單數據的文字部分進行脫敏處理,刪除所述文字部分的敏感信息;
10、所述將所有需要智能化分析的工單數據,輸入到所述大規模語義表征模型,具體包括,將所有需要智能化分析的工單數據,進行數據脫敏處理后輸入到所述大規模語義表征模型。
11、優選的,所述采用對比學習的技術,基于roberta模型,在所述訓練數據集上進行微調,得到大規模語義表征模型,具體包括:
12、所述訓練數據集經過roberta多層神經網絡后,取其cls向量作為語義表征,分別計算zi與zj的余弦相似度以及zi與zk的余弦相似度以構造損失函數:
13、隨著訓練的開展,通過反向傳播梯度以降低損失函數的大小,從而拉近所述三元組中zi與zj的距離,拉大所述三元組中zi與zk的距離;在全部所述訓練數據集上循環迭代n個輪次后,得到大規模語義表征模型;
14、所述工單數據的編碼表征為一維向量,具體為:所述工單數據的編碼表征為由n個數字構成的一維向量。
15、優選的,所述損失函數具體為:
16、其中,lloss是所述訓練數據集的損失函數值,m為計數,n為全部所述訓練數據集中的三元組樣本總量,zi和zj為所述訓練數據集里的同一個三元組中的數據,zm為計數為m的三元組中的zk,τ為溫度系數,τ取0.5。
17、優選的,所述根據密度聚類結果,調整聚類閾值,以控制同一類別的工單數據是表述同一事件,具體包括:
18、根據初始密度聚類結果調整密度聚類的半徑r和圈住的樣本數:如果所述初始密度聚類結果中同一類別下有不同事件的工單數據,則調小所述密度聚類的半徑r,如果所述初始密度聚類結果中不同類別下有同一事件的工單數據,則調大所述密度聚類的半徑r,使調整后的密度聚類結果中每個類別下面的工單數據描述的都是同一件事。
19、第二方面,本專利技術還涉及一種多人一訴事件解析系統,包括:
20、文字提取模塊,用于獲取工單數據,提取所述工單數據的文字部分;
21、改寫模塊,用于隨機抽取預設數量工單數據,對所述預設數量工單數據的文字部分進行同義句轉寫,形成語義相同但表述不同的同義工單數據;
22、三維組生成模塊,用于以所述隨機抽取的預設數量工單數據為基礎庫,剩余的工單數據為負例庫,改寫的同義句工單數據為正例庫,由隨機抽取的zi、zj、zk三條數據組成三元組,形成訓練數據集,其中,zi表示基礎庫中的一條數據,zj表示正例庫中的一條數據,zk表示負例庫中的一條數據;
23、訓練模塊,用于采用對比學習的技術,基于roberta模型,在所述訓練數據集上進行微調,得到大規模語義表征模型;
24、編碼表征模塊,用于將所有需要智能化分析的工單數據,輸入到所述大規模語義表征模型,取得模型的輸出cls向量作為每條需要智能化分析的工單數據的編碼表征,所述工單數據的編碼表征為一維向量;
25、聚類模塊,用于采用密度聚類的方式,對所有需要智能化分析工單數據的編碼特征進行聚類,設置初始聚類閾值,根據初始密度聚類結果調整聚類閾值,以控制調整后的密度聚類結果中同一類別的工單數據是表述同一事件;
26、提取模塊,用于根據所述調整后的密度聚類結果,將同一類別有多個工單數據的情況識別為多人一訴事件。
27、優選的,所述文字提取模塊,具體用于:獲取工單數據,提取所述工單數據的文字部分,對所述工單數據的文字部分進行脫敏處理,刪除所述文字部分的敏感信息;
28、編碼表征模塊,具體用于:將所有需要智能化分析的工單數據,進行數據脫敏處理后輸入到所述大規模語義表征模型,取得模型的輸出cls向量作為每條需要智能化分析的工單數據的編碼表征,所述工單數據的編碼表征為一維向量。
29、優選的,所述訓練模塊,具體用于:
30、所述訓練數據集經過roberta多層神經網絡后,取其cls向量作為語義表征,分別計算zi與zj的余弦相似度以及zi與zk的余弦相似度,構造損失函數:
31、其中,lloss是所述訓練數據集的損失函數值,m為計數,n為全部所述訓練數據集中的三元組樣本總量,zi和zj為所述訓練數據集里的同一個三元組中的數據,zm為計數為m的三元組中的zk,τ為溫度系數,τ取0.5;
32、隨著訓練的開展,通過反向傳播梯度以降低損失函數的大小,從而拉近所述三元組中zi與zj的距離,拉大所述三元組中zi與zk的距離;在全部所述訓練數據集上循環迭代n個輪次后,得到大規模語義表征模型;
33、所述工單數據的編碼表征為一維向量,具體為:所述工單數據的編碼表征為由n個數字構成的一維向量。
34、本文檔來自技高網...
【技術保護點】
1.一種多人一訴事件解析方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,提取所述工單數據的文字部分,還包括:提取所述工單數據的文字部分,對所述工單數據的文字部分進行脫敏處理,刪除所述文字部分的敏感信息;
3.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,所述采用對比學習的技術,基于Roberta模型,在所述訓練數據集上進行微調,得到大規模語義表征模型,具體包括:
4.如權利要求3所述的一種多人一訴事件解析方法,其特征在于,所述損失函數具體為:
5.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,所述根據密度聚類結果,調整聚類閾值,以控制同一類別的工單數據是表述同一事件,具體包括:
6.一種多人一訴事件解析系統,其特征在于,包括:
7.根據權利要求6所述的一種多人一訴事件解析系統,其特征在于,所述文字提取模塊,具體用于:獲取工單數據,提取所述工單數據的文字部分,對所述工單數據的文字部分進行脫敏處理,刪除所述文字部分的敏感信息;
8
9.根據權利要求6所述的一種多人一訴事件解析系統,其特征在于,所述聚類模塊,具體用于:采用密度聚類的方式,對所有需要智能化分析工單數據的編碼特征進行聚類,設置初始聚類閾值,根據初始密度聚類結果調整密度聚類的半徑r和圈住的樣本數:如果所述初始密度聚類結果中同一類別下有不同事件的工單數據,則調小所述密度聚類的半徑r,如果所述初始密度聚類結果中不同類別下有同一事件的工單數據,則調大所述密度聚類的半徑r,使調整后的密度聚類結果中每個類別下面的工單數據描述的都是同一件事。
10.一種計算機可讀存儲介質,其特征在于:存儲介質中存儲有指令,所述指令運行時執行如權利要求1-5中任一項所述的一種多人一訴事件解析方法。
...【技術特征摘要】
1.一種多人一訴事件解析方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,提取所述工單數據的文字部分,還包括:提取所述工單數據的文字部分,對所述工單數據的文字部分進行脫敏處理,刪除所述文字部分的敏感信息;
3.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,所述采用對比學習的技術,基于roberta模型,在所述訓練數據集上進行微調,得到大規模語義表征模型,具體包括:
4.如權利要求3所述的一種多人一訴事件解析方法,其特征在于,所述損失函數具體為:
5.根據權利要求1所述的一種多人一訴事件解析方法,其特征在于,所述根據密度聚類結果,調整聚類閾值,以控制同一類別的工單數據是表述同一事件,具體包括:
6.一種多人一訴事件解析系統,其特征在于,包括:
7.根據權利要求6所述的一種多人一訴事件解析系統,其特征在于,所述...
【專利技術屬性】
技術研發人員:張黎,朱同輝,陳國潤,高吉,代曉菊,
申請(專利權)人:上海理想信息產業集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。