System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及智能客服系統領域,具體涉及一種基于大模型文本分類技術的標簽識別方法。
技術介紹
1、傳統的在線客服系統主要依賴人工客服與客戶進行交互,這種方式雖然能夠提供個性化服務,但效率較低,且在高峰時段難以應對大量客戶咨詢。隨著人工智能技術的發展,智能客服系統逐漸引入智能輔助來替代人工客服,但現有系統在理解客戶意圖和提供相關定制化服務方面仍存在不足。
技術實現思路
1、為了克服現有方案在進行客戶服務時人工效率低、滿意度差的問題,本專利技術提供一種客戶標簽識別方法,該方法依托大模型技術,能夠在人工在線客服與客戶會話過程中,分析會話內容,根據客戶訴求進行客戶標簽識別,從而完成定制化服務,以提高客服效率和客戶體驗。具體技術方案如下:
2、一種基于大模型文本分類技術的標簽識別方法,包括如下過程:
3、s100:在智能服務流程中增加客戶標簽配置流程;
4、s200:對預訓練模型qwen-1.5-32b進行微調,設定文本分類及意圖識別領域的模型;模型通過因果語言建模(clm)任務進行預訓練,以增強其語言理解能力;在此基礎上,使用標注數據集對模型進行了進一步的微調,以便更好地適應文本分類及意圖識別任務;
5、s300:采用異步的形式將客戶歷史聊天信息推送至大模型,進行大模型文本分類及客戶標簽標記;
6、s400:智能服務系統進行標簽、會話及對應來電號碼匹配,形成來電號碼與標簽的對應數據表,并進行存儲;
7、s500:客戶來
8、s600:根據s400的對應數據表及來電客戶的手機號,獲取存儲的對應標簽;
9、s700:判斷客戶來電表述與存儲標簽是否相符;如果相符,轉s800;如果不相符,轉s900;
10、s800:按照標簽執行差異化配置,提供差異化服務;結束;
11、s900:解除對應標簽與手機號關聯關系,有效期為1個月,1個月后,如客戶后續來電訴求分析結果符合標簽規則,生成新的標簽數據,同時按標簽執行服務策略。
12、優選的,所述標簽包括:查詢多月、查詢多戶、短信發送需求、智能關愛服務4類。
13、優選的,該大模型為40層transformer結構,每層包含40個注意力頭,隱藏層尺寸為5120,詞匯表大小達到152064。
14、優選的,在訓練過程中,每批次樣本數(batch?size)為4,模型在5個周期(epochs)內進行迭代優化。
15、優選的,為了確保高效的梯度更新,選擇
16、fp32stateadamweightdecay作為優化器,并采用余弦退火(cosine?annealing)策略結合warm-up階段來動態調整學習率,以促進模型的穩定收斂。
17、優選的,為了減少參數規模并平衡模型復雜度與性能表現,在模型內部加入了低秩適配(lora)機制,將lora_rank設置為64,lora_alpha設置為16,lora_dropout設置為0.05。
18、優選的,所述s900中,解除對應標簽與手機號關聯關系,有效期為1個月,1個月后,如客戶后續來電訴求分析結果符合標簽規則,生成新的標簽數據,同時按標簽執行服務策略。
19、優選的,所述s500中,識別客戶意圖過程包括:
20、s510:根據會話內容定義語義識別數據集,轉s520;
21、s520::明確語義識別數據集組成要素,確定要參與意圖識別的重點語句,轉s530;
22、s530:對會話數據進行預處理;
23、s540:利用電力客戶意圖理解模型,智能識別客戶意圖;具體實現過程包括如下過程:
24、針對得到的客戶對話數據,進行數據預處理,主要包括分詞、文本轉向量操作;
25、基于統計的分詞方法反應了字與字之間的緊密程度:
26、
27、互信息值p(x,y)大于零時,認定字x和字y之間的相關性較高,當互信息值大于某一特定閾值時,判定該兩個字組成一個詞;
28、根據損失函數,計算每個訓練樣本的總損失,得到權重從而計算得出每個詞的向量,公式如下:
29、
30、優選的,所述s530具體實現過程包括如下步驟:
31、s531:特征變換;
32、對于類型的節點,通過type-specific的轉換矩陣進行轉換:
33、
34、s532:標準化;
35、對于數據x,將數據縮放為均值是0,方差是1的狀態,公式如下:
36、
37、s533:計算attention;
38、
39、其中,wai構成的概率向量成為第i個訓練文本的attention分布。
40、優選的,文本轉向量使用word2vec模型,超參數設置windows_size=2,epochs=100,learning_rate=0.01;其中windows_size定義為2表示在目標詞左右兩邊的詞被視為上下文詞,隨著窗口的滑動,語料庫中的每個單詞都將成為目標單詞。
41、本專利技術首先通過大模型技術實現了電力客服領域文本分類及客戶標簽標記,其次通過大模型技術實現客戶意圖識別,并按存儲的標簽為客戶提供差異化服務,提升客服處理用戶訴求的效率。
本文檔來自技高網...【技術保護點】
1.一種基于大模型文本分類技術的標簽識別方法,其特征在于,包括如下過程:
2.根據權利要求1所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,所述標簽包括:查詢多月、查詢多戶、短信發送需求、智能關愛服務4類。
3.根據權利要求2所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,該大模型為40層Transformer結構,每層包含40個注意力頭,隱藏層尺寸為5120,詞匯表大小達到152064。
4.根據權利要求3所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,在訓練過程中,每批次樣本數(batch?size)為4,模型在5個周期(epochs)內進行迭代優化。
5.根據權利要求4所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,選擇FP32StateAdamWeightDecay作為優化器,并采用余弦退火(CosineAnnealing)策略結合warm-up階段來動態調整學習率。
6.根據權利要求5所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,在模型內部加入了低秩適配(Lo
7.根據權利要求1所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,所述S900中,解除對應標簽與手機號關聯關系,有效期為1個月,1個月后,如客戶后續來電訴求分析結果符合標簽規則,生成新的標簽數據,同時按標簽執行服務策略。
8.根據權利要求1-7任何一項所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,所述S500中,識別客戶意圖過程包括:
9.根據權利要求8所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,所述S530具體實現過程包括如下步驟:
10.根據權利要求8所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,文本轉向量使用word2vec模型,超參數設置windows_size=2,epochs=100,learning_rate=0.01;其中windows_size定義為2表示在目標詞左右兩邊的詞被視為上下文詞,隨著窗口的滑動,語料庫中的每個單詞都將成為目標單詞。
...【技術特征摘要】
1.一種基于大模型文本分類技術的標簽識別方法,其特征在于,包括如下過程:
2.根據權利要求1所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,所述標簽包括:查詢多月、查詢多戶、短信發送需求、智能關愛服務4類。
3.根據權利要求2所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,該大模型為40層transformer結構,每層包含40個注意力頭,隱藏層尺寸為5120,詞匯表大小達到152064。
4.根據權利要求3所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,在訓練過程中,每批次樣本數(batch?size)為4,模型在5個周期(epochs)內進行迭代優化。
5.根據權利要求4所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,選擇fp32stateadamweightdecay作為優化器,并采用余弦退火(cosineannealing)策略結合warm-up階段來動態調整學習率。
6.根據權利要求5所述一種基于大模型文本分類技術的標簽識別方法,其特征在于,在模型內部加入了低秩適配(...
【專利技術屬性】
技術研發人員:喻瑋,朱龍珠,史嘉琪,郭曉蕓,付珺,李柵柵,孔梅娟,劉勃,李承桓,冉晶晶,
申請(專利權)人:國家電網有限公司客戶服務中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。