本發明專利技術涉及一種基于評分卡的國網用電客戶欺詐風險預測方法,本發明專利技術的技術方案要點是,S1、數據獲取,梳理用戶基礎賬號信息、用戶行為信息、活動參與信息等數據,校驗數據的完整性、準確性,建立用電客戶特征庫;S2、數據清洗;S3、特征工程;S4、采用評分卡算法創建模型并訓練驗證;S5、根據評分卡的輸出結果,對用戶的風險等級進行劃分,并配置不同的處置策略。并配置不同的處置策略。并配置不同的處置策略。
【技術實現步驟摘要】
基于評分卡的國網用電客戶欺詐風險預測方法
[0001]本專利技術屬于一種對風險客戶的有效攔截,確保活動獎勵的有效發放的方法,涉及一種基于評分卡的國網用電客戶欺詐風險預測方法。
技術介紹
[0002]隨著網上國網APP的逐步推廣,線上用電客戶數穩步增加,電力業務的線上辦理量同步提升。線上客戶的運營工作日益凸顯其重要性,比如活動運營、權益發放等。目前缺少對欺詐團伙的風控手段,傳統的風控規則引擎無法有效識別、攔截欺詐份子,只能采取活動下架等方式處理,運營活動客戶體驗差。
技術實現思路
[0003]本專利技術解決了現有技術存在缺少對欺詐團伙的風控手段,傳統的風控規則引擎無法有效識別、攔截欺詐份子,只能采取活動下架等方式處理,運營活動客戶體驗差的問題,提供一種基于評分卡的國網用電客戶欺詐風險預測方法。
[0004]本專利技術解決其技術問題所采用的技術方案是:一種基于評分卡的國網用電客戶欺詐風險預測方法,包括以下步驟,
[0005]S1、數據獲取,梳理用戶基礎賬號信息、用戶行為信息、活動參與信息,校驗數據的完整性、準確性,建立用電客戶特征庫;
[0006]S2、數據清洗;
[0007]S3、特征工程;
[0008]S4、采用評分卡算法創建模型并訓練驗證;
[0009]S5、根據評分卡的輸出結果,對用戶的風險等級進行劃分,并配置不同的處置策略;
[0010]所述的步驟S3中,特征工程中包括以下分步驟,
[0011]A1、針對缺失值、異常值,按照缺失比例匹配對應的處理策略;
[0012]A2、采用最優化分箱策略,降低模型過擬合的風險;
[0013]A3、根據分箱結果,分別計算各個變量中不同分箱的WOE、IV值,以供變量篩選、模型訓練使用。
[0014]本專利技術以國網浙江公司“網上國網”APP賬號信息、活動數據、行為數據等作為基礎數據,建立用電客戶特征庫,基于評分卡算法預測用電客戶的欺詐風險,實現對風險客戶的有效攔截,確保活動獎勵的有效發放。
[0015]作為優選,在所述A1中,對于數值型特征采用中位數、均值、線性填充法進行處理,對于類別特征采用眾數進行填充處理,異常值的檢測、處理采用極值法或四分位距法進行處理。
[0016]作為優選,在A2中,利用特征劃分區間的樣本占比以及正負面標簽占比,對滿足合并條件的相鄰區間進行合并,直到滿足確定的停止準則。
[0017]作為優選,在所述A2中,執行以下子步驟,
[0018]A21、排序、初始化分箱,將數值型特征進行排序,初始化分箱數為min(100,n*10%),其中n為樣本量,
[0019]A22、計算W
i
,
[0020]構建分箱依據指標:
[0021]y
i
:區間i中負面樣本數量
[0022]y
T
:負面樣本總數
[0023]n
i
:區間i中正面樣本數量
[0024]n
T
:正面樣本總數
[0025]A23、區間合并,計算相鄰區間的合并收益,
[0026]E
i,i+1
=W
i,i+1
?
W
i
?
W
i+1
[0027]分別計算出E
i,i
?1,E
i,i+1
,選取收益最大的前n個組合進行合并;
[0028]A24、分箱終止,當區間個數滿足預期設定時,結束分箱操作,停止條件:滿足預期分箱數目或者完成迭代次數。
[0029]作為優選,根據分箱結果,分別計算各個變量中不同分箱的WOE(證據權重)、IV(信息價值)值,以供變量篩選、模型訓練使用,其中
[0030]WOE計算公式:
[0031]IV計算公式:
[0032]根據計算結果,剔除IV<0.1的特征,最終進入模型訓練。
[0033]作為優選,在步驟S4中,模型訓練及驗證時采用評分卡算法,樣本數據中,70%作為訓練集,30%作為驗證集。
[0034]本專利技術的實質性效果是:本專利技術以國網浙江公司“網上國網”APP賬號信息、活動數據、行為數據等作為基礎數據,建立用電客戶特征庫,基于評分卡算法預測用電客戶的欺詐風險,實現對風險客戶的有效攔截,確保活動獎勵的有效發放。
附圖說明
[0035]圖1為本專利技術一種整體流程示意圖;
[0036]圖2為本專利技術中訓練集和測試集的模型效果對比圖;
[0037]圖3為本專利技術中特征分箱方法的流程示意圖;
[0038]圖4為本專利技術采用改進的最優分箱策略時的一種流程示意圖。
具體實施方式
[0039]下面通過具體實施例,對本專利技術的技術方案作進一步的具體說明。
[0040]實施例1:
[0041]一種基于評分卡的國網用電客戶欺詐風險預測方法(參見附圖1),包括以下步驟,
[0042]S1、數據獲取
[0043]梳理用戶基礎賬號信息、用戶行為信息、活動參與信息等數據,校驗數據的完整性、準確性,建立用電客戶特征庫。本次建模的數據時間范圍說明,采集2020年6月
?
2021年5月作為觀察期以提取樣本數據,2021年6月
?
2021年9月為觀察期以提取樣本標簽。
[0044]S2、數據清洗,數據清洗為現有技術,按照預定格式進行數據選取即可,本實施例中不做贅述。
[0045]S3、特征工程
[0046]A1、缺失值、異常值處理
[0047]本實施例按照不同的缺失比例匹配不同的處理策略,缺失比例高的特征做剔除處理,對于數值型特征采用中位數、均值、線性填充等方法進行處理,對于類別特征采用眾數進行填充處理。異常值的檢測、處理采用極值法(例如1%、99%分位的蓋帽法)、四分位距法等。
[0048]A2、特征分箱
[0049]本實施例采用自定義的最優化分箱策略,分別對類別特征、數值特征進行最優分箱,使得特征對異常數據有很強的魯棒性,降低了模型過擬合的風險。
[0050]A3、計算WOE、IV值
[0051]根據分箱結果,分別計算各個變量中不同分箱的WOE、IV值,以供變量篩選、模型訓練使用。
[0052]WOE計算公式:
[0053]IV計算公式:
[0054]根據計算結果,剔除IV<0.1的特征,最終進入模型訓練的指標如表1:
[0055]特征IV值設備登錄賬號數0.31近7天ip關聯賬號數0.26近7天活動參與次數0.16近7天紅包使用金額0.13近30天戶號綁定數量0.19近30天積分劃轉金額0.22總推薦人數0.11賬齡0.18是否實名認證0.19近180天登錄天數0.12近30天戶號解綁數量0.16近7天使用紅包抵扣占比0.25近7天使用積分抵扣占比0.13累計登錄設備數0.14近30天交費次數0.1本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于評分卡的國網用電客戶欺詐風險預測方法,其特征在于,包括以下步驟,S1、數據獲取,梳理用戶基礎賬號信息、用戶行為信息、活動參與信息,校驗數據的完整性、準確性,建立用電客戶特征庫;S2、數據清洗;S3、特征工程;S4、采用評分卡算法創建模型并訓練驗證;S5、根據評分卡的輸出結果,對用戶的風險等級進行劃分,并配置不同的處置策略;所述的步驟S3中,特征工程中包括以下分步驟,A1、針對缺失值、異常值,按照缺失比例匹配對應的處理策略;A2、采用最優化分箱策略,降低模型過擬合的風險;A3、根據分箱結果,分別計算各個變量中不同分箱的WOE、IV值,以供變量篩選、模型訓練使用。2.根據權利要求1所述的一種基于評分卡的國網用電客戶欺詐風險預測方法,其特征在于,在所述A1中,對于數值型特征采用中位數、均值、線性填充法進行處理,對于類別特征采用眾數進行填充處理,異常值的檢測、處理采用極值法或四分位距法進行處理。3.根據權利要求1所述的一種基于評分卡的國網用電客戶欺詐風險預測方法,其特征在于,在A2中,利用特征劃分區間的樣本占比以及正負面標簽占比,對滿足合并條件的相鄰區間進行合并,直到滿足確定的停止準則。4.根據權利要求1或3所述的一種基于評分卡的國網用電客戶欺詐風險預測方法,其特征在于,在所述A2中,執行以下子步驟,A21、排序、初始化分箱,將數值型特征進行排序,初始化分箱數為min(100,n*...
【專利技術屬性】
技術研發人員:徐家寧,樓斐,蔣穎,吳懿臻,張維,徐宏偉,俞佳莉,陳齊瑞,陳昱伶,張一池,羅欣,
申請(專利權)人:浙江華云信息科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。