System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及大數據分析處理,具體涉及一種大規模數據關鍵特征提取方法、電子設備及介質。
技術介紹
1、在醫藥領域,利用大數據平臺對醫藥數據進行特征分析,針對醫藥銷售數據的分析能夠理解市場動態、優化庫存管理、制定銷售策略和改進藥品研發。但是單個地區的醫藥銷售情況,藥品的銷售渠道來源是多樣性的,由于部分人員購買藥品隨機性的影響,會造成銷售數據存在一定的波動,同時由于數據收集不全、記錄錯誤、數據缺失的因素導致藥品銷售數據出現異常值。
2、由于異常值銷售值的存在不利于對藥品銷售數據穩定性的分析,容易導致藥品穩定性的特征出現偏差。目前,通常在采用聚類算法排除醫藥銷售數據中的異常值,在對銷售數據進行聚類時,往往設置固定的篩選閾值;但是針對不同種類的藥品,其銷售量以及銷售的波動變換是不同的,因此容易造成異常值的漏檢或將正常波動判定為異常值的誤檢,降低了藥品銷售數據穩定性特征提取的準確度。
技術實現思路
1、為了解決上述技術問題,本申請提供一種大規模數據關鍵特征提取方法,以解決現有的問題。
2、本申請的一種大規模數據關鍵特征提取方法采用如下技術方案:
3、第一方面,本申請一個實施例提供了一種大規模數據關鍵特征提取方法,該方法包括以下步驟:
4、采集目標月份每個渠道下各類藥品的日銷售量;
5、根據各類藥品在所有渠道下的日銷售量的數值分布情況,得到各類藥品的藥品銷量波動程度;獲取目標月份的所有處方單;根據各類藥物與其他各類藥物在處方單中的共現概率
6、根據每類藥物與其各關聯藥物的所有日銷售量之間的變化差異以及藥品銷量波動程度差異,計算每類藥物與其各關聯藥物之間的同步變化差異權重;根據各類藥物其各關聯藥物的日銷售序列之間的距離和藥品銷量波動程度,得到各類藥物其各關聯藥物的關聯偏差值;根據每類藥物與其所有關聯藥物的同步變化差異權重和關聯偏差值,得到數據波動異常值;
7、根據各類藥物的數據波動異常值得到自適應密度閾值;將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩定特征序列。
8、進一步,所述根據各類藥品在所有渠道下的日銷售量的數值分布情況,得到各類藥品的藥品銷量波動程度,包括:
9、將各類藥品在所有渠道下的日銷售量總和,記為各類藥品的日銷量;對目標月份下各類藥品的所有日銷量組成的序列,記為各類藥品的日銷售序列;對各類藥品的日銷售序列采用最小二乘法進行曲線擬合,得到銷售曲線;獲取銷售曲線上的各極值點;
10、計算所述日銷售序列中所述各極值點對應的日銷量與其前一個日銷量的差異,記為第一差異;計算所述日銷售序列中所述各極值點對應的日銷量與其后一個日銷量的差異,記為第二差異;計算第一差異與第二差異的和值;將銷售曲線上所有極值點的所述和值的累加和,記為各類藥品的藥品銷量波動程度。
11、進一步,根據各類藥物與其他各類藥物在處方單中的共現概率,獲得各類藥物的關聯藥物,包括:
12、將任意一類藥物記為目標藥物,計算目標藥物與目標月份的所有處方單中除目標藥物之外的其他各類藥物的共現概率;將目標月份的所有處方單中所述共現概率最高的預設數量類藥物,作為目標藥物的關聯藥物。
13、進一步,所述每類藥物與其各關聯藥物之間的同步變化差異權重的計算方法,包括:將第b類藥物與其第c個關聯藥物之間的同步變化差異權重記為,;式中,為第b類藥物的日銷售序列的方差;為第b類藥物的第c個關聯藥物的日銷售序列的方差;為第b類藥物的藥品銷量波動程度;為第b類藥物的第c個關聯藥物的藥品銷量波動程度;為線性歸一化函數。
14、進一步,所述各類藥物其各關聯藥物的關聯偏差值的獲取方法,包括:
15、對于各類藥物,計算藥物與其各關聯藥物的日銷售序列之間的距離;將所述距離與各類藥品的各關聯藥物的藥品銷量波動程度的乘積,作為藥物與其各關聯藥物的關聯偏差值。
16、進一步,所述根據每類藥物與其所有關聯藥物的同步變化差異權重和關聯偏差值,得到數據波動異常值,包括:
17、計算每類藥物與其各關聯藥物的同步變化差異權重和關聯偏差值的融合結果,將每類藥物與其所有關聯藥物的所述融合結果的均值作為每類藥物的數據波動異常值。
18、進一步,所述根據各類藥物的數據波動異常值得到自適應密度閾值,包括:將第b類藥物對應的自適應密度閾值記為,;其中,為第b類藥物對應的自適應密度閾值;為第b類藥物的日銷售序列的均值;為第b類藥物的數據波動異常值;為預設初始密度閾值;為線性歸一化函數;為四舍五入取整函數;為預設調控參數。
19、進一步,所述將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩定特征序列,包括:
20、將自適應密度閾值作為密度聚類算法中的密度閾值,對每類藥物的日銷售序列進行聚類,得到各聚類簇;將所有聚類簇中包含元素最多的聚類簇標記為正常簇;
21、將正常簇內包含的元素數量與類藥物的日銷售序列中的元素數量的比值,記為每類藥物的銷售數據正常率;將正常簇內所有元素的方差與每類藥物的銷售數據正常率的乘積,作為每類藥物的穩定性評判值;
22、對所有藥物按照穩定性評判值排序,得到目標月份下的藥物穩定特征序列。
23、第二方面,本申請實施例提供了一種大規模數據關鍵特征提取的電子設備,所述大規模數據關鍵特征提取的電子設備,包括:
24、大數據采集模塊,用于采集目標月份每個渠道下各類藥品的日銷售量;
25、大數據分析模塊,用于根據各類藥品在所有渠道下的日銷售量的數值分布情況,得到各類藥品的藥品銷量波動程度;獲取目標月份的所有處方單;根據各類藥物與其他各類藥物在處方單中的共現概率,獲得各類藥物的關聯藥物;根據每類藥物與其各關聯藥物的所有日銷售量之間的變化差異以及藥品銷量波動程度差異,計算每類藥物與其各關聯藥物之間的同步變化差異權重;根據各類藥物其各關聯藥物的日銷售序列之間的距離和藥品銷量波動程度,得到各類藥物其各關聯藥物的關聯偏差值;根據每類藥物與其所有關聯藥物的同步變化差異權重和關聯偏差值,得到數據波動異常值;
26、數據特征提取模塊,用于根據各類藥物的數據波動異常值得到自適應密度閾值;將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩定特征序列。
27、第三方面,本申請實施例還提供了一種大規模數據關鍵特征提取介質,所述數據關鍵特征提取介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述任意一項一種大規模數據關鍵特征提取方法的步驟。
28、本申請至少具有如下有益效果:
29、本申請通過對時長監控工具獲取某地區各類藥品整體的銷售數據并上傳到大數據平臺進行分析。針對單類藥品日銷售序列中日銷售量在時間上的依賴特性,得到藥品銷量波動程度,反映了藥本文檔來自技高網...
【技術保護點】
1.一種大規模數據關鍵特征提取方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種大規模數據關鍵特征提取方法,其特征在于,所述根據各類藥品在所有渠道下的日銷售量的數值分布情況,得到各類藥品的藥品銷量波動程度,包括:
3.如權利要求1所述的一種大規模數據關鍵特征提取方法,其特征在于,根據各類藥物與其他各類藥物在處方單中的共現概率,獲得各類藥物的關聯藥物,包括:
4.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述每類藥物與其各關聯藥物之間的同步變化差異權重的計算方法,包括:將第b類藥物與其第c個關聯藥物之間的同步變化差異權重記為,;式中,為第b類藥物的日銷售序列的方差;為第b類藥物的第c個關聯藥物的日銷售序列的方差;為第b類藥物的藥品銷量波動程度;為第b類藥物的第c個關聯藥物的藥品銷量波動程度;為線性歸一化函數。
5.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述各類藥物其各關聯藥物的關聯偏差值的獲取方法,包括:
6.如權利要求1所述的一種大規模數據關鍵特征提取方法,其特
7.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述根據各類藥物的數據波動異常值得到自適應密度閾值,包括:將第b類藥物對應的自適應密度閾值記為,;其中,為第b類藥物對應的自適應密度閾值;為第b類藥物的日銷售序列的均值;為第b類藥物的數據波動異常值;為預設初始密度閾值;為線性歸一化函數;為四舍五入取整函數;為預設調控參數。
8.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述將自適應密度閾值代入密度聚類算法對每類藥物的所有日銷售量進行聚類,得到目標月份下的藥物穩定特征序列,包括:
9.一種大規模數據關鍵特征提取的電子設備,其特征在于,所述大規模數據關鍵特征提取的電子設備,包括:
10.一種大規模數據關鍵特征提取介質,所述數據關鍵特征提取介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至8任一項所述的一種大規模數據關鍵特征提取方法的步驟。
...【技術特征摘要】
1.一種大規模數據關鍵特征提取方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種大規模數據關鍵特征提取方法,其特征在于,所述根據各類藥品在所有渠道下的日銷售量的數值分布情況,得到各類藥品的藥品銷量波動程度,包括:
3.如權利要求1所述的一種大規模數據關鍵特征提取方法,其特征在于,根據各類藥物與其他各類藥物在處方單中的共現概率,獲得各類藥物的關聯藥物,包括:
4.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述每類藥物與其各關聯藥物之間的同步變化差異權重的計算方法,包括:將第b類藥物與其第c個關聯藥物之間的同步變化差異權重記為,;式中,為第b類藥物的日銷售序列的方差;為第b類藥物的第c個關聯藥物的日銷售序列的方差;為第b類藥物的藥品銷量波動程度;為第b類藥物的第c個關聯藥物的藥品銷量波動程度;為線性歸一化函數。
5.如權利要求2所述的一種大規模數據關鍵特征提取方法,其特征在于,所述各類藥物其各關聯藥物的關聯偏差值的獲取方法,包括:
6.如權利要求1所述的一種大規模數據關鍵...
【專利技術屬性】
技術研發人員:薛林桐,楊紹杰,陸鵬,
申請(專利權)人:北京法伯宏業科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。