System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據預測,具體涉及結合大數據技術的樣本數據構建擴充方法及系統。
技術介紹
1、大數據技術的發展受到云計算、人工智能等技術發展的推動,并逐漸融合了湖倉一體技術和流批一體技術,以實現更高效的數據處理和分析。隨著技術的不斷進步,大數據技術已經深入到了醫藥銷售領域,通過大數據技術對各個銷售渠道的醫藥銷量情況進行分析,進而對各個銷售渠道的醫藥進行合理分配。
2、不同銷售渠道的醫藥銷量情況是不同的,可能存在醫藥銷量變化特征較少的銷售渠道,導致大數據技術對各個銷售渠道的醫藥銷量情況分析不準確,影響對不同銷售渠道的醫藥進行合理分配。在大數據技術中,樣本數據擴充可以幫助改善模型對少數類的識別能力,尤其是在不平衡數據集中,因此,現有方法中通過隨機森林算法對各個銷售渠道的醫藥銷量的樣本數據進行擴充,提高大數據技術對各個銷售渠道的醫藥銷量分析的準確性。但在實際情況中并非所有的銷售渠道都會存在醫藥銷量變化特征不明顯的問題,直接對所有的銷售渠道的醫藥銷量的樣本數據進行擴充,會導致隨機森林算法對樣本數據擴充的有效性較低,影響對各個銷售渠道的醫藥銷量分析的效率。
技術實現思路
1、為了解決直接對所有的銷售渠道的醫藥銷量的樣本數據進行擴充,會導致隨機森林算法對樣本數據擴充的有效性較低,影響對各個銷售渠道的醫藥銷量分析效率的技術問題,本專利技術的目的在于提供一種結合大數據技術的樣本數據構建擴充方法及系統,所采用的技術方案具體如下:
2、第一方面,本專利技術一個實施例提供了一種結合
3、獲取預設時間段內每個銷售渠道每日的醫藥銷量數據作為樣本數據;
4、將預設時間段劃分為子時間段,將每個子時間段內每個銷售渠道的樣本數據劃分為多個數據序列,根據每個子時間段內每個銷售渠道與其他每個銷售渠道之間數據序列的差異、以及樣本數據的關聯情況,獲取每個子時間段內每個銷售渠道的相對特征值;
5、根據預設時間段內每個銷售渠道與其他每個銷售渠道所對應相對特征值的相似情況,獲取每個銷售渠道的擴充系數;基于擴充系數篩選出擴充銷售渠道;
6、通過隨機森林算法對每個擴充銷售渠道的樣本數據進行擴充。
7、進一步地,所述相對特征值的獲取方法為:
8、根據每個子時間段內每個銷售渠道的每個數據序列與其他每個數據序列之間的差異,獲取每個數據序列的特殊程度值;
9、根據時間順序,將每個子時間段內每個銷售渠道的每個數據序列的特殊程度值進行排列,獲取每個子時間段內每個銷售渠道的特殊程度值序列;
10、根據每個子時間段內每個銷售渠道與其他每個銷售渠道之間特殊程度值序列的差異、以及樣本數據的關聯情況,獲取每個子時間段內每個銷售渠道的相對特征值。
11、進一步地,所述特殊程度值的獲取方法為:
12、對于任一個數據序列,將該數據序列所在的子時間段作為目標時間段,將該數據序列對應的銷售渠道作為目標渠道,根據該數據序列與目標時間段內目標渠道的其他每個數據序列之間的樣本數據差異,獲取該數據序列與目標時間段內目標渠道的其他每個數據序列的第一特征差異值;
13、依次獲取該數據序列與目標時間段內目標渠道的其他每個數據序列的杰卡德系數構建為一個向量,作為該數據序列的相對變化向量;
14、將該數據序列與目標時間段內目標渠道的其他每個數據序列的相對變化向量的余弦相似度,作為該數據序列與目標時間段內目標渠道的其他每個數據序列的第一特征相似值;
15、根據該數據序列與目標時間段內目標渠道的其他每個數據序列的第一特征差異值和第一特征相似值,獲取該數據序列的特殊程度值;其中,第一特征差異值與特殊程度值為正相關關系,第一特征相似值與特殊程度值為負相關關系。
16、進一步地,所述第一特征差異值的獲取方法為:
17、對于任一個數據序列,獲取該數據序列內所有樣本數據的均值,作為該數據序列的參考特征值;
18、將該數據序列與目標時間段內目標渠道的其他每個數據序列之間的參考特征值差異,作為該數據序列與目標時間段內目標渠道的其他每個數據序列的第一特征差異值。
19、進一步地,所述相對特征值的獲取方法為:
20、獲取每個子時間段內每個銷售渠道與其他每個銷售渠道的特殊程度值序列的曼哈頓距離,作為每個子時間段內每個銷售渠道與其他每個銷售渠道的參考特征差異值;
21、根據每個子時間段內每個銷售渠道與其他每個銷售渠道的樣本數據的關聯情況,獲取每個子時間段內每個銷售渠道與其他每個銷售渠道的相關程度值;
22、根據每個子時間段內每個銷售渠道與其他每個銷售渠道的參考特征差異值和相關程度值,獲取每個子時間段內每個銷售渠道的相對特征值;其中,第一特征值和相關程度值均與相對特征值為正相關關系。
23、進一步地,所述相關程度值的獲取方法為:
24、對于任一個子時間段,將該子時間段內每個銷售渠道的樣本數據均根據時間順序進行排列,獲取該子時間段內每個銷售渠道的樣本數據序列;
25、將該子時間段內每個銷售渠道與其他每個銷售渠道的樣本數據序列的皮爾遜相關系數的絕對值進行放大的結果,作為該子時間段內每個銷售渠道與其他每個銷售渠道的相關程度值。
26、進一步地,所述擴充系數的獲取方法為:
27、將預設時間段內所有子時間段中的每個銷售渠道的相對特征值構建為一個目標集合,將目標集合中每個相對特征值在每個銷售渠道中出現的概率擬合為一條曲線,作為每個銷售渠道的顯著曲線;
28、對于任一銷售渠道,獲取該銷售渠道與其他每個銷售渠道的顯著曲線的kl散度的均值,作為該銷售渠道的擴充系數。
29、進一步地,所述擴充銷售渠道的獲取方法為:
30、將擴充系數歸一化的結果,作為歸一化擴充系數;
31、當歸一化擴充系數小于預設的擴充系數閾值時,對應銷售渠道為擴充銷售渠道。
32、進一步地,所述結合大數據技術的樣本數據構建擴充方法還包括:
33、對于任一擴充銷售渠道,將該擴充銷售渠道的擴充系數與所有擴充銷售渠道的擴充系數的累加結果的比值,作為該擴充銷售渠道的權重;
34、將該擴充銷售渠道的權重與樣本數據所有屬性的種類數量的乘積,作為該擴充銷售渠道在隨機森林算法中每個決策樹的屬性的種類數量;
35、根據每個擴充銷售渠道的樣本數據和每個決策樹的屬性的種類數量,通過隨機森林算法對每個擴充銷售渠道的樣本數據進行擴充。
36、第二方面,本專利技術另一個實施例提供了一種結合大數據技術的樣本數據構建擴充系統,該系統包括:存儲器、處理器以及存儲在所述存儲器中并可在處理器上運行的計算機程序,處理器執行所述計算機程序時,實現上述任意一項方法的步驟。
37、本專利技術具有如下有益效果:
38、將預設時間段劃分為子時間段,有利于準確本文檔來自技高網...
【技術保護點】
1.一種結合大數據技術的樣本數據構建擴充方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相對特征值的獲取方法為:
3.如權利要求2所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述特殊程度值的獲取方法為:
4.如權利要求3所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述第一特征差異值的獲取方法為:
5.如權利要求2所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相對特征值的獲取方法為:
6.如權利要求5所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相關程度值的獲取方法為:
7.如權利要求1所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述擴充系數的獲取方法為:
8.如權利要求1所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述擴充銷售渠道的獲取方法為:
9.如權利要求1所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在
10.一種結合大數據技術的樣本數據構建擴充系統,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器在執行所述計算機程序時,實現上述權利要求1-9任意一項所述一種結合大數據技術的樣本數據構建擴充方法的步驟。
...【技術特征摘要】
1.一種結合大數據技術的樣本數據構建擴充方法,其特征在于,該方法包括以下步驟:
2.如權利要求1所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相對特征值的獲取方法為:
3.如權利要求2所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述特殊程度值的獲取方法為:
4.如權利要求3所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述第一特征差異值的獲取方法為:
5.如權利要求2所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相對特征值的獲取方法為:
6.如權利要求5所述的一種結合大數據技術的樣本數據構建擴充方法,其特征在于,所述相關程度...
【專利技術屬性】
技術研發人員:薛林桐,楊紹杰,黃鑫,
申請(專利權)人:北京法伯宏業科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。