一種針對時序排列的結構化數據獲得自動特征工程的方法技術

技術編號：43880147 閱讀：10 留言：0更新日期：2024-12-31 19:03

一種針對時序排列的結構化數據獲得自動特征工程的方法，該方法包括獲取樣本之間具有時序關系的表格數據X；利用策略網絡計算各特征的不同特征轉換操作的動作概率；并采樣多個自動特征工程計劃；生成若干含有擴展特征的表格；用于評估預選機器學習在各含有擴展特征的表格上的預選評估指標；加權所有表格上的預選評估指標計算獎勵；迭代進行采樣特征工程計劃以及優化策略網絡的過程；輸出迭代過程中得到的選評估指標最好的特征工程計劃。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機和機器學習領域，特別是指一種針對時序排列的結構化數據獲得自動特征工程的方法。

技術介紹

1、在過去的幾十年里，圍繞結構化數據(也稱為表格數據)的各種研究任務激增，顯著地推動了一些與領域相關的任務的推進，如欺詐檢測、風險管理、廣告推薦、營銷技術等。它們的一個共同特征是涉及到一個建立在結構化數據之上的完整的機器學習管道。

2、其中自動化特征工程在結構化數據之上的完整的機器學習管道中扮演著至關重要的角色。自動化特征工程通過算法自動從原始數據中識別和構建最有價值的特征，極大地減少了人工進行特征選擇和構造所需的時間和精力。通過自動化的特征選擇和構造，可以更精確地捕捉結構化數據中的信息，從而提高機器學習算法的準確性和泛化能力。良好的特征是完整的機器學習管道的基礎，自動化特征工程有助于提升機器學習算法在各種評估指標上的表現。

3、但是以往的自動化特征工程都關注于各樣本之間沒有明確關系的結構化數據，通過分析各特征之間復雜的關系，使用一個樣本中的不同特征生成新的擴展特征，提升機器學習算法在新特征集上的各種評估指標上。本專利技術關注于樣本之間存在時序關系的結構化數據上的特征工程操作，具體來說是按一定時間間隔采樣得到的結構化數據，這樣的數據樣本是按照時間順序排列的，不同的樣本之間間距相同的時間間隔。對于這樣的數據，需要提取歷史樣本的信息構建新的特征才能更好的提升機器學習算法在各種評估指標上的表現。

4、本專利技術了針對先在的技術的不足，提出了一種針對時序結構化數據的自動特征工程方法，在使用不同特

技術實現思路

1、本專利技術的自動化特征工程(automated?feature?engineering,autofe)旨在通過自動化手段來執行這一過程，給定一個包含原始特征x和目標變量y的數據集d，以及一個預選的學習算法l和性能評估指標e，自動化特征工程的目標是找到一個特征轉換操作計劃t，該計劃通過一系列特征轉換操作將原始特征集x轉換為一個新特征集使得使用學習算法l在新特征集上訓練得到的模型在性能評估指標e上達到最大值。

2、本專利技術是通過以下技術方案來實現的：提供了一種針對時序排列的結構化數據獲得自動特征工程的方法，該方法包括以下步驟：

3、(1)獲取樣本之間具有時序關系的表格數據x；其中x是一個二維表格，其縱向有不同特征列組成，橫向由不同的樣本組成，其相鄰的采樣時刻間隔相同的時間；

4、(2)利用自動特征工程策略網絡計算各特征的特征轉換操作的動作概率；

5、(3)根據不同特征轉換操作的動作概率采樣多個自動特征工程計劃；使用自動特征工程計劃生成若干含有擴展特征的表格；

6、(4)評估預選機器學習在各含有擴展特征的表格上的預選評估指標，記錄下生成預選評估指標最好的含有擴展特征的表格的自動特征工程計劃；加權所有表格上的預選評估指標計算獎勵；

7、(5)迭代進行使用優化后的策略網絡采樣特征工程計劃，計算獎勵，記錄預選評估指標最好的特征工程計劃，優化策略網絡的過程，直到多次迭代無法獲得預選評估指標更好的特征工程計劃或達到迭代次數；

8、(6)使用預選機器學習算法在各含有擴展特征表格上的驗證集的k折交叉驗證的評估指標的加權平均作為獎勵，使用近端優化策略ppo對策略網絡進行優化，使得策略網絡給出在預選機器學習算法評估指標更好的特征轉換操作集，重復迭代步驟(1)到步驟(5)，直至輸出迭代過程中得到的選評估指標最優的特征工程計劃。

9、具體地，所述步驟(2)中的特征轉換操作包括特征轉換函數和轉換函數的輸入特征。

10、進一步地，所述步驟(2)中的策略網絡包括組間策略網絡和時序策略網絡，具體為：

11、所述組間特征策略網絡用于計算每個特征上的組間特征轉換操作的概率，所述組間特征轉換操作是指使用組間特征轉換函數，將該組間特征轉換操作作用于的特征與若干個其他特征作為輸入特征的特征轉換操作；

12、所述時序特征策略網絡用于計算時序特征轉換操作的概率；所述時序特征轉換操作是指時序特征轉換函數特征上的時序特征轉化操作，具體為將時序特征轉化操作作用于的特征上的一段固定長度時間窗口的樣本當作一段時間序列，使用從一段時間序列提取一個特征值的時序特征函數提取特征的時序特征的操作。

13、進一步地，所述組間特征策略網絡采用fetch自動特征工程框架的策略網絡，包括密集層、多頭注意力層、動作譯碼層和softmax層；所述密集層是一個全卷積網絡，通過全卷積網絡將結構化數據中1xm的特征向量轉化為定長的特征向量，降低特征向量的維度，同時使用同樣的權重的全卷積網絡對不同的特征的特征向量進行降維，保證降維操作對于新的擴展特征的有效性；所述多頭注意力層提取表格特征之間附在的關系，其先試用密集層降維后的特征向量計算注意力矩陣，挖掘表格中特征之間的相互關系，對特征列關系進行編碼，并借助注意力矩陣對特征向量組進行線性變換，得到能夠反應與其他特征之間相互關系的特征那個向量；再利用一個包含動作譯碼層和softmax層的注意力層得到的特征向量轉化為具體特征轉換操作的概率。

14、進一步地，所述時序策略網絡是在fetch框架的策略網絡的密集層前增加了提取樣本信息的時序信息提取模塊，包括tcn層、密集層、多頭注意力層、動作譯碼層和softmax層；所述提取時序信息的模塊為時序卷積網絡tcn模塊，即tcn層，tcn使用因果卷積只對歷史數據進行卷積操作，確保在任何給定時間點的輸出僅依賴于該時間點之前的信息；tcn使用跳過部分輸入的擴張卷積允許模型在保持參數數量不變的情況下，增加感受野并擴大了模型能夠觀察到的輸入序列的范圍。

15、進一步地，所述特征上的組間特征轉換操作是指使用組間特征轉換函數，使用該特征或該特征與其他特征作為輸入特征的特征轉換操作；所述特征轉換函數包括了一元特征轉換函數和二元特征轉換函數；

16、一元組間特征轉換函包括：tanh,square,inverse,log,sqrt,sigmoid值轉換函數；

17、二元組間特征轉換函數包括：addition,subtraction,multiplication,division,combine組合算術函數；

18、對于一個特征上的組間特征轉換操作，若其特征轉換函數是一元組間特征轉換函數，那么該特征就是該轉換函數的輸入特征；若其特征轉換函數是二元組間特征轉換函數其需要兩個輸入特征，那么將該特征作為該轉換函數的第一個輸入特征，其他的特征作為該轉換函數的第二個輸入特征，不同的第二個輸入特征對應著不同的特征轉換操作，即一個二元組間轉換特征函數在一個特征上具有n-1個組間轉換操作。

19、進一步地，所述特征本文檔來自技高網...

【技術保護點】

1.一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，該方法包括以下步驟：

2.根據權利要求1所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述步驟(2)中的特征轉換操作包括特征轉換函數和轉換函數的輸入特征。

3.根據權利要求1所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述步驟(2)中的策略網絡包括組間策略網絡和時序策略網絡，具體為：

4.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述組間特征策略網絡采用FETCH自動特征工程框架的策略網絡，包括密集層、多頭注意力層、動作譯碼層和softmax層；所述密集層是一個全卷積網絡，通過全卷積網絡將結構化數據中1xm的特征向量轉化為定長的特征向量，降低特征向量的維度，同時使用同樣的權重的全卷積網絡對不同的特征的特征向量進行降維，保證降維操作對于新的擴展特征的有效性；所述多頭注意力層提取表格特征之間附在的關系，其先試用密集層降維后的特征向量計算注意力矩陣，挖掘表格中特征之間的相互關系，對特征列關系進

5.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述時序策略網絡是在FETCH框架的策略網絡的密集層前增加了提取樣本信息的時序信息提取模塊，包括TCN層、密集層、多頭注意力層、動作譯碼層和softmax層；所述提取時序信息的模塊為時序卷積網絡TCN模塊，即TCN層，TCN使用因果卷積只對歷史數據進行卷積操作，確保在任何給定時間點的輸出僅依賴于該時間點之前的信息；TCN使用跳過部分輸入的擴張卷積允許模型在保持參數數量不變的情況下，增加感受野并擴大了模型能夠觀察到的輸入序列的范圍。

6.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述特征上的組間特征轉換操作是指使用組間特征轉換函數，使用該特征或該特征與其他特征作為輸入特征的特征轉換操作；所述特征轉換函數包括了一元特征轉換函數和二元特征轉換函數；

7.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述特征上的時序特征轉換操作是指將該特征上的一段固定長度時間窗口的樣本作為一段時間序列，使用從一段時間序列提取一個特征值的時序特征函數提取時序特征的操作；所述時序特征轉換函數是python庫tsfresh0.20.1中EfficientFCParameters類中所有的時序特征函數，共有784個備選的時序特征轉換函數。

8.根據權利要求1所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述步驟(3)的采樣具體為：采樣選擇的是多項式采樣的方法，采樣的過程中會為特征采樣多個特征轉換操作集(t1,t3,…te)，用于充分探索特征空間，其中e為每次采樣的特征轉換操作集的數量，其中一個特征轉換操作集中包括每一個特征采樣上的一個組間特征轉換操作和一個時序特征轉換操作。

9.根據權利要求1所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述步驟(4)具體為：將包含擴展特征的表格代替表格X，繼續步驟(2)到步驟(4)的操作，得到包含二階擴展特征的表格，進行迭代得到包含更高階擴展特征的表格，并設定的擴展特征的最高階數；所述高階擴展特征，是指在擴展特征上使用特征轉化操作的特征，其中使用原始特征經過特征轉換操作生成的擴展特征為一階擴展特征，使用i階擴展特征經過特征轉換操作生成的特征被稱為i+1階特征；在迭代生成含有高階拓展特征的表格的過程中每個含拓展特征的表格只抽樣選擇出一個特征轉換操作集，這樣在每一次生成更高階的特征時，仍然共抽樣選擇出e個特征集。

10.根據權利要求1所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述步驟(6)中在預選機器學習算法評估指標更好的特征轉換操作集時，其中對于分類任務，預選機器學習算法選自線性支持向量機、邏輯回歸、隨機森林、梯度提升樹XGBOOST，輕度梯度提升樹LightGBM；對于回歸任務，預選機器學習算法選自線性支持向量機、線性回歸LinearRegression、隨機森林、梯度提升樹和輕度梯度提升樹；在分類任務上的預選評估指標E為F1-score，其計算公式如下：

...

【技術特征摘要】

1.一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，該方法包括以下步驟：

4.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述組間特征策略網絡采用fetch自動特征工程框架的策略網絡，包括密集層、多頭注意力層、動作譯碼層和softmax層；所述密集層是一個全卷積網絡，通過全卷積網絡將結構化數據中1xm的特征向量轉化為定長的特征向量，降低特征向量的維度，同時使用同樣的權重的全卷積網絡對不同的特征的特征向量進行降維，保證降維操作對于新的擴展特征的有效性；所述多頭注意力層提取表格特征之間附在的關系，其先試用密集層降維后的特征向量計算注意力矩陣，挖掘表格中特征之間的相互關系，對特征列關系進行編碼，并借助注意力矩陣對特征向量組進行線性變換，得到能夠反應與其他特征之間相互關系的特征那個向量；再利用一個包含動作譯碼層和softmax層的注意力層得到的特征向量轉化為具體特征轉換操作的概率。

5.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述時序策略網絡是在fetch框架的策略網絡的密集層前增加了提取樣本信息的時序信息提取模塊，包括tcn層、密集層、多頭注意力層、動作譯碼層和softmax層；所述提取時序信息的模塊為時序卷積網絡tcn模塊，即tcn層，tcn使用因果卷積只對歷史數據進行卷積操作，確保在任何給定時間點的輸出僅依賴于該時間點之前的信息；tcn使用跳過部分輸入的擴張卷積允許模型在保持參數數量不變的情況下，增加感受野并擴大了模型能夠觀察到的輸入序列的范圍。

6.根據權利要求3所述的一種針對時序排列的結構化數據獲得自動特征工程的方法，其特征在于，所述特征上的組間特征轉換操作是指使用組間特征轉換函數，使用該特征或該特征與其他特征作為輸入特征的特征轉換操作；所述特征轉換函數包...

【專利技術屬性】
技術研發人員：陳剛，尹鐘銳，趙俊博，
申請(專利權)人：浙江大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術