本發明專利技術公開了一種電動汽車動力電池大數據清洗方法,具體包括:數據平臺接收并儲存間隔為10秒/幀的動力電池實時運行大數據,數據平臺剔除充電工況信息,將連續缺失數據刪除后計算數據總數,基于異常值篩選因子的箱線圖篩選異常數據,若異常數據量大于數據總數的一定比例,則通過增加異常值篩選因子擴大箱線圖的篩選范圍直到滿足篩選要求,刪去異常數據后再次刪除連續缺失數據,最后判斷剩余缺失數據的缺失類型,根據不同的缺失類型選擇滑動平均填充或支持向量回歸填充。該方法實現了基于數據規模的自適應異常值篩選,并對缺失數據分類填充,可為數據平臺評估駕駛人的駕駛經濟性提供高效、準確的大數據清洗。準確的大數據清洗。準確的大數據清洗。
【技術實現步驟摘要】
一種電動汽車動力電池大數據清洗方法
[0001]本專利技術涉及電動汽車動力電池數據處理
,具體涉及一種電動汽車動力電池大數據清洗方法。
技術介紹
[0002]基于電動汽車動力電池大數據評估駕駛人的駕駛經濟性可幫助公交、出租等運營企業開展節能研究并提高經濟效益,由于一些不利天氣、城市建筑的阻擋干擾,或設備的穩定性不佳,數據平臺在接收和儲存電動汽車動力電池大數據時,可能存在傳輸數據丟失或者傳輸數據異常的情況,導致原始數據中存在著異常和缺失數據,因此數據清洗的質量直接影響評估模型精度,由于實車數據受多種工況和道路復雜性的影響,數據維度多、變化范圍大,當前數據清洗方法易將行駛工況中駕駛員應對突發事件的應急操作和電動汽車少數工況時的數據誤判為異常值刪除,且對缺失的空白數據填充精度低。中國專利CN114328473A通過將采集數據與人為選取的預設固定值對比從而判定是否刪除數據,然而其預設固定值的主觀選取直接影響到數據清洗的質量;中國專利CN113406513A提出對汽車不同工況下使用不同的插值策略填充缺失值,但在部分數據缺失的情況下,未利用其他未缺失數據的關聯信息對缺失數據進行填充以提高填充精度,因此當前電動汽車動力電池大數據清洗亟需一種針對數據平臺動力電池大數據特點的自適應數據清洗方法。
技術實現思路
[0003]本專利技術所要解決的技術問題在于針對上述現有技術中的不足,提供一種電動汽車動力電池大數據清洗方法,通過基于異常值篩選系數的箱線圖建立自適應異常值篩選,根據缺失數據類型選擇不同的填充策略,對于部分缺失數據,利用其他未缺失數據的關聯信息提高填充精度,該方法可提高數據清洗質量,以解決數據平臺評估駕駛人的駕駛經濟性時存在數據缺失和異常值影響評估模型精度的問題。
[0004]本專利技術解決其技術問題所采用的技術方案是:一種電動汽車動力電池大數據清洗方法,具體包括以下步驟:
[0005]步驟l,數據平臺以GB/T
?
32960的要求接收并儲存間隔為10秒/幀的動力電池實時運行大數據系統信息,具體包括:充電狀態、總電壓、總電流、SOC、電池單體電壓最高值、電池單體電壓最低值、最高溫度值、最低溫度值,其中SOC為動力電池當前剩余電荷量與滿電時最大電荷量的比值。
[0006]步驟2,數據平臺根據充電狀態剔除停車充電片段和充電完成片段。
[0007]步驟3,按照時間索引順序遍歷數據,連續兩幀和大于兩幀的連續全部缺失數據做刪除處理。
[0008]步驟4,統計刪除連續缺失數據后的數據總數N,記異常值篩選因子K。
[0009]步驟5,記此時總數據的中位數為Q2,上四分位點即總數據從小到大排列后,位于25%位置的數值為Q3,下四分位點即總數據從小到大排列后,位于75%位置的數值為Q1,記
箱線圖長度為IQR=Q3?
Q1,箱線圖上邊緣Fence
u
=Q3+K
×
IQR,箱線圖下邊緣Fence
l
=Q1?
K
×
IQR,將滿足(
?
∞,Fence
l
)∪(Fence
u
,+∞)的數據標記為異常值,異常值數量記為A。
[0010]步驟6,判定A與N
×
p%的關系,若A小于N
×
p%,則直接轉到步驟7;若A大于N
×
p%,則取消對異常值的標記,增大異常篩選因子即K=K+a后轉到步驟5,重新計算Fence
u
和Fence
l
后,再次篩選數據中滿足(
?
∞,Fence
l
)∪(Fence
u
,+∞)的異常值,標記并統計的異常值數目A后,若A仍大于N
×
p%,則繼續按照K=K+a的規則增大異常篩選因子并再次轉到步驟5,直到滿足A小于N
×
p%的條件,將篩選的異常值標記后轉到步驟7。
[0011]步驟7,將篩選為異常值的數據清空,按照時間索引順序遍歷數據,連續兩幀和大于兩幀的連續全部缺失數據做刪除處理。
[0012]步驟8,判斷所有數據中空白數據的缺失類型,若某幀中總電壓、總電流全部缺失,則對充電狀態、SOC、電池單體電壓最高值、電池單體電壓最低值、最高溫度值、最低溫度值使用上一幀的數據填充,總電壓、總電流、使用滑動平均填充即由兩側的k個值的加權平均值進行補充,即前k幀和后k幀的總電壓或總電流的平均值填充缺失值,若空白數據中總電壓和總電流僅存在一項缺失,則對充電狀態、SOC、電池單體電壓最高值、電池單體電壓最低值、最高溫度值、最低溫度值使用上一幀的數據填充,對缺失總電壓或缺失總電流使用支持向量回歸填充;
[0013]進一步地,支持向量回歸對于數據集T={(x1,y1)
…
(x
i
,y
i
)
…
(x
n
,y
n
)},其中x
i
∈R
n
,y
i
∈R,i=1
…
n,在高維特征空間中建立的線性回歸函數為:
[0014][0015]其中f(x)為支持向量回歸輸出預測值,w和b為系數,為映射至高維空間的函數,為度量支持向量回歸輸出值f(x)和真實值y,引入度量函數:
[0016][0017]此時支持向量回歸結果求解問題歸結為尋找最優的超平面,其優化求解表達式和約束條件為:
[0018][0019][0020]考慮兩側間隔帶松弛程度可能不同,引入松弛變量ξ,ξ
*
,C為懲罰因子表示對離群點的重視程度,引入拉格朗日乘子并構造拉格朗日函數將上述優化求解問題轉化為下式:
[0021][0022]令對w、b、ξ、ξ
*
的偏導數為0得:
[0023][0024]根據對偶性,式(5)帶入式(4)中,轉化為二次規劃問題進行求解:
[0025][0026]求解出后,高維空間的中w為:
[0027][0028]引入徑向基核函數K(x
i
,x
j
):
[0029][0030]其中σ為徑向基核函數的超參數;
[0031]將式(7),式(8),帶入式(1)中,最終可得支持向量回歸的f(x)的表達式為:
[0032][0033]f(x)為支持向量回歸填充空白數據的輸出值,對于缺失總電壓U,以總電流I,SOC,最高溫度T
max
為特征變量輸入基于未缺失數據訓練的支持向量回歸模型中,建立如下映射U=f(I,SOC,T
max
),對于缺失總電流I,則以U,SOC、T
max
為特征變量輸入基于未缺失數據訓練的支持向量回歸模型中,建立如下映射I=f(U,SOC,T
max
)填充數據。
[0034]步驟9,本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種電動汽車動力電池大數據清洗方法,其特征在于,數據平臺以GB/T
?
32960的要求接收并儲存間隔為10秒/幀的動力電池實時運行大數據,數據平臺剔除停車充電片段和充電完成片段,刪除連續兩幀及以上的缺失數據,基于異常值篩選因子的箱線圖篩選異常數據,若異常數據量小于數據總數的p%,則刪除異常數據,若異常數據量大于數據總數的p%,則增大異常值篩選因子擴大箱線圖篩選范圍重新篩選異常值,直到異常值數量小于數據總數的p%后刪除異常數據,刪去異常數據后再次刪除連續兩幀及以上的缺失數據,判斷空白數據的缺失類型,選擇滑動平均填充或支持向量回歸填充。2.一種電動汽車動力電池大數據清洗方法,其特征在于,所述動力電池實時運行大數據,包括:充電狀態、總電壓、總電流、SOC、電池單體電壓最高值、電池單體電壓最低值、最高溫度值、最低溫度值。3.一種電動汽車動力電池大數據清洗方法,其特征在于,所述基于異常值篩選因子的箱線圖篩選異常數據,包括:記K為異常值篩選因子,此時總數據的中位數為Q2,上四分位點即總數據從小到大排列后,位于25%位置的數值為Q3,下四分位點即總數據從小到大排列后,位于75%位置的數值為Q1,記箱線圖長度為IQR=Q3?
Q1,箱線圖上邊緣Fence
u
【專利技術屬性】
技術研發人員:李放,閔永軍,
申請(專利權)人:南京林業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。