System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于鐵路數據處理,具體涉及一種鐵路貨運數據的數據項篩選方法、裝置、設備及介質。
技術介紹
1、隨著鐵路貨物運輸需求的增長、技術的飛速進步和信息化程度的提升,鐵路貨運領域產生的數據呈現出爆炸式增長,其潛在的經濟和社會價值逐漸凸顯。鐵路數字經濟正成為推動鐵路業務創新、提升鐵路運輸生產力、優化鐵路資源配置的重要引擎。鐵路貨運數據包括但不限于貨物類型、運輸時間、運輸路線、站點信息等。傳統的鐵路貨物運輸數據通常按照站段、路局或集團公司進行采集和匯總,然后根據業務類別和時間標簽進行統一存儲。這些數據通常龐大且復雜,包含了大量的數據項。在這些數據項中,部分具有顯著的分析價值,而其他的則可能對整體鐵路貨物運輸管理貢獻有限。因此,如何有效篩選出具有高價值的數據項,并在這些數據項中生成和優化數據集,成為了一個關鍵問題。
2、目前的技術方案通常包括基于某些靜態規則或簡單算法的篩選方法,但這些方法往往難以適應數據的動態變化,并且可能無法充分挖掘數據項之間的復雜關系。需要一種更加先進和靈活的技術來進行高效的數據篩選和評估,以確保最終數據集的高價值性和適用性。
技術實現思路
1、本專利技術提供一種鐵路貨運數據的數據項篩選方法、裝置、設備及介質,能夠在海量數據中有效搜索出具有價值的貨運數據記錄,以提高價值數據的利用率,從而降低運輸成本,提升運輸管理的總體效率,滿足現代鐵路貨運行業對大數據處理與應用的高要求。
2、為實現上述技術目的,本專利技術采用如下技術方案:
3、
4、步驟1,從多個數據源獲取鐵路貨物運輸的原始數據,并進行數據預處理;其中,原始數據包括m個數據項;
5、步驟2,從原始數據的m個數據項中隨機抽取不重復的n個數據項,作為初始備選貨運數據集x1;并將初始備選貨運數據集x1存為當前價值數據集y,以及將x1存入記憶集合u;其中,n為數據項篩選的目標項數,1<n<m;
6、步驟3,計算數據集x1的價值評估得分f(x1);其中,f(xi)為數據集價值評估函數;
7、步驟4,利用xi+1=d(xi)生成新的數據集xi+1,并將新的數據集xi+1存入記憶集合u;其中,函數d(xi)表示對數據集xi中的數據項進行調整,即從當前數據集xi中選擇n個數據項,將其替換為新的數據項,且1≤n<n,n<m-n;
8、步驟5,計算數據集xi+1的價值評估得分f(xi+1);
9、步驟6,比較f(xi+1)與f(xi)數值大小:
10、若f(xi+1)>f(xi),表示數據集xi+1價值更高,直接進入步驟7;
11、若f(xi+1)≤f(xi),表示當前修改操作無效,再進一步判斷記憶集合u是否已存放所有n個數據項組合的數據集,若是則結束篩選并返回當前價值數據集y作為最終篩選得到的數據集,否則返回步驟4,對數據集xi進行重新調整;
12、步驟7,將當前價值數據集y更新為數據集xi+1;
13、步驟8,如果未達到終止條件,更新i=i+1,轉入步驟4進入下一輪;如果達到終止條件,則返回當前價值數據集y作為最終篩選得到的數據集。
14、進一步的,所述數據項的類型,屬于客戶信息類、運單數據類或者貨票信息類,每種類型包括1種或多種數據項。
15、進一步的,所述數據預處理包括清洗、轉換、歸一化、缺失值處理和異常值處理。
16、進一步的,數據集價值評估函數f(xi),使用基于歷史數據和專家打分獲得的回歸模型隱形表示;其中,基于歷史數據和專家打分獲得回歸模型,包括以下步驟:
17、(1)數據收集:收集歷史數據項記錄及專家對數據集的評價分數;
18、(2)數據清洗:處理缺失值、異常值,對數據進行標準化操作;
19、(3)構建訓練集與測試集:將數據集按比例拆分為訓練集和測試集,定義數據項集合為模型輸入,專家打分數值為對應模型輸出的目標變量;
20、(4)模型訓練與驗證:選擇回歸模型與模型評估指標,使用訓練集數據訓練模型,優化模型參數,評估模型在測試集上的表現。
21、進一步的,步驟4中采用局部搜索和動態調整步長兩種方法對數據集xi中的數據項進行調整:
22、(1)局部搜索是指,限制數據集xi中參與調整的數據項變動范圍,規定按數據項的編號順序選擇數據集xi中參與調整的數據項;
23、(2)動態調整步長是指,根據數據集得分變化的幅度動態調整數據項的替換個數。
24、進一步的,參與調整的數據項個數n的動態調整方法為:
25、(1)獲取當前數據集xi的得分f(xi)和新數據集xi+1的得分f(xi+1),計算得分變化幅度θ:
26、
27、(2)若得分變化幅度θ大于預先設定的替換閾值上限,則在當前調整個數的基礎上增加調整個數,用于下次迭代;
28、(3)若得分變化幅度θ小于預先設定的替換閾值下限,則在當前調整個數的基礎上減少調整個數,用于下次迭代;
29、(4)若得分變化幅度θ在預先設定的替換閾值范圍內,則下次迭代保持當前調整個數不變。
30、進一步的,步驟8的終止條件為以下其中之一:
31、(1)記憶集合u已存放所有n個數據項組合的數據集,即
32、(2)相鄰兩次數據集的價值評估得分的變化率在預先設定的終止閾值ε內,即:
33、
34、一種鐵路貨運數據的數據項篩選裝置,包括:
35、數據預處理模塊,用于:對從多個數據源獲取鐵路貨物運輸的原始數據,進行數據預處理;其中,原始數據包括m個數據項;
36、初始化模塊,用于:從原始數據的m個數據項中隨機抽取不重復的n個數據項,作為初始備選貨運數據集x1;并將初始備選貨運數據集x1存為當前價值數據集y,以及將x1存入記憶集合u;其中,n為數據項篩選的目標項數,1<n<m;
37、價值評估模塊,用于:計算任意數據集xi的價值評估得分f(xi);其中,f(xi)為數據集價值評估函數;
38、數據集調整模塊,用于:利用xi+1=d(xi)生成新的數據集xi+1,并將新的數據集xi+1存入記憶集合u;其中,函數d(xi)表示對數據集xi中的數據項進行調整,即從當前數據集xi中選擇n個數據項,將其替換為新的數據項,且1≤n<n,n<m-n;
39、數值比較模塊,用于:比較f(xi+1)與f(xi)數值大小;
40、價值數據集更新模塊,用于:在數值比較模塊判定f(xi+1)>f(xi)時,將當前價值數據集y更新為數據集xi+1;
41、價值數據集輸出模塊,用于:在達到終止條件時,輸出當前價值數據集y作為最終篩選得到的數據集。
42、一種電子設備,包括存儲器及處理器本文檔來自技高網...
【技術保護點】
1.一種鐵路貨運數據的數據項篩選方法,其特征在于,包括:
2.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,所述數據項的類型,屬于客戶信息類、運單數據類或者貨票信息類,每種類型包括1種或多種數據項。
3.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,所述數據預處理包括清洗、轉換、歸一化、缺失值處理和異常值處理。
4.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,數據集價值評估函數f(Xi),使用基于歷史數據和專家打分獲得的回歸模型隱形表示;其中,基于歷史數據和專家打分獲得回歸模型,包括以下步驟:
5.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,步驟4中采用局部搜索和動態調整步長兩種方法對數據集Xi中的數據項進行調整:
6.根據權利要求5所述的鐵路貨運數據的數據項篩選方法,其特征在于,參與調整的數據項個數n的動態調整方法為:
7.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,步驟8的終止條件為以下其中之一:
8.一種鐵
9.一種電子設備,包括存儲器及處理器,所述存儲器中存儲有計算機程序,其特征在于,所述計算機程序被所述處理器執行時,使得所述處理器實現如權利要求1~7中任一項所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1~7中任一項所述的方法。
...【技術特征摘要】
1.一種鐵路貨運數據的數據項篩選方法,其特征在于,包括:
2.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,所述數據項的類型,屬于客戶信息類、運單數據類或者貨票信息類,每種類型包括1種或多種數據項。
3.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,所述數據預處理包括清洗、轉換、歸一化、缺失值處理和異常值處理。
4.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,數據集價值評估函數f(xi),使用基于歷史數據和專家打分獲得的回歸模型隱形表示;其中,基于歷史數據和專家打分獲得回歸模型,包括以下步驟:
5.根據權利要求1所述的鐵路貨運數據的數據項篩選方法,其特征在于,步驟4中采用局部搜索...
【專利技術屬性】
技術研發人員:李燁,黃琳,聞克宇,趙晨,田亞明,丁傳琛,
申請(專利權)人:中南大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。