System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及大數據處理,尤其涉及一種模型生命周期中的數字化特征衍生方法及系統。
技術介紹
1、在當前的機器學習和大數據處理領域,模型的上線過程已經形成了一套標準化的步驟,包括問題定義、樣本探查、探索性數據分析、特征數據采集與特征生產構建、模型訓練以及模型部署發布等。這一系列步驟涵蓋了從理解業務需求到模型實際應用的全過程,其中既涉及機器學習領域的核心問題,也涉及大數據處理的關鍵環節。隨著大數據處理框架的不斷進步,企業在海量數據集上進行加工處理的操作門檻已經大大降低,使得模型工程師能夠獨立完成從問題定義到模型部署發布的全部工作。
2、目前,模型工程師在特征數據采集與特征生產構建方面,主要依賴于大數據處理框架提供的能力,通過編寫數據處理腳本或利用數據處理工具,對原始數據進行清洗、轉換和聚合等操作,以生成用于模型訓練的特征數據。同時,在模型訓練階段,工程師們會利用各種機器學習算法和框架,對特征數據進行訓練,以得到性能優良的模型。最后,在模型部署發布階段,將訓練好的模型集成到業務系統中,實現模型的在線預測和決策。
3、然而,隨著上層算法模型應用與底層特征數據的不斷累積,現有技術逐漸暴露出了一系列問題。由于模型工程師通常缺乏數據領域的開發管理經驗,導致特征數據生產維護成本高昂、重復冗余程度高、特征生產任務就緒超時以及特征數據口徑不清晰復用困難等問題日益凸顯。這些問題不僅影響了特征數據的生產和使用效率,也制約了模型決策效果的進一步提升。因此,亟需一種新的方法來優化模型生命周期中的特征衍生過程,以解決現有技術存在的問題
技術實現思路
1、有鑒于此,有必要提供一種模型生命周期中的數字化特征衍生方法,用以解決現有技術的上述缺陷。
2、為了解決上述問題,第一方面,本專利技術實施例提供一種模型生命周期中的數字化特征衍生方法,包括:
3、獲取時間序列數據,持續將增量數據添加到序列頭部,并剔除時序尾部的數據;通過預設的特征統計算子對時間序列數據進行特征統計;
4、通過預設的即時計算引擎接收數據供給側的數據輸入,基于元數據配置和場景規則配置對輸入數據進行實時處理,輸出實時的特征數據。
5、優選的,所述獲取時間序列數據,通過預設的特征統計算子對時間序列數據進行特征統計,包括:
6、將多個任務間重復的聚合邏輯下沉在中間層實現,按用戶粒度對明細數據進行聚合,生成用戶時間序列數據;
7、在時間序列數據的基礎上通過表達式過濾統計明細數據在時間序列中的下標;
8、將統計下標代入時間序列數據的各個字段中獲取統計明細,并通過特征統計算子完成數據統計。
9、優選的,所述即時計算引擎的操作流程包括:
10、選擇數據源,從選定的數據源獲取實時數據;其中,所述數據源包括消息隊列、實時數據庫和流式文件系統;
11、選擇不同的主題域下的明細表以及維表,進行數據清洗、數據轉換、數據聚合以及數據過濾。
12、根據數據流的特性,選擇時間語義來處理實時數據;
13、定義數據流的輸出,用于輸出處理結果;
14、根據數據量和計算需求,配置并行度和容錯機制;
15、將配置好的應用程序部署到即時計算引擎集群中,經過審批后啟動運行;
16、實時監控計算應用程序的性能和狀態,根據數據延遲、吞吐量和資源利用率對計算應用程序進行優化。
17、優選的,所述方法還包括:
18、通過增量式迭代或非增量式迭代,對初始模型進行迭代優化;
19、通過a/b測試方法評估迭代優化前后不同版本的模型的性能。
20、優選的,所述增量式迭代流程包括:
21、通過調整超參數、改進特征工程和優化模型結構,對初始模型進行優化;
22、所述非增量式迭代流程包括:
23、基于模型選擇、特征選擇和模型架構設計,對初始模型進行重構。
24、優選的,所述通過a/b測試方法評估迭代優化前后不同版本的模型的性能,包括:
25、根據增量式迭代或非增量式迭代的優化目標,配置模型流量重放功能和/或模型實時跟跑功能;
26、設置a組和b組,a組使用當前線上模型,b組使用新的迭代模型;
27、對于流量重放功能,預先配置重訓練后的模型調用地址,并關聯線上模型并預覽相應的模型參數;配置重放起始時間和終止時間節點,并確定相應的特征和模型評價指標;
28、對于實時跟跑功能,選擇線上實時調用的模型并點擊跟跑按鈕,配置跟跑模型的調用地址和流量分配規則;
29、在a/b測試期間,收集a組和b組的指標數據;
30、對收集到的數據進行評估,根據評估結果,判斷是否將新的迭代模型發布到線上。
31、第二方面,本專利技術實施例提供一種模型生命周期中的數字化特征衍生系統,包括:
32、時序特征生產模塊,用于持續將增量數據添加到序列頭部,并剔除時序尾部的數據;通過預設的特征統計算子對時間序列數據進行特征統計;
33、即時計算引擎模塊,用于通過預設的即時計算引擎接收數據供給側的數據輸入,基于元數據配置和場景規則配置對輸入數據進行實時處理,輸出實時的特征數據。
34、優選的,所述系統還包括:
35、增量迭代模塊,用于通過增量式迭代或非增量式迭代,對初始模型進行迭代優化;
36、a/b測試模塊,用于通過a/b測試方法評估迭代優化前后不同版本的模型的性能。
37、第三方面,本專利技術還提供了一種電子設備,包括存儲器和處理器,其中,
38、所述存儲器,用于存儲程序;
39、所述處理器,與所述存儲器耦合,用于執行所述存儲器中存儲的所述程序,以實現如本專利技術第一方面實施例所述的模型生命周期中的數字化特征衍生方法中的步驟。
40、第四方面,本專利技術還提供了一種計算機可讀存儲介質,用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執行時能夠實現如本專利技術第一方面實施例所述的模型生命周期中的數字化特征衍生方法中的步驟。
41、本專利技術提供的模型生命周期中的數字化特征衍生方法及系統,與現有技術相比,具有如下有益效果:
42、1)本專利技術通過時間序列增量更新的方式,顯著減少了重復的數據處理和計算,降低了資源消耗,提高了特征數據的生產速度。
43、2)通過良好的特征數據生產規范與合理的特征生產模式設計以及可視化的配置,解決特征生產面臨的高存儲資源消耗與高計算資源消耗問題,降低算法特征生產的大數據成本。
44、3)通過優化特征數據的質量,提升了線上模型的效果。通過健全的模型評估體系使得模型效果能夠得到實時跟蹤和準確評估,進一步提升了模型性能。
本文檔來自技高網...【技術保護點】
1.一種模型生命周期中的數字化特征衍生方法,其特征在于,包括:
2.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述獲取時間序列數據,通過預設的特征統計算子對時間序列數據進行特征統計,包括:
3.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述即時計算引擎的操作流程包括:
4.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述方法還包括:
5.根據權利要求4所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述增量式迭代流程包括:
6.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述通過A/B測試方法評估迭代優化前后不同版本的模型的性能,包括:
7.一種用于權利要求1-6任一項所述模型生命周期中的數字化特征衍生方法的模型生命周期中的數字化特征衍生系統,包括:
8.根據權利要求7所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述系統還包括:
9.一種電子設備,
10.一種
...【技術特征摘要】
1.一種模型生命周期中的數字化特征衍生方法,其特征在于,包括:
2.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述獲取時間序列數據,通過預設的特征統計算子對時間序列數據進行特征統計,包括:
3.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述即時計算引擎的操作流程包括:
4.根據權利要求1所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述方法還包括:
5.根據權利要求4所述的模型生命周期中的數字化特征衍生方法,其特征在于,所述增量式迭代流程包括:
6.根據權利要求1...
【專利技術屬性】
技術研發人員:張楓,林凱,
申請(專利權)人:蘇銀凱基消費金融有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。