一種基于Spark平臺的多源數據同步方法、裝置及系統制造方法及圖紙

技術編號：33375004 閱讀：26 留言：0更新日期：2022-05-11 22:42

本發明專利技術提供了一種基于Spark平臺的多源數據同步方法、裝置及系統，涉及數據同步技術領域。本發明專利技術所述的基于Spark平臺的多源數據同步方法，包括：基于Spark框架封裝多種數據源接口，構建通用同步工具類jar包；根據同步工具參數要求配置同步參數生成JSON參數文件，根據所述JSON參數文件創建同步任務；通過調用所述通用同步工具類jar包觸發所述同步任務執行，獲取與所述同步任務對應的執行日志信息，根據所述執行日志信息判斷是否同步成功。本發明專利技術所述的技術方案，通過封裝多種數據源接口并采用同步參數配置化方法來簡化數據同步任務，有效提高了多源數據同步執行效率，且涵蓋了Spark平臺下所有支持數據源的接入和輸出方式，使得跨數據源整合處理變得高效便捷。數據源整合處理變得高效便捷。數據源整合處理變得高效便捷。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于Spark平臺的多源數據同步方法、裝置及系統

[0001]本專利技術涉及數據同步
，具體而言，涉及一種基于Spark平臺的多源數據同步方法、裝置及系統。

技術介紹

[0002]Spark是一個優秀的分布式數據處理工具，可以利用Spark提供的豐富的API對數據進行加工處理，但每個API讀取都需要進行代碼編寫，整套邏輯的開發是個不小的工程，需要一定的Spark基礎以及使用經驗才能開發出穩定高效的Spark代碼。除此之外，項目的編譯、打包、部署以及測試都比較繁瑣，會帶來不少得時間成本和學習成本，最終會影響Spark在多源數據同步的效率。

技術實現思路

[0003]本專利技術解決的問題是如何提高Spark在多源數據同步的效率。
[0004]為解決上述問題，本專利技術提供一種基于Spark平臺的多源數據同步方法，包括：基于Spark框架封裝多種數據源接口，構建通用同步工具類jar包；根據同步工具參數要求配置同步參數生成JSON參數文件，根據所述JSON參數文件創建同步任務；通過調用所述通用同步工具類jar包觸發所述同步任務執行，獲取與所述同步任務對應的執行日志信息，根據所述執行日志信息判斷是否同步成功。
[0005]本專利技術所述的基于Spark平臺的多源數據同步方法，通過封裝多種數據源接口并采用同步參數配置化方法來簡化數據同步任務，有效提高了多源數據同步執行效率，且涵蓋了Spark平臺下所有支持數據源的接入和輸出方式，并支持所有基于Spark平臺下的數據處理和加工操作，在資源允...

【技術保護點】

【技術特征摘要】
1.一種基于Spark平臺的多源數據同步方法，其特征在于，包括：基于Spark框架封裝多種數據源接口，構建通用同步工具類jar包；根據同步工具參數要求配置同步參數生成JSON參數文件，根據所述JSON參數文件創建同步任務；通過調用所述通用同步工具類jar包觸發所述同步任務執行，獲取與所述同步任務對應的執行日志信息，根據所述執行日志信息判斷是否同步成功。2.根據權利要求1所述的基于Spark平臺的多源數據同步方法，其特征在于，所述數據源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口。3.根據權利要求1所述的基于Spark平臺的多源數據同步方法，其特征在于，所述根據同步工具參數要求配置同步參數生成JSON參數文件包括：配置Spark運行參數、輸入端Source參數、數據處理Fliter參數和結果輸出Target參數，并生成對應的JSON參數文件。4.根據權利要求1所述的基于Spark平臺的多源數據同步方法，其特征在于，所述根據所述JSON參數文件創建同步任務包括：根據所述同步任務生成對應的同步任務信息，根據所述同步任務信息創建同步作業。5.根據權利要求4所述的基于Spark平臺的多源數據同步方法，其特征在于，所述根據所述JSON參數文件創建同步任務還包括：為所述同步任務配置調度時間和執行頻率，以使所述同步任務按照設定時間執行。6.根據權利要求1所述的基于Spark...

【專利技術屬性】
技術研發人員：楊連群，張研，
申請(專利權)人：安徽航天信息有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術