本發明專利技術提供了一種基于Spark平臺的多源數據同步方法、裝置及系統,涉及數據同步技術領域。本發明專利技術所述的基于Spark平臺的多源數據同步方法,包括:基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包;根據同步工具參數要求配置同步參數生成JSON參數文件,根據所述JSON參數文件創建同步任務;通過調用所述通用同步工具類jar包觸發所述同步任務執行,獲取與所述同步任務對應的執行日志信息,根據所述執行日志信息判斷是否同步成功。本發明專利技術所述的技術方案,通過封裝多種數據源接口并采用同步參數配置化方法來簡化數據同步任務,有效提高了多源數據同步執行效率,且涵蓋了Spark平臺下所有支持數據源的接入和輸出方式,使得跨數據源整合處理變得高效便捷。數據源整合處理變得高效便捷。數據源整合處理變得高效便捷。
【技術實現步驟摘要】
一種基于Spark平臺的多源數據同步方法、裝置及系統
[0001]本專利技術涉及數據同步
,具體而言,涉及一種基于Spark平臺的多源數據同步方法、裝置及系統。
技術介紹
[0002]Spark是一個優秀的分布式數據處理工具,可以利用Spark提供的豐富的API對數據進行加工處理,但每個API讀取都需要進行代碼編寫,整套邏輯的開發是個不小的工程,需要一定的Spark基礎以及使用經驗才能開發出穩定高效的Spark代碼。除此之外,項目的編譯、打包、部署以及測試都比較繁瑣,會帶來不少得時間成本和學習成本,最終會影響Spark在多源數據同步的效率。
技術實現思路
[0003]本專利技術解決的問題是如何提高Spark在多源數據同步的效率。
[0004]為解決上述問題,本專利技術提供一種基于Spark平臺的多源數據同步方法,包括:基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包;根據同步工具參數要求配置同步參數生成JSON參數文件,根據所述JSON參數文件創建同步任務;通過調用所述通用同步工具類jar包觸發所述同步任務執行,獲取與所述同步任務對應的執行日志信息,根據所述執行日志信息判斷是否同步成功。
[0005]本專利技術所述的基于Spark平臺的多源數據同步方法,通過封裝多種數據源接口并采用同步參數配置化方法來簡化數據同步任務,有效提高了多源數據同步執行效率,且涵蓋了Spark平臺下所有支持數據源的接入和輸出方式,并支持所有基于Spark平臺下的數據處理和加工操作,在資源允許的情況下可以支持一個或N多個源端同步至一個或N多個目標端,使得跨數據源整合處理變得高效便捷。
[0006]可選地,所述數據源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口。
[0007]本專利技術所述的基于Spark平臺的多源數據同步方法,通過設置多種數據源接口,有利于實現Spark平臺下的多源數據整合。
[0008]可選地,所述根據同步工具參數要求配置同步參數生成JSON參數文件包括:配置Spark運行參數、輸入端Source參數、數據處理Fliter參數和結果輸出Target參數,并生成對應的JSON參數文件。
[0009]本專利技術所述的基于Spark平臺的多源數據同步方法,通過設置同步參數配置項,從而能夠創建同步任務。
[0010]可選地,所述根據所述JSON參數文件創建同步任務包括:根據所述同步任務生成對應的同步任務信息,根據所述同步任務信息創建同步作業。
[0011]本專利技術所述的基于Spark平臺的多源數據同步方法,根據同步任務生成的同步任務信息創建同步作業,從而可以實現同步任務的順利執行。
[0012]可選地,所述根據所述JSON參數文件創建同步任務還包括:為所述同步任務配置調度時間和執行頻率,以使所述同步任務按照設定時間執行。
[0013]本專利技術所述的基于Spark平臺的多源數據同步方法,通過為同步任務配置調度時間和執行頻率,使得同步任務安排制定的時間進行執行。
[0014]可選地,所述通過調用所述通用同步工具類jar包觸發所述同步任務執行包括:將多源數據統一整合到Spark平臺下,并在所述Spark平臺上進行數據清洗、數據表JOIN以及數據分析。
[0015]本專利技術所述的基于Spark平臺的多源數據同步方法,通過執行同步任務將多源數據統一整合到Spark平臺下,實現了Spark平臺下的多源數據整合。
[0016]可選地,所述根據所述執行日志信息判斷是否同步成功包括:若所述執行日志信息被保存,則判斷同步成功,若出現錯誤提示,則進行異常結果告警。
[0017]本專利技術所述的基于Spark平臺的多源數據同步方法,根據執行日志信息判斷同步成功或進行異常結果告警,實現了多源數據同步檢查。
[0018]本專利技術還提供一種基于Spark平臺的多源數據同步裝置,包括:封裝模塊,用于基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包;創建模塊,用于根據同步工具參數要求配置同步參數生成JSON參數文件,根據所述JSON參數文件創建同步任務;同步模塊,用于通過調用所述通用同步工具類jar包觸發所述同步任務執行,獲取與所述同步任務對應的執行日志信息,根據所述執行日志信息判斷是否同步成功。所述基于Spark平臺的多源數據同步裝置與上述基于Spark平臺的多源數據同步方法相對于現有技術所具有的優勢相同,在此不再贅述。
[0019]本專利技術還提供一種基于Spark平臺的多源數據同步系統,包括存儲有計算機程序的計算機可讀存儲介質和處理器,所述計算機程序被所述處理器讀取并運行時,實現如上基于Spark平臺的多源數據同步方法。所述基于Spark平臺的多源數據同步系統與上述基于Spark平臺的多源數據同步方法相對于現有技術所具有的優勢相同,在此不再贅述。
[0020]本專利技術還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器讀取并運行時,實現如上基于Spark平臺的多源數據同步方法。所述計算機可讀存儲介質上述基于Spark平臺的多源數據同步方法相對于現有技術所具有的優勢相同,在此不再贅述。
附圖說明
[0021]圖1為本專利技術實施例的基于Spark平臺的多源數據同步方法的流程示意圖。
具體實施方式
[0022]為使本專利技術的上述目的、特征和優點能夠更為明顯易懂,下面結合附圖對本專利技術的具體實施例做詳細的說明。
[0023]如圖1所示,本專利技術實施例提供一種基于Spark平臺的多源數據同步方法,包括:基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包;根據同步工具參數要求配置同步參數生成JSON參數文件,根據所述JSON參數文件創建同步任務;通過調用所述通用同步工具類jar包觸發所述同步任務執行,獲取與所述同步任務對應的執行日志信息,根據
所述執行日志信息判斷是否同步成功。
[0024]具體地,在本實施例中,基于Spark平臺的多源數據同步方法,包括:基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包,為了提高Spark在多源數據整合處理的執行效率和降低Spark同步任務的復雜度,需要對Spark各種API及插件進行整合優化,將Spark同步模塊進行代碼封裝,形成通用同步工具包,集成到統一數據同步系統;通過配置同步任務信息,形成JSON參數文件,系統會根據參數文件自動創建同步任務,設置相應的調度時間,系統后臺按時通過調用通用工具類jar包來觸發同步任務的執行,將多源數據統一整合到Spark平臺下,然后在Spark平臺上進行數據的清洗,數據表的JOIN以及數據分析等操作,最后將相應的處理結果寫入到目標端。由于無需編寫Spark代碼,直接通過頁面簡單的參數配置即可完成不同數據源間的同步和邏輯處理任務,大大提高工作效率,并支持同步任務的執行調度及詳細日志監控功能。
[0025]其中,系統一般按照數據源本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于Spark平臺的多源數據同步方法,其特征在于,包括:基于Spark框架封裝多種數據源接口,構建通用同步工具類jar包;根據同步工具參數要求配置同步參數生成JSON參數文件,根據所述JSON參數文件創建同步任務;通過調用所述通用同步工具類jar包觸發所述同步任務執行,獲取與所述同步任務對應的執行日志信息,根據所述執行日志信息判斷是否同步成功。2.根據權利要求1所述的基于Spark平臺的多源數據同步方法,其特征在于,所述數據源接口包括JDBC接口、Hive接口、ElasticSearch接口以及kafka接口。3.根據權利要求1所述的基于Spark平臺的多源數據同步方法,其特征在于,所述根據同步工具參數要求配置同步參數生成JSON參數文件包括:配置Spark運行參數、輸入端Source參數、數據處理Fliter參數和結果輸出Target參數,并生成對應的JSON參數文件。4.根據權利要求1所述的基于Spark平臺的多源數據同步方法,其特征在于,所述根據所述JSON參數文件創建同步任務包括:根據所述同步任務生成對應的同步任務信息,根據所述同步任務信息創建同步作業。5.根據權利要求4所述的基于Spark平臺的多源數據同步方法,其特征在于,所述根據所述JSON參數文件創建同步任務還包括:為所述同步任務配置調度時間和執行頻率,以使所述同步任務按照設定時間執行。6.根據權利要求1所述的基于Spark...
【專利技術屬性】
技術研發人員:楊連群,張研,
申請(專利權)人:安徽航天信息有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。