System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數字治理領域,特別涉及一種數據入湖方法、裝置、計算機設備及存儲介質。
技術介紹
1、隨著信息技術的發展,數字化進程加快。數字化通常需要數據湖。數據湖作為一種集中式存儲庫,負責結構化原始數據、非結構化原始數據的匯聚。如何使原始數據高效入湖是能否更好地提供數據服務的關鍵。
2、目前,通常采用的是物理入湖技術及虛擬入湖技術。物理入湖是指通過etl(extract-transform-load,抽取-轉換-加載)工具、restful?api(applicationprogramming?interface,應用程序編程接口)接口調用或推送等方式將數據源的數據抽取出來,經轉換后加載到數據湖。虛擬入湖指在數據湖建立虛擬化表/視圖,以建立從數據源到數據湖的虛擬映射,提供數據服務時,通過虛擬映射從數據源直接訪問數據。
3、上述技術方案都需通過網絡加載或訪問數據源中的數據,因此,受數據量、網絡時延與帶寬等因素影響,數據入湖或數據服務的時延不可控。此外,物理入湖中,數據經入湖后才能訪問,故無法實時提供最新數據的數據服務。
技術實現思路
1、本申請實施例提供了一種數據入湖方法、裝置、計算機設備及存儲介質,能夠實現向用戶提供的數據服務的時延可控的效果。所述技術方案如下:
2、一方面,提供了一種數據入湖方法,該方法包括:獲取多個數據源的系統元數據,該系統元數據用于指示數據源中的數據的存儲地址;基于該系統元數據,創建數據映射表,該數據映射表用于指示數據的虛擬訪問地
3、本申請實施例提供一種數據入湖方法,該數據入湖方法能夠實現向用戶提供的數據服務的時延可控的目的。在數據入湖過程中,首先獲取多個數據源的系統元數據,基于系統元數據創建數據映射表,基于系統元數據進行數據預取,將預取到的第一數據存入數據管理系統的數據湖中;響應于對第二數據的虛擬訪問地址的訪問請求,基于數據映射表,從該第二數據所在的數據源獲取該訪問請求對應的第二數據,將該第二數據存入數據湖中,使向用戶提供的數據服務的時延可控。
4、在一些實施例中,該方法還包括:對多個數據源對應的適配器進行注冊,該適配器用于接收來自對應數據源的數據包,對接收到的數據包進行編解碼;關聯多個數據源及對應的適配器,得到數據源的系統元數據。
5、通過注冊適配器,實現異構數據源統一接入,可以支持各種不同協議的對接、不同數據類型的異構數據源系統的裝入,滿足結構化數據、非結構化數據、半結構化數據等各種數據類型、各種數據庫、文件存儲、對象存儲等不同存儲方式的接入,具有良好的可擴展性。
6、在一些實施例中,該得到數據源的系統元數據包括:由數據源對應的適配器接收來自對應數據源的數據包,對接收到的數據包進行編解碼,得到該數據源的系統元數據,將該數據源的系統元數據存儲至數據管理系統的存儲子系統中。
7、在一些實施例中,該基于系統元數據,創建數據映射表包括:基于系統元數據,創建該系統元數據的虛擬鏡像;基于系統元數據的虛擬鏡像,生成數據映射表。
8、其中,數據映射表用于建立統一數據視圖,該統一數據視圖可對外屏蔽數據的實際存儲地址。
9、在一些實施例中,基于系統元數據進行數據預取,將預取到的第一數據存入數據管理系統的數據湖中包括:
10、基于后臺預取算法,創建多個拷貝任務;
11、基于該多個拷貝任務,通過虛擬鏡像,從多個數據源中預取第一數據,將該第一數據存入數據湖中,將數據映射表中的該第一數據的存儲地址更新為數據湖中的地址。
12、在一些實施例中,該響應于對第二數據的虛擬訪問地址的訪問請求,基于數據映射表,從第二數據所在的數據源獲取該訪問請求對應的該第二數據,將該第二數據存入數據湖中包括:
13、響應于對第二數據的虛擬訪問地址的訪問請求,查詢數據映射表中該第二數據的存儲地址;
14、若該第二數據的存儲地址為數據源中的地址,從該第二數據所在的數據源獲取該訪問請求對應的第二數據,將該第二數據存入數據湖中。
15、在一些實施例中,若該第二數據的存儲地址為數據湖中的地址,從數據湖獲取該訪問請求對應的第二數據。
16、另一方面,提供了一種計算機設備,該計算機設備包括處理器和存儲器,該存儲器用于存儲至少一段計算機程序,該至少一段計算機程序由處理器加載并執行以實現本申請實施例中的數據入湖方法所執行的操作。
17、另一方面,提供了一種計算機可讀存儲介質,該計算機可讀存儲介質中存儲有至少一段計算機程序,該至少一段計算機程序由處理器加載并執行以實現如本申請實施例中數據入湖方法所執行的操作。
18、另一方面,提供了一種計算機程序產品或計算機程序,該計算機程序產品或計算機程序包括計算機程序代碼,該計算機程序代碼存儲在計算機可讀存儲介質中,計算機設備的處理器從計算機可讀存儲介質讀取該計算機程序代碼,處理器執行該計算機程序代碼,使得該計算機設備執行上述第一方面或者第一方面的各種可選實現方式中提供的數據入湖方法。
本文檔來自技高網...【技術保護點】
1.一種數據入湖方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述得到所述數據源的系統元數據包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述系統元數據,創建數據映射表包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述系統元數據進行數據預取,將預取到的第一數據存入數據管理系統的數據湖中包括:
6.根據權利要求1所述的方法,其特征在于,所述響應于對第二數據的虛擬訪問地址的訪問請求,基于所述數據映射表,從所述第二數據所在的數據源獲取所述訪問請求對應的所述第二數據,將所述第二數據存入所述數據湖中包括:
7.根據權利要求6所述的方法,其特征在于,所述方法還包括:
8.一種數據入湖裝置,其特征在于,所述裝置包括:
9.一種計算機設備,其特征在于,所述計算機設備包括處理器和存儲器,所述存儲器用于存儲至少一段計算機程序,所述至少一段計算機程序由所述處理器加載并執行權利要求1至7任一項權利
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲至少一段計算機程序,所述至少一段計算機程序用于執行權利要求1至7任一項權利要求所述的方法。
11.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項權利要求所述的數據入湖方法。
...【技術特征摘要】
1.一種數據入湖方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求2所述的方法,其特征在于,所述得到所述數據源的系統元數據包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述系統元數據,創建數據映射表包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述系統元數據進行數據預取,將預取到的第一數據存入數據管理系統的數據湖中包括:
6.根據權利要求1所述的方法,其特征在于,所述響應于對第二數據的虛擬訪問地址的訪問請求,基于所述數據映射表,從所述第二數據所在的數據源獲取所述訪問請求對應的所述第二數據,將所述第二數據存入所述數據湖中...
【專利技術屬性】
技術研發人員:曾敬勇,王華,徐慧如,王巖,王云飛,丁尚君,韓建忠,劉建,馬季收,陳學,
申請(專利權)人:昆侖數智科技有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。