System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理領域,具體涉及一種大數據量場景下的數據遷移方法及裝置。
技術介紹
1、在當前的大數據時代,數據遷移已成為一個常見且關鍵的操作,尤其是在分布式搜索引擎和大規模數據處理系統中。然而,現有的數據遷移技術在面對大數據量場景時仍然存在諸多挑戰和限制。
2、首先,傳統的數據遷移方法通常采用一次性批量遷移的策略。這種方法在處理小規模數據時效果尚可,但在面對大數據量場景時往往會遇到性能瓶頸和系統資源耗盡的問題。大規模數據的一次性遷移可能導致系統負載過高,影響正常業務運行,甚至引發系統崩潰。
3、其次,現有的遷移技術往往缺乏對數據特性的深入理解和利用。在分布式搜索引擎中,不同索引和分片可能具有不同的訪問頻率和重要性。忽視這些特性可能導致遷移過程中的資源分配不合理,影響遷移效率和系統性能。
技術實現思路
1、針對現有技術中的問題,本申請提供一種大數據量場景下的數據遷移方法及裝置,能夠有效提高大數據量場景下的數據遷移效率和準確率。
2、為了解決上述問題中的至少一個,本申請提供以下技術方案:
3、第一方面,本申請提供一種大數據量場景下的數據遷移方法,包括:
4、確定目標數據在分布式搜索引擎中的待遷移索引及其分片設置,根據所述待遷移索引的大小和所述分片設置中的熱點分布確定對應的遷移任務數據量和遷移任務優先級,并根據所述遷移任務數據量和所述遷移任務優先級確定對應的遷移策略;
5、根據用戶發送的業務需求和用于存儲遷移數據的
6、根據所述遷移策略分批次讀取待遷移索引中的目標數據,并將所述目標數據寫入本地文件系統中的所述遷入目錄,將實時遷移速度和實時本地文件系統資源利用率輸入設定線性回歸模型,根據所述線性回歸模型輸出的實時調整參數動態更新所述每次遷移操作時讀取的數據量、所述每個存儲目錄的最大文件數以及所述遷入目錄,其中,所述線性回歸模型由歷史數據遷移數據訓練得到;
7、在寫入操作完成后啟動多線程對所述分布式搜索引擎中的對應數據進行刪除操作,等待所有線程完成刪除操作后繼續讀取下一批數據。
8、進一步地,所述確定目標數據在分布式搜索引擎中的待遷移索引及其分片設置,根據所述待遷移索引的大小和所述分片設置中的熱點分布確定對應的遷移任務數據量和遷移任務優先級,包括:
9、確定需要遷移的目標數據所在的分布式搜索引擎中的待遷移索引,其中,所述待遷移索引包含有至少一個分片,根據各所述分片的存儲位置和數據量大小確定該分片的分片設置;
10、根據各所述分片的存儲位置和數據量大小確定對應的熱點分布,根據所述待遷移索引的大小確定對應的遷移任務數據量,根據所述分片的熱點分布確定對應的遷移任務優先級。
11、進一步地,所述根據所述遷移任務數據量和所述遷移任務優先級確定對應的遷移策略,包括:
12、預先將遷移任務的數據量和優先級劃分為不同的級別并構建遷移策略矩陣,其中,所述遷移策略矩陣中的每一種遷移策略都包含有具體的遷移操作參數;
13、根據所述遷移任務數據量和所述遷移任務優先級在遷移策略矩陣中進行匹配查找,確定對應的遷移策略。
14、進一步地,所述根據用戶發送的業務需求和用于存儲遷移數據的本地文件系統的存儲性能確定每次遷移操作時讀取的數據量和每個存儲目錄的最大文件數,包括:
15、根據用戶發送的業務需求中的預期完成時間和用于存儲遷移數據的本地文件系統的可用存儲空間計算遷移操作時的遷移速度;
16、根據所述遷移速度中的最大值確定每次遷移操作時讀取的數據量和每個存儲目錄的最大文件數。
17、進一步地,所述根據所述數據量和所述最大文件數確定對應的遷入目錄,包括:
18、確定本地文件系統的目錄層級結構和存儲空間分布情況;
19、根據所述數據量和所述最大文件數確定一個擁有足夠可用空間且文件數量較少的目錄作為遷入目錄,并將遷移數據分散寫入到該目錄下的多個子目錄中。
20、進一步地,所述根據所述遷移策略分批次讀取待遷移索引中的目標數據,并將所述目標數據寫入本地文件系統中的所述遷入目錄,包括:
21、根據所述遷移策略采用多線程將待遷移索引中的目標數據進行分批次讀?。?/p>
22、根據所述目標數據所屬的類別或時間段創建不同的子目錄,并將所述目標數據分散寫入到所述遷入目錄不同的子目錄中。
23、進一步地,所述將實時遷移速度和實時本地文件系統資源利用率輸入設定線性回歸模型,根據所述線性回歸模型輸出的實時調整參數動態更新所述每次遷移操作時讀取的數據量、所述每個存儲目錄的最大文件數以及所述遷入目錄,其中,所述線性回歸模型由歷史數據遷移數據訓練得到,包括:
24、持續監控并收集實時遷移速度和本地文件系統資源利用率數據并輸入到預先訓練好的線性回歸模型中;
25、根據所述線性回歸模型輸出的數據讀取量調整比例、存儲目錄最大文件數的變化量以及遷入目錄的優先級調整動態更新所述每次遷移操作時讀取的數據量、所述每個存儲目錄的最大文件數以及所述遷入目錄。
26、第二方面,本申請提供一種大數據量場景下的數據遷移裝置,包括:
27、遷移策略確定模塊,用于確定目標數據在分布式搜索引擎中的待遷移索引及其分片設置,根據所述待遷移索引的大小和所述分片設置中的熱點分布確定對應的遷移任務數據量和遷移任務優先級,并根據所述遷移任務數據量和所述遷移任務優先級確定對應的遷移策略;
28、遷入目錄確定模塊,用于根據用戶發送的業務需求和用于存儲遷移數據的本地文件系統的存儲性能確定每次遷移操作時讀取的數據量和每個存儲目錄的最大文件數,并根據所述數據量和所述最大文件數確定對應的遷入目錄;
29、遷移參數更新模塊,用于根據所述遷移策略分批次讀取待遷移索引中的目標數據,并將所述目標數據寫入本地文件系統中的所述遷入目錄,將實時遷移速度和實時本地文件系統資源利用率輸入設定線性回歸模型,根據所述線性回歸模型輸出的實時調整參數動態更新所述每次遷移操作時讀取的數據量、所述每個存儲目錄的最大文件數以及所述遷入目錄,其中,所述線性回歸模型由歷史數據遷移數據訓練得到;
30、多線程刪除模塊,用于在寫入操作完成后啟動多線程對所述分布式搜索引擎中的對應數據進行刪除操作,等待所有線程完成刪除操作后繼續讀取下一批數據。
31、第三方面,本申請提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現所述的大數據量場景下的數據遷移方法的步驟。
32、第四方面,本申請提供一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現所述的大數據量場景下的數據遷移方法的步驟。本文檔來自技高網...
【技術保護點】
1.一種大數據量場景下的數據遷移方法,其特征在于,所述方法包括:
2.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述確定目標數據在分布式搜索引擎中的待遷移索引及其分片設置,根據所述待遷移索引的大小和所述分片設置中的熱點分布確定對應的遷移任務數據量和遷移任務優先級,包括:
3.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據所述遷移任務數據量和所述遷移任務優先級確定對應的遷移策略,包括:
4.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據用戶發送的業務需求和用于存儲遷移數據的本地文件系統的存儲性能確定每次遷移操作時讀取的數據量和每個存儲目錄的最大文件數,包括:
5.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據所述數據量和所述最大文件數確定對應的遷入目錄,包括:
6.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據所述遷移策略分批次讀取待遷移索引中的目標數據,并將所述目標數據寫入本地文件系統中的所述遷入目錄,包括
7.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述將實時遷移速度和實時本地文件系統資源利用率輸入設定線性回歸模型,根據所述線性回歸模型輸出的實時調整參數動態更新所述每次遷移操作時讀取的數據量、所述每個存儲目錄的最大文件數以及所述遷入目錄,其中,所述線性回歸模型由歷史數據遷移數據訓練得到,包括:
8.一種大數據量場景下的數據遷移裝置,其特征在于,所述裝置包括:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1至7任一項所述的大數據量場景下的數據遷移方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至7任一項所述的大數據量場景下的數據遷移方法的步驟。
...【技術特征摘要】
1.一種大數據量場景下的數據遷移方法,其特征在于,所述方法包括:
2.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述確定目標數據在分布式搜索引擎中的待遷移索引及其分片設置,根據所述待遷移索引的大小和所述分片設置中的熱點分布確定對應的遷移任務數據量和遷移任務優先級,包括:
3.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據所述遷移任務數據量和所述遷移任務優先級確定對應的遷移策略,包括:
4.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據用戶發送的業務需求和用于存儲遷移數據的本地文件系統的存儲性能確定每次遷移操作時讀取的數據量和每個存儲目錄的最大文件數,包括:
5.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,所述根據所述數據量和所述最大文件數確定對應的遷入目錄,包括:
6.根據權利要求1所述的大數據量場景下的數據遷移方法,其特征在于,...
【專利技術屬性】
技術研發人員:宋運兵,徐建,焦永利,
申請(專利權)人:富盛科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。