一種基于分布式異步架構的數據轉存方法技術

技術編號：44507991 閱讀：2 留言：0更新日期：2025-03-07 13:05

本發明專利技術公開了一種基于分布式異步架構的數據轉存方法，一種基于分布式異步架構的數據轉存方法，包括如下步驟：S1：建立多個計算機節點；S2：在源節點向目標節點轉存時，使用機器學習模型監控數據一致性，檢測異常模式和潛在的數據錯誤；S3：將需要轉存的數據分片，并在源節點中創建副本，啟動異步復制過程，將數據從源節點復制到目標節點中；S4：在數據轉存完成后，對目標節點中的數據進行校驗，再次確保數據的完整性和一致性。本發明專利技術通過異步通信和監控系統，提高了數據轉存的效率和可靠性，并通過機器學習模型監控數據一致性，增強了數據轉存過程中的異常檢測和錯誤糾正能力，確保數據的完整性和一致性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據轉存領域，尤其涉及一種基于分布式異步架構的數據轉存方法。

技術介紹

1、在大規模分布式系統中，數據的轉存是一個關鍵且復雜的任務。現有技術在數據轉存方面存在以下問題；

2、傳統的數據轉存方法通常依賴于同步通信，這限制了數據處理的速度和效率，特別是在網絡延遲高或帶寬有限的環境中。同步通信還可能導致源節點和目標節點之間的資源競爭，影響系統的整體性能，且在數據轉存過程中缺乏有效的數據一致性監控機制。這可能導致數據在轉存過程中出現不一致性，增加數據錯誤和異常的風險，從而影響數據的完整性和可靠性，另外現有的數據分片和搬運工具往往效率不高，特別是在處理大規模數據時。這些工具可能無法適應不同節點的負載能力，導致數據轉存過程中的延遲和瓶頸。

技術實現思路

1、本專利技術目的在于提供一種基于分布式異步架構的數據轉存方法，以解決上述問題。

2、本專利技術通過下述技術方案實現：

3、一種基于分布式異步架構的數據轉存方法，包括如下步驟：

4、s1：建立多個計算機節點，每個節點之間通過網絡進行異步通信，明確源節點和每個節點之間的配置和接口，設置監控系統以跟蹤數據轉存的進度和性能；

5、s2：在源節點向目標節點轉存時，使用機器學習模型監控數據一致性，檢測異常模式和潛在的數據錯誤；

6、s3：將需要轉存的數據分片，并在源節點中創建副本，啟動異步復制過程，將數據從源節點復制到目標節點中，配置消息隊列異步處理轉存任務，在數據復制

7、s4：在數據轉存完成后，對目標節點中的數據進行校驗，再次確保數據的完整性和一致性，數據校驗通過后，源節點向目標節點發送確認消息，完成轉存流程。

8、本專利技術通過異步通信和監控系統，提高了數據轉存的效率和可靠性，并通過機器學習模型監控數據一致性，增強了數據轉存過程中的異常檢測和錯誤糾正能力，確保數據的完整性和一致性。

9、優選的，在s2中，具體包括如下步驟：

10、s2.1：建立自動編碼器模型；

11、自動編碼器包括編碼器和解碼器，其中所述的編碼器用于將輸入數據壓縮成低維表示，解碼器用于從低維表示重建原始數據；

12、s2.2：參數設置；

13、輸入層：根據數據的特征數量確定輸入層的維度；

14、隱藏層：設置為16、8、8、16的層次結構；

15、激活函數：在編碼器中使用tanh函數，在解碼器找那個使用relu函數；

16、優化器：使用adam優化器，自適應調整學習率；

17、損失函數：使用均方誤差函數；

18、s2.3：模型訓練；

19、使用adam優化器，自適應調整學習率，并進行多次迭代；

20、s2.4：異常檢測，對于新數據，使用訓練好的模型進行重構，并計算重構誤差，如果重構誤差超過設定的閾值，則認為數據可能存在異常。

21、本專利技術通過建立自動編碼器模型，實現了對數據一致性的高級監控，提高了數據轉存過程中的異常檢測能力，其中參數設置的優化使得模型能夠更好地適應不同的數據特征，提高了模型的泛化能力和檢測準確性。

22、優選的，在s2.3中，其中每次迭代執行以下步驟：

23、s2.3.1：使用dataloader批量加載數據；

24、s2.3.2：將輸入數據通過自動編碼器進行前向傳播，得到重構輸出；

25、s2.3.3：使用mse損失函數計算重構輸出與原始輸入之間的差異；

26、s2.3.4：根據損失函數計算梯度，并進行反向傳播；

27、s2.3.5：根據梯度更新模型的權重。

28、本專利技術通過詳細的模型訓練步驟，確保了模型能夠通過多次迭代學習到更準確的數據表示，提高了異常檢測的準確性，每次迭代的詳細步驟確保了模型訓練的系統性和有效性，使得模型能夠更好地適應新數據，提高了數據轉存的安全性。

29、優選的，tanh函數的表達式為：

30、

31、其中為輸入值，為預處理后的數據特征值；

32、是自然對數的底數，是一個數學常數；

33、tanh函數的輸出值域為（-1,?1）。

34、本專利技術提供了tanh函數的具體表達式，使得模型能夠在數據壓縮和重建過程中保持數據的非線性特性，提高了數據重構的準確性。

35、優選的，relu函數的表達式為：

36、

37、其中為輸入值，為預處理后的數據特征值；

38、relu函數的輸出值是非負的，如果輸入值x為負，則輸出為0；如果x為正，則輸出為x本身。

39、本專利技術提供了relu函數的具體表達式，使得模型在處理非負數據時更加高效，同時保持了數據的非線性特性，有助于提高模型的表達能力。

40、優選的，mse損失函數的表達式為：

41、

42、其中，表示模型的前向傳播過程；

43、表示編碼器和解碼器中的權重和偏置；

44、是轉存數據的數量；

45、是第個數據的原始輸入值；

46、是第個數據重構值，即模型的輸出；

47、是第個樣本的原始輸入值與預測值之間的差的平方；

48、通過最小化這個mse損失函數，自編碼器模型學習到如何調整其參數，以便使得預測值盡可能地接近實際值，從而提高數據重構的準確性。

49、本專利技術提供了mse損失函數的具體表達式，使得模型訓練過程中能夠明確目標，即最小化預測值與實際值之間的差異，提高了數據重構的準確性。

50、優選的，在輸入層中，原始數據輸入到自動編碼器之前，需要提取或構造特征，其具體包括如下：

51、對于統計屬性的數據，提取其平均值、中位數、最大值、最小值、標準差等作為特征輸入到自動編碼器中；

52、對于具有業務含義的數據，提取時間戳、數據版本號、校驗和等作為特征輸入到自動編碼器中；

53、本專利技術通過提取或構造特征，使得模型能夠更好地理解和處理不同類型的數據，提高了數據轉存過程中的異常檢測和錯誤糾正能力。

54、優選的，在s3中，其具體包括如下步驟：

55、s3.1：通過哈希函數將數據劃分為多個小塊，得到分片數據，并在多個目標節點存儲設備上存儲；

56、s3.2：在多個目標節點上保存數據分片的副本；

57、s3.3：設置一個主節點負責接收客戶端請求，并將數據同步到多個備節點上，當主節點宕機時，備節點接替主節點，保證系統可用，其具體步驟流程為：

58、s3.3.1：當客戶端發送請求時，請求首先發送到主節點；

59、s3.3.2：主節點本文檔來自技高網...

【技術保護點】

1.一種基于分布式異步架構的數據轉存方法，其特征在于：包括如下步驟：

2.根據權利要求1所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在S2中，具體包括如下步驟：

3.根據權利要求2所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在S2.3中，其中每次迭代執行以下步驟：

4.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：tanh函數的表達式為：

5.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：relu函數的表達式為：

6.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：MSE損失函數的表達式為：

7.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在輸入層中，原始數據輸入到自動編碼器之前，需要提取或構造特征，其具體包括如下：

8.根據權利要求1所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在S3中，其具體包括如下步驟：

9.根據權利要求8所述的一種基于分布式異步架構

10.根據權利要求9所述的一種基于分布式異步架構的數據轉存方法，其特征在于：哈希函數具體包括如下：

...

【技術特征摘要】

1.一種基于分布式異步架構的數據轉存方法，其特征在于：包括如下步驟：

2.根據權利要求1所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在s2中，具體包括如下步驟：

3.根據權利要求2所述的一種基于分布式異步架構的數據轉存方法，其特征在于：在s2.3中，其中每次迭代執行以下步驟：

4.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：tanh函數的表達式為：

5.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：relu函數的表達式為：

6.根據權利要求3所述的一種基于分布式異步架構的數據轉存方法，其特征在于：mse損失函數的表...

【專利技術屬性】
技術研發人員：余宇宏，鄒小波，馮伯成，閆力，
申請(專利權)人：成都中微達信科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術