一種基于分段解壓縮策略的流式無損浮點數壓縮方法技術

技術編號：44423701 閱讀：4 留言：0更新日期：2025-02-28 18:38

本發明專利技術公開了一種基于分段解壓縮策略的流式無損浮點數壓縮方法，涉及時間序列數據編碼技術領域，主要包括步驟：對于當前浮點數與其前值的異或結果中前導零部分，沿用Chimp算法中基于前導零行程編碼的優化方案；對于異或結果中的尾隨零部分，在第三標志位為0時復用已存儲的尾隨零數量，在第三標志位為1時獲取校正參數，并根據校正參數與十進制下指數偏置項之間的映射關系，將擦除操作下存儲的十進制精度值轉換為其十進制下小數點后面的有效數，獲取尾隨零數量；根據前導零數量和尾隨零數量，完成對浮點異或運算結果的讀取。本發明專利技術引入邊界處理的概念使得尾隨零行程編碼的存儲費用被小量的計算成本所取代，降低了浮點數據的壓縮存儲成本。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及時間序列數據編碼，具體涉及一種基于分段解壓縮策略的流式無損浮點數壓縮方法。

技術介紹

1、隨著傳感器技術和物聯網（iot）的快速發展，時間序列數據的應用場景和規模不斷擴大，導致該類數據的爆炸式增長。典型應用如衛星遙測、工業傳感器網絡、金融交易記錄等都會生成大量的時間序列數據。例如，spacex的星鏈衛星每顆衛星每天可以產生約1tb的遙測數據。如此龐大的浮點時間序列數據若以原始格式進行傳輸和存儲，將顯著增加網絡帶寬的占用和存儲資源的需求，進而降低系統的整體運行效率。因此，如何在數據傳輸和存儲之前對時間序列數據進行有效壓縮，是提升系統性能的關鍵問題。

2、目前，針對時間序列數據的壓縮方法可分為通用壓縮算法和特定場景優化的壓縮算法。通用壓縮算法如lz4和xz，雖然在多種數據類型上表現出良好的壓縮率，但它們未能充分利用時間序列數據的內在特征。尤其是這些算法通常以批處理模式運行，在處理大規模流式時間序列數據時，計算開銷高、處理時間長，導致其在流式場景中的應用受限。

3、針對流式浮點時間序列數據的壓縮，目前的算法可分為有損壓縮和無損壓縮兩類。有損壓縮算法在壓縮過程中通過舍棄部分數據精度來換取更高的壓縮率，但這種方法會導致數據的完整性受損，因此不適用于科學計算、數據管理、網絡傳輸等對數據精度和完整性要求較高的關鍵應用場景。無損壓縮算法能夠在不損失數據完整性的前提下進行壓縮，更適合科學計算和數據管理等場景。常見的無損壓縮算法如gorilla、chimp和elf/elf+，通常基于浮點數異或（xor）運算來減

4、綜上所述，現有的流式浮點時間序列數據壓縮方法在無損壓縮領域主要基于異或運算，并通過前導零和尾隨零的行程編碼來優化壓縮率。雖然這些算法在實際應用中展現了良好的性能，但其壓縮效率往往受限于特定數據分布的特征，難以全面適應各種復雜場景。因此，進一步優化和創新流式無損壓縮算法具有重要的技術和應用價值。

技術實現思路

1、基于現有的流式浮點時間序列數據壓縮方法在無損壓縮上存在的問題，本專利技術提出了一種基于分段解壓縮策略的流式無損浮點數壓縮方法，包括步驟：

2、s1：獲取當前浮點時間序列數據點與相鄰前一位數據點的異或運算結果；

3、s2：讀取運算結果的首個標志位，在該標志位為0時復用已存儲的前導零數量并直接進入s4步驟，在該標志位為1時進入s3步驟；

4、s3：繼續讀取第二個標志位，在該標志位為0時判定當前數據點與相鄰前一位數據點的值相同，返回s1步驟并獲取下一浮點時間序列數據，在該標志位為1時讀取接下來3個比特數據進行前導零數量的解析；

5、s4：繼續讀取第三個標志位，在該標志位為0時復用已存儲的尾隨零數量并直接進入s6步驟，在該標志位為1時進入s5步驟；

6、s5：根據前12個比特數據的解碼獲取校正參數，并根據校正參數與十進制下指數偏置項之間的映射關系，將擦除操作下存儲的十進制精度值轉換為其十進制下小數點后面的有效數，進行尾隨零數量的判定；

7、s6：根據獲取的前導零數量和尾隨零數量，完成對浮點異或運算結果的讀取。

8、進一步地，所述s2步驟中，已存儲的前導零數量指前一位數據點的前導零數量，所述s4步驟中，已存儲的尾隨零數量指前一位數據點的尾隨零數量。

9、進一步地，所述s3步驟中，在該標志位為1時，通過繼續讀取接下來3個比特數據，基于chimp前導零優化策略進行前導零數量的獲取。

10、進一步地，所述s5步驟中，基于浮點異或運算結果和相鄰前一數據點浮點時間序列數據點的前12個比特數據進行異或逆運算獲取校正參數，所述校正參數為二進制下的指數偏置項。

11、進一步地，所述二進制下的指數偏置項與十進制下指數偏置項之間的映射關系表示為如下公式：

12、

13、式中，為十進制下指數偏置項，為十進制下指數偏置項近似值，e為校正參數。

14、進一步地，當當前浮點時間序列數據點對應的十進制數值大于等于1時，為十進制表示中小數點左邊的有效數字數量，當當前浮點時間序列數據點對應的十進制數值小于1時，為十進制表示中小數點右邊到第一個有效數字的零數量的相反數。

15、進一步地，擦除操作下存儲的十進制精度值轉換為其十進制下小數點后面的有效數表示為如下公式：

16、

17、式中，為十進制下小數點后面的有效數，為十進制下小數點后面的有效數近似值，為當前浮點時間序列數據十進制表示下的精度值。

18、進一步地，尾隨零數量的判定表示為如下公式：

19、

20、式中，為尾隨零邊界下標位置近似值，將十進制數?轉換為二進制數時的尾隨零數量。

21、進一步地，當前浮點時間序列數據十進制表示下的精度值采用4比特位進行存儲。

22、與現有技術相比，本專利技術至少含有以下有益效果：

23、（1）本專利技術所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，基于擦除操作，引入邊界處理的概念使得尾隨零行程編碼的存儲費用被小量的計算成本所取代，降低了浮點數據的壓縮存儲成本；

24、（2）適用于流式時間序列數據的處理且處理后不會丟失任何信息，從而能夠用于實時科學計算分析的場景；

25、（3）在基于異或的差異編碼策略下，對變長存儲模式進行了優化，將傳統的尾隨零行程編碼替換為基于擦除操作的計算方法，動態確定尾隨零數量，從而在不增加算法時間復雜度的前提下，顯著提升了流式浮點時間序列數據的壓縮性能。

本文檔來自技高網...

【技術保護點】

1.一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，包括步驟：

2.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述S2步驟中，已存儲的前導零數量指前一位數據點的前導零數量，所述S4步驟中，已存儲的尾隨零數量指前一位數據點的尾隨零數量。

3.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述S3步驟中，在該標志位為1時，通過繼續讀取接下來3個比特數據，基于Chimp前導零優化策略進行前導零數量的獲取。

4.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述S5步驟中，基于浮點異或運算結果和相鄰前一數據點浮點時間序列數據點的前12個比特數據進行異或逆運算獲取校正參數，所述校正參數為二進制下的指數偏置項。

5.如權利要求4所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述二進制下的指數偏置項與十進制下指數偏置項之間的映射關系表示為如下公式：

6.如權利要求5所述的一種基于分段解壓縮策略的流式無損浮

7.如權利要求5所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，擦除操作下存儲的十進制精度值轉換為其十進制下小數點后面的有效數表示為如下公式：

8.如權利要求7所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，尾隨零數量的判定表示為如下公式：

9.如權利要求7所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，當前浮點時間序列數據十進制表示下的精度值采用4比特位進行存儲。

...

【技術特征摘要】

1.一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，包括步驟：

2.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述s2步驟中，已存儲的前導零數量指前一位數據點的前導零數量，所述s4步驟中，已存儲的尾隨零數量指前一位數據點的尾隨零數量。

3.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述s3步驟中，在該標志位為1時，通過繼續讀取接下來3個比特數據，基于chimp前導零優化策略進行前導零數量的獲取。

4.如權利要求1所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特征在于，所述s5步驟中，基于浮點異或運算結果和相鄰前一數據點浮點時間序列數據點的前12個比特數據進行異或逆運算獲取校正參數，所述校正參數為二進制下的指數偏置項。

5.如權利要求4所述的一種基于分段解壓縮策略的流式無損浮點數壓縮方法，其特...

【專利技術屬性】
技術研發人員：盧劉燁昕，龐超逸，于俊濤，趙環宇，黎彤亮，
申請(專利權)人：浙大寧波理工學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術