一種基于信息熵測度的數(shù)據(jù)價值評估方法及系統(tǒng)技術(shù)方案

技術(shù)編號：43343781 閱讀：22 留言：0更新日期：2024-11-15 20:40

本發(fā)明專利技術(shù)提供了一種基于信息熵測度的數(shù)據(jù)價值評估方法即系統(tǒng)，方法包括獲取待評估的數(shù)據(jù)集，對各數(shù)據(jù)集建立概率模型，根據(jù)所確定的模型復雜度和數(shù)據(jù)量的大小，選擇參數(shù)估計方法，使用估計得到的模型參數(shù)估計這些數(shù)據(jù)點發(fā)生的概率；對于各數(shù)據(jù)集，使用信息量函數(shù)計算數(shù)據(jù)集的信息熵；通過計算得到的信息熵，對整個數(shù)據(jù)集的平均信息量或不確定性進行價值評估，得到各數(shù)據(jù)集的價值。本發(fā)明專利技術(shù)的方法不直接依賴于數(shù)據(jù)的具體內(nèi)容，而是依賴于數(shù)據(jù)的整體分布和概率特性，因而能有效地解決數(shù)據(jù)復雜性高的問題，同時識別和過濾掉冗余信息。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)屬于是數(shù)據(jù)處理，尤其是涉及一種基于信息熵測度的數(shù)據(jù)價值評估方法及系統(tǒng)。

技術(shù)介紹

1、隨著信息技術(shù)的飛速發(fā)展，數(shù)據(jù)在各行各業(yè)的價值日益凸顯，成為了重要的資源。然而，如何準確評估數(shù)據(jù)的價值，特別是在數(shù)據(jù)被轉(zhuǎn)換或處理后的價值，依舊是該領域內(nèi)的挑戰(zhàn)。目前衡量數(shù)據(jù)價值的主流方向主要分為兩種：

2、一是將數(shù)據(jù)轉(zhuǎn)化為傳統(tǒng)生產(chǎn)要素。在數(shù)字經(jīng)濟的背景下，數(shù)據(jù)已經(jīng)成為與傳統(tǒng)生產(chǎn)要素并駕齊驅(qū)的關鍵資源，其價值和流通對經(jīng)濟增長與創(chuàng)新具有深遠影響。將數(shù)據(jù)視為生產(chǎn)要素突顯了其在創(chuàng)造新的經(jīng)濟價值、驅(qū)動業(yè)務模式創(chuàng)新以及促進社會進步中的核心作用。數(shù)據(jù)通過參與生產(chǎn)過程，與資本、勞動等要素共同創(chuàng)造價值。但在實際操作中，如何精確評估數(shù)據(jù)的價值仍然是一個挑戰(zhàn)?，F(xiàn)有的評估方法往往依賴于表面的數(shù)據(jù)分析，忽略了數(shù)據(jù)背后的潛在價值和復雜性。其次，數(shù)據(jù)的流通和價值實現(xiàn)受到技術(shù)、政策、法律等多重因素的限制，現(xiàn)有的框架和技術(shù)支持不足以應對這些挑戰(zhàn)，導致數(shù)據(jù)價值的有效釋放受阻。此外，數(shù)據(jù)安全和隱私保護的問題也是現(xiàn)有方法難以充分解決的重要方面，這些問題的存在嚴重影響了數(shù)據(jù)要素化后的價值評估。

3、二是將數(shù)據(jù)視作一種獨立的資產(chǎn)，強調(diào)其作為資源的價值和作為資產(chǎn)的潛能。在數(shù)字化時代背景下，數(shù)據(jù)的量級和價值均有了質(zhì)的飛躍，數(shù)據(jù)成為了可以量化、交易、流通的資產(chǎn)。數(shù)據(jù)資產(chǎn)的管理涵蓋了數(shù)據(jù)資源化和數(shù)據(jù)資產(chǎn)化兩個階段。數(shù)據(jù)資源化是評估數(shù)據(jù)價值的基礎，其側(cè)重于提升數(shù)據(jù)的質(zhì)量、確保數(shù)據(jù)安全，包括數(shù)據(jù)治理、數(shù)據(jù)模型管理、數(shù)據(jù)標準管理等多個方面。而數(shù)據(jù)資產(chǎn)化則是將數(shù)據(jù)資源轉(zhuǎn)化

4、上述兩種主流的數(shù)據(jù)價值評估方法在實踐中遇到了幾個主要的問題。首先，數(shù)據(jù)的復雜性極高，由于數(shù)據(jù)類型多樣、來源廣泛，并含有大量的冗余信息，這大大增加了評估工作的復雜度。其次，缺乏一個通用的評估標準。不同領域?qū)?shù)據(jù)價值的理解和評估標準各不相同，目前還沒有一個普遍被接受的評價體系。再者，數(shù)據(jù)價值的動態(tài)性與時效性也是一個挑戰(zhàn)，數(shù)據(jù)的價值會隨著時間、使用環(huán)境和目的的改變而變化，這要求評估方法能夠動態(tài)地適應這些變化。最后，現(xiàn)有的評估方法往往單一，多依賴于特定場景或數(shù)據(jù)類型，缺乏通用性和靈活性。因此，現(xiàn)階段亟需找到一種可以解決上述部分問題的數(shù)據(jù)價值評估方法。

技術(shù)實現(xiàn)思路

1、有鑒于此，本專利技術(shù)旨在克服現(xiàn)有技術(shù)中上述問題的不足之處，提出一種基于信息熵測度的數(shù)據(jù)價值評估方法及系統(tǒng)。

2、為達到上述目的，本專利技術(shù)的技術(shù)方案是這樣實現(xiàn)的：

3、本專利技術(shù)第一方面提管理一種基于信息熵測度的數(shù)據(jù)價值評估方法，包括如下步驟：

4、步驟1：獲取待評估的數(shù)據(jù)集，對各數(shù)據(jù)集建立概率模型，根據(jù)所確定的模型復雜度和數(shù)據(jù)量的大小，選擇參數(shù)估計方法，使用估計得到的模型參數(shù)估計這些數(shù)據(jù)點發(fā)生的概率；

5、步驟2：對于各數(shù)據(jù)集，使用信息量函數(shù)計算數(shù)據(jù)集的信息熵；

6、步驟3：通過計算得到的信息熵，對整個數(shù)據(jù)集的平均信息量或不確定性進行價值評估，得到各數(shù)據(jù)集的價值。

7、進一步的，所述步驟1中具體包括：

8、步驟1.1：對獲取的各數(shù)據(jù)集進行預處理，確保數(shù)據(jù)質(zhì)量，進而對各數(shù)據(jù)集類型進行識別，判斷數(shù)據(jù)集是連續(xù)數(shù)據(jù)集或離散數(shù)據(jù)集；

9、步驟1.2：分析預處理后的各數(shù)據(jù)集的數(shù)據(jù)類型和分布特征，根據(jù)以下特征選取概率模型：

10、對于離散數(shù)據(jù)集的處理方式，包括但不限于：

11、二項分布模型，用于每次觀測只有兩種可能結(jié)果的情況，其中每種結(jié)果的概率固定不變，具備固定總次數(shù)和已知單個結(jié)果概率的特性，其概率計算公式為

12、

13、p(x＝k)表示在n組數(shù)據(jù)中出現(xiàn)數(shù)據(jù)為k的概率，p是該事件的單次觀測概率；

14、泊松分布模型，用于特定時間間隔或空間范圍內(nèi)，事件發(fā)生次數(shù)獨立且具有固定平均生成率的條件，其概率計算公式為

15、

16、其中λp是數(shù)據(jù)的平均發(fā)生率，表明在單位時間或單位空間內(nèi)事件平均發(fā)生的頻率；

17、馬爾可夫模型，用于預測一系列數(shù)據(jù)中每個數(shù)據(jù)點的概率，且這些數(shù)據(jù)點的下一個狀態(tài)的概率僅依賴于其當前狀態(tài)，表現(xiàn)出無記憶性或馬爾可夫性質(zhì)，xt是在時間t的狀態(tài)，狀態(tài)空間s＝{s1，s2，s3，...，sm}，m是狀態(tài)的總數(shù)，其狀態(tài)轉(zhuǎn)移概率為

18、pij＝p(xt+1＝sj|xt＝si)(1≤i,j≤m)???????(3)；

19、對于連續(xù)數(shù)據(jù)集的處理方式，包括但不限于：

20、正態(tài)分布(高斯分布)模型，用于數(shù)據(jù)圍繞中心值對稱分布的特性，其概率函數(shù)為

21、

22、其中μ為均值，σ為標準差；

23、對數(shù)正態(tài)分布模型，用于所有數(shù)據(jù)點均為正數(shù)且分布明顯右偏的情況，當隨機變量的自然對數(shù)遵循正態(tài)分布，其概率函數(shù)為

24、

25、其中μ為均值，σ為標準差；

26、指數(shù)分布模型，用于在連續(xù)時間或空間上，事件隨機獨立發(fā)生，并且一個事件在未來某個時間段內(nèi)產(chǎn)生的概率與它到目前為止已經(jīng)等待或發(fā)生過的時間無關，其概率函數(shù)為

27、

28、其中λe是數(shù)據(jù)的平均發(fā)生率，表明事件之間的時間發(fā)生的頻率，即單位時間內(nèi)事件發(fā)生的平均次數(shù)；

29、伽馬分布模型，適用于分析和描述在固定時間段或空間區(qū)間內(nèi)發(fā)生的多個獨立且相似事件的總等待時間或累積量的條件，其概率函數(shù)為

30、

31、γ(α)＝(α-1)！??????(8)

32、其中α是分布的形狀參數(shù),β是影響分布寬度或擴散程度的尺度參數(shù)，γ(α)是伽馬函數(shù)；

33、步驟1.3：根據(jù)如下特征選擇參數(shù)估計方法：

34、對于離散數(shù)據(jù)的二項分布模型和泊松分布模型，采用最大似然估計法(mle)進行參數(shù)估計，二項分布模型的參數(shù)估計

35、

36、其中x是觀察到的數(shù)據(jù)出現(xiàn)的次數(shù)，n是數(shù)據(jù)總數(shù)；

37、泊松分布模型的參數(shù)估計

38、

39、其中xi表示每個單位內(nèi)數(shù)據(jù)生成的次數(shù)，n是數(shù)據(jù)的總數(shù)；

40、對于連續(xù)數(shù)據(jù)的正態(tài)分布模型，應用矩估計方法，基于樣本矩來估計分布參數(shù)，其中均值μ的估計為

41、

42、方差σ2的估計為

43、

44、其中xi是樣本數(shù)據(jù)點，n是樣本數(shù)據(jù)點本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：包括如下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟1中具體包括：

3.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟1.1中，預處理包括處理缺失值、異常值和噪聲數(shù)據(jù)。

4.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟2包括：

5.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟3包括：

6.一種基于信息熵測度的數(shù)據(jù)價值評估系統(tǒng)，其特征在于：包括

7.一種電子設備，包括處理器以及與處理器通信連接，且用于存儲所述處理器可執(zhí)行指令的存儲器，其特征在于：所述處理器用于執(zhí)行上述權(quán)利要求1-5任一所述的基于信息熵測度的數(shù)據(jù)價值評估方法。

8.一種計算機可讀取存儲介質(zhì)，存儲有計算機程序，其特征在于：所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-5任一項所述的基于信息熵測度的數(shù)據(jù)價值評估方法。

【技術(shù)特征摘要】

1.一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：包括如下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟1中具體包括：

4.根據(jù)權(quán)利要求1所述的一種基于信息熵測度的數(shù)據(jù)價值評估方法，其特征在于：所述步驟2包括：

5.根據(jù)權(quán)利要求1所述的一種基于信息熵測度...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：張濤，孫涵筱，趙鑫，耿彥章，楊明，劉煒杰，
申請(專利權(quán))人：天津大學，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術(shù)