一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法技術(shù)

技術(shù)編號：44349945 閱讀：2 留言：0更新日期：2025-02-25 09:35

本公開提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法。包括步驟S1?S5：步驟S1，從數(shù)據(jù)流中提取樣本；步驟S2，生成訓(xùn)練數(shù)據(jù)；步驟S3，根據(jù)不同數(shù)據(jù)性質(zhì)估計問題，設(shè)計不同的可學習神經(jīng)網(wǎng)絡(luò)，解決數(shù)據(jù)性質(zhì)估計問題，步驟S4，將步驟S2中生成的隨機數(shù)據(jù)分布組輸入到步驟S3中，作為訓(xùn)練數(shù)據(jù)進行訓(xùn)練，通過S3中構(gòu)造的損失函數(shù)，作為訓(xùn)練的終止條件；步驟S5，將步驟S4中得到的最終模型，結(jié)合步驟S1中提取的數(shù)據(jù)信息特征，對數(shù)據(jù)性質(zhì)問題進行估計；通過神經(jīng)網(wǎng)絡(luò)進行估計后，得到的數(shù)據(jù)性質(zhì)估計，用于回答數(shù)據(jù)性質(zhì)估計問題。通過上述手段，本發(fā)明專利技術(shù)應(yīng)用在數(shù)據(jù)流環(huán)境下，并適應(yīng)不同的數(shù)據(jù)分布，單獨學習估計器，提升了估計數(shù)據(jù)性質(zhì)估計的效果。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本公開涉及數(shù)據(jù)庫領(lǐng)域，更具體地講，涉及一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法。

技術(shù)介紹

1、隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)規(guī)模急劇增長，數(shù)據(jù)通常以高速大量的形式出現(xiàn)，短時間內(nèi)返回對數(shù)據(jù)的一些性質(zhì)估計成為必要的需求。簡要的數(shù)據(jù)性質(zhì)能直觀地體現(xiàn)出數(shù)據(jù)的分布形態(tài)，可以適用的數(shù)據(jù)算法，也能探測出數(shù)據(jù)是否產(chǎn)生了異常，是否能滿足之前的數(shù)據(jù)假設(shè)。對于高速的連續(xù)數(shù)據(jù)，利用數(shù)據(jù)的連續(xù)性，構(gòu)建數(shù)據(jù)曲線擬合圖，能獲得具有一定規(guī)律的連續(xù)型數(shù)據(jù)，從而回答上述問題。但對于離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)也尤為重要，卻缺少普適性的算法對這些離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)進行分析。要返回離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)，通常計算需要完整的數(shù)據(jù)頻率字典。要得到數(shù)據(jù)流上的完整數(shù)據(jù)頻率，需要將訪問過的數(shù)據(jù)都進行保存合并，再計數(shù)。當數(shù)據(jù)元素各不相同時，保存所有數(shù)據(jù)難以滿足空間的需要，同時效率低下，難以滿足實時的需求。如何高效獲取離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)從而成為挑戰(zhàn)。

2、在數(shù)據(jù)庫中，估計離散分布的數(shù)據(jù)性質(zhì)是該領(lǐng)域的核心問題之一。離散分布的數(shù)據(jù)性質(zhì)包括數(shù)據(jù)的不同元素個數(shù)、數(shù)據(jù)的熵、數(shù)據(jù)的p階矩等等問題。并且離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)可以應(yīng)用于分析數(shù)據(jù)問題的各個方面，例如，優(yōu)化查詢效率、優(yōu)化壓縮算法等，該問題在流數(shù)據(jù)上的數(shù)據(jù)分析上尤為重要。通常不記錄所有元素，但仍可估計這些數(shù)據(jù)性質(zhì)的方法是采樣算法。通過對輸入的流數(shù)據(jù)進行均勻采樣，保留一部分的數(shù)據(jù)信息，從而對數(shù)據(jù)整體性質(zhì)進行估計。傳統(tǒng)的采樣估計性質(zhì)的方法會針對某項特定的數(shù)據(jù)性質(zhì)，并分析其固有的分布屬性，從而得到固定的采樣估計器，以應(yīng)對特定的數(shù)據(jù)性質(zhì)估

3、在數(shù)據(jù)流中，數(shù)據(jù)分布也并非一成不變的。由于數(shù)據(jù)分布會隨著時間變化推移，針對特定的數(shù)據(jù)分布所設(shè)計的固定估計器，并不能很好地應(yīng)對不同數(shù)據(jù)分布下的估計問題。面對數(shù)據(jù)分布的變化，比較合理的解決方案是利用機器學習的方法，針對不同數(shù)據(jù)分布，學習不同的估計器，并根據(jù)數(shù)據(jù)分布的變化，對估計器進行調(diào)整。

4、因此，設(shè)計一個統(tǒng)一地，可以根據(jù)數(shù)據(jù)變化，隨之變化的數(shù)據(jù)流下的采樣數(shù)據(jù)性質(zhì)估計器十分有必要。此外，利用機器學習方法，在固定的采樣率下，提升估計器的估計效果，也是設(shè)計估計器的重要部分。

技術(shù)實現(xiàn)思路

1、本公開的實施例的目的在于提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，本專利技術(shù)的主要研究目標是通過基于層次結(jié)構(gòu)的模型與程序分析技術(shù)的有機結(jié)合，實現(xiàn)對粒度為項目級別的代碼摘要文檔的自動生成。研究的具體對象為英文文檔，針對的編程語言為java。摘要文檔主要體現(xiàn)為簡短的自然語言摘要，不涉及復(fù)雜信息比如目錄結(jié)構(gòu)、使用說明等。并根據(jù)此模型以eclipse插件形式在eclipse?ide上設(shè)計和實現(xiàn)了開源代碼倉庫摘要自動生成工具。

2、在一個總的方面，提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，包括步驟s1-s5：

3、步驟s1，從數(shù)據(jù)流中提取樣本；該數(shù)據(jù)流場景限制為離散流數(shù)據(jù)，且數(shù)據(jù)量較大，無法在內(nèi)存中完全維護，但需要分析該數(shù)據(jù)的離散分布性質(zhì)。例如，分析日志數(shù)據(jù)是否異常，此時，日志數(shù)據(jù)不斷輸入，但難以在內(nèi)存中完全維護，僅能通過采樣的方式，計算日志數(shù)據(jù)分布是否改變。

4、步驟s2，生成訓(xùn)練數(shù)據(jù)；

5、具體步驟包括s2.1-s2.3：

6、s2.1從均勻分布u(0，b)中，采樣得到正整數(shù)r，n＝10r作為訓(xùn)練集的總體數(shù)；

7、s2.2從均勻分布u(0，b)中，采樣得到正整數(shù)s，設(shè)m＝10s；

8、s2.3設(shè)fi為總體中，出現(xiàn)i次數(shù)的元素個數(shù)，并設(shè)sfi＝∑ifi，在限制下，隨機抽取sfi，并反向計算出構(gòu)造數(shù)據(jù)總體的分布f＝{f1，f2，...，}，fi＝sfi-sfi+1；

9、批量重復(fù)s2.1-3，生成采樣的頻率數(shù)據(jù)，作為訓(xùn)練數(shù)據(jù)，輸入到下游模型中；

10、步驟s3，根據(jù)不同數(shù)據(jù)性質(zhì)估計問題，設(shè)計不同的可學習神經(jīng)網(wǎng)絡(luò)，解決數(shù)據(jù)性質(zhì)估計問題，

11、利用數(shù)據(jù)性質(zhì)函數(shù)歸納，將這些離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)估計歸納為以下計算目標：

12、

13、其中，對應(yīng)總體中出現(xiàn)j次數(shù)據(jù)項被采樣到的概率，而則對應(yīng)作用于概率上的性質(zhì)估計函數(shù)；將數(shù)據(jù)性質(zhì)估計器設(shè)定為：其中，ai為線性系數(shù)，fi代表在樣本中，出現(xiàn)i次的元素個數(shù)，則對應(yīng)著出現(xiàn)i次元素，在大小為n的樣本中，所占有的頻率；等式的前半部分進行近似，誤差為：

14、

15、其中，poly(n,n,j,t)為關(guān)于j、n、n、t的多項式；針對不同的性質(zhì)估計問題，可以輸入到上式中，得到不同的近似目標；將誤差ε與估計器估計值同真實值的絕對誤差合并，作為最終損失函數(shù)

16、

17、其中，wj，at都為兩層的mlp，也可以是更為復(fù)雜，有更強表達能力的網(wǎng)絡(luò)結(jié)構(gòu)，并對網(wǎng)絡(luò)進行更新；

18、步驟s4，將步驟s2中生成的隨機數(shù)據(jù)分布組輸入到步驟s3中，作為訓(xùn)練數(shù)據(jù)，通過s3中構(gòu)造的損失函數(shù)，作為訓(xùn)練的終止條件，當損失函數(shù)值更新較小時，對應(yīng)到實際操作中，是通過繪制損失函數(shù)的函數(shù)值曲線，函數(shù)值曲線會快速下降，然后下降速率會衰減直至平緩，此時停止更新，并在數(shù)據(jù)流緩存中，保留模型；

19、探測數(shù)據(jù)是否發(fā)生大規(guī)模變更，具體標準為，輸入數(shù)據(jù)的規(guī)模是否發(fā)生改變，采樣率范圍是否發(fā)生改變，其數(shù)值域是否發(fā)生更改、其數(shù)據(jù)偏態(tài)性是否發(fā)生改變。當數(shù)據(jù)發(fā)生大規(guī)模遷移或改變時，重新運行步驟s2與s3，以此得到新的模型。

20、步驟s5，將步驟s4中得到的最終模型，結(jié)合步驟s1中提取的數(shù)據(jù)信息特征，對數(shù)據(jù)性質(zhì)問題進行估計。通過神經(jīng)網(wǎng)絡(luò)進行估計后，得到的數(shù)據(jù)性質(zhì)估計，即可回答數(shù)據(jù)性質(zhì)估計問題。

21、所述從數(shù)據(jù)流中提取樣本的具體方法為：選擇采樣率在0.01～0.001之間，假設(shè)數(shù)據(jù)流總大小為n，在機器中維護一個水塘采樣池n，將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計，最終在機器內(nèi)存中，維護一組數(shù)據(jù)頻率；當需要對數(shù)據(jù)進行性質(zhì)估計時，返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,ed:xd}，作為模型的輸入；其數(shù)據(jù)頻率的頻率字典，計作:{f1,f2,…,fi,…},其中，fi代表在樣本中，一共有fi個元素出現(xiàn)了i次。

22、本專利技術(shù)實施例的創(chuàng)新之處在于：

23、1.本專利技術(shù)可以利用多項式估計，應(yīng)對基于采樣的不同數(shù)據(jù)性質(zhì)估計，而不需要對每個問題單獨設(shè)計算法。

24、2.本專利技術(shù)可以應(yīng)用在數(shù)據(jù)流環(huán)境下，并適應(yīng)不同的數(shù)據(jù)分布，單獨學習估計器。

25、3.本專利技術(shù)在數(shù)據(jù)流環(huán)境下，提升了估計數(shù)據(jù)性質(zhì)估計的效果，并提供理論最優(yōu)的采樣復(fù)雜度。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，其特征在于，包括步驟S1-S5：

2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，其特征在于，所述從數(shù)據(jù)流中提取樣本的具體方法為：選擇采樣率在0.01～0.001之間，假設(shè)數(shù)據(jù)流總大小為N，在機器中維護一個水塘采樣池n，將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計，最終在機器內(nèi)存中，維護一組數(shù)據(jù)頻率；當需要對數(shù)據(jù)進行性質(zhì)估計時，返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,eD:xD}，作為模型的輸入；其數(shù)據(jù)頻率的頻率字典，計作:{f1,f2,…,fi,…},其中，fi代表在樣本中，一共有fi個元素出現(xiàn)了i次。

【技術(shù)特征摘要】

1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，其特征在于，包括步驟s1-s5：

2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法，其特征在于，所述從數(shù)據(jù)流中提取樣本的具體方法為：選擇采樣率在0.01～0.001之間，假設(shè)數(shù)據(jù)流總大小為n，在機器中維護一個水...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：魏哲巍，李家郡，雷潤林，王思博，丁博麟，
申請(專利權(quán))人：中國人民大學，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)