System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲成a人无码亚洲成av无码,国产成人无码精品一区不卡 ,免费A级毛片无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法技術(shù)

    技術(shù)編號:44349945 閱讀:2 留言:0更新日期:2025-02-25 09:35
    本公開提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法。包括步驟S1?S5:步驟S1,從數(shù)據(jù)流中提取樣本;步驟S2,生成訓(xùn)練數(shù)據(jù);步驟S3,根據(jù)不同數(shù)據(jù)性質(zhì)估計問題,設(shè)計不同的可學習神經(jīng)網(wǎng)絡(luò),解決數(shù)據(jù)性質(zhì)估計問題,步驟S4,將步驟S2中生成的隨機數(shù)據(jù)分布組輸入到步驟S3中,作為訓(xùn)練數(shù)據(jù)進行訓(xùn)練,通過S3中構(gòu)造的損失函數(shù),作為訓(xùn)練的終止條件;步驟S5,將步驟S4中得到的最終模型,結(jié)合步驟S1中提取的數(shù)據(jù)信息特征,對數(shù)據(jù)性質(zhì)問題進行估計;通過神經(jīng)網(wǎng)絡(luò)進行估計后,得到的數(shù)據(jù)性質(zhì)估計,用于回答數(shù)據(jù)性質(zhì)估計問題。通過上述手段,本發(fā)明專利技術(shù)應(yīng)用在數(shù)據(jù)流環(huán)境下,并適應(yīng)不同的數(shù)據(jù)分布,單獨學習估計器,提升了估計數(shù)據(jù)性質(zhì)估計的效果。

    【技術(shù)實現(xiàn)步驟摘要】

    本公開涉及數(shù)據(jù)庫領(lǐng)域,更具體地講,涉及一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法


    技術(shù)介紹

    1、隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)規(guī)模急劇增長,數(shù)據(jù)通常以高速大量的形式出現(xiàn),短時間內(nèi)返回對數(shù)據(jù)的一些性質(zhì)估計成為必要的需求。簡要的數(shù)據(jù)性質(zhì)能直觀地體現(xiàn)出數(shù)據(jù)的分布形態(tài),可以適用的數(shù)據(jù)算法,也能探測出數(shù)據(jù)是否產(chǎn)生了異常,是否能滿足之前的數(shù)據(jù)假設(shè)。對于高速的連續(xù)數(shù)據(jù),利用數(shù)據(jù)的連續(xù)性,構(gòu)建數(shù)據(jù)曲線擬合圖,能獲得具有一定規(guī)律的連續(xù)型數(shù)據(jù),從而回答上述問題。但對于離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)也尤為重要,卻缺少普適性的算法對這些離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)進行分析。要返回離散數(shù)據(jù)的數(shù)據(jù)性質(zhì),通常計算需要完整的數(shù)據(jù)頻率字典。要得到數(shù)據(jù)流上的完整數(shù)據(jù)頻率,需要將訪問過的數(shù)據(jù)都進行保存合并,再計數(shù)。當數(shù)據(jù)元素各不相同時,保存所有數(shù)據(jù)難以滿足空間的需要,同時效率低下,難以滿足實時的需求。如何高效獲取離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)從而成為挑戰(zhàn)。

    2、在數(shù)據(jù)庫中,估計離散分布的數(shù)據(jù)性質(zhì)是該領(lǐng)域的核心問題之一。離散分布的數(shù)據(jù)性質(zhì)包括數(shù)據(jù)的不同元素個數(shù)、數(shù)據(jù)的熵、數(shù)據(jù)的p階矩等等問題。并且離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)可以應(yīng)用于分析數(shù)據(jù)問題的各個方面,例如,優(yōu)化查詢效率、優(yōu)化壓縮算法等,該問題在流數(shù)據(jù)上的數(shù)據(jù)分析上尤為重要。通常不記錄所有元素,但仍可估計這些數(shù)據(jù)性質(zhì)的方法是采樣算法。通過對輸入的流數(shù)據(jù)進行均勻采樣,保留一部分的數(shù)據(jù)信息,從而對數(shù)據(jù)整體性質(zhì)進行估計。傳統(tǒng)的采樣估計性質(zhì)的方法會針對某項特定的數(shù)據(jù)性質(zhì),并分析其固有的分布屬性,從而得到固定的采樣估計器,以應(yīng)對特定的數(shù)據(jù)性質(zhì)估計問題。例如,針對不同數(shù)據(jù)項個數(shù),有一系列的統(tǒng)計量,能通過采樣頻率估計不同數(shù)據(jù)項的個數(shù)。但目前的問題是,這些方法各自為政,缺少一個統(tǒng)一的方式,解決不同的數(shù)據(jù)性質(zhì)估計問題。

    3、在數(shù)據(jù)流中,數(shù)據(jù)分布也并非一成不變的。由于數(shù)據(jù)分布會隨著時間變化推移,針對特定的數(shù)據(jù)分布所設(shè)計的固定估計器,并不能很好地應(yīng)對不同數(shù)據(jù)分布下的估計問題。面對數(shù)據(jù)分布的變化,比較合理的解決方案是利用機器學習的方法,針對不同數(shù)據(jù)分布,學習不同的估計器,并根據(jù)數(shù)據(jù)分布的變化,對估計器進行調(diào)整。

    4、因此,設(shè)計一個統(tǒng)一地,可以根據(jù)數(shù)據(jù)變化,隨之變化的數(shù)據(jù)流下的采樣數(shù)據(jù)性質(zhì)估計器十分有必要。此外,利用機器學習方法,在固定的采樣率下,提升估計器的估計效果,也是設(shè)計估計器的重要部分。


    技術(shù)實現(xiàn)思路

    1、本公開的實施例的目的在于提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,本專利技術(shù)的主要研究目標是通過基于層次結(jié)構(gòu)的模型與程序分析技術(shù)的有機結(jié)合,實現(xiàn)對粒度為項目級別的代碼摘要文檔的自動生成。研究的具體對象為英文文檔,針對的編程語言為java。摘要文檔主要體現(xiàn)為簡短的自然語言摘要,不涉及復(fù)雜信息比如目錄結(jié)構(gòu)、使用說明等。并根據(jù)此模型以eclipse插件形式在eclipse?ide上設(shè)計和實現(xiàn)了開源代碼倉庫摘要自動生成工具。

    2、在一個總的方面,提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,包括步驟s1-s5:

    3、步驟s1,從數(shù)據(jù)流中提取樣本;該數(shù)據(jù)流場景限制為離散流數(shù)據(jù),且數(shù)據(jù)量較大,無法在內(nèi)存中完全維護,但需要分析該數(shù)據(jù)的離散分布性質(zhì)。例如,分析日志數(shù)據(jù)是否異常,此時,日志數(shù)據(jù)不斷輸入,但難以在內(nèi)存中完全維護,僅能通過采樣的方式,計算日志數(shù)據(jù)分布是否改變。

    4、步驟s2,生成訓(xùn)練數(shù)據(jù);

    5、具體步驟包括s2.1-s2.3:

    6、s2.1從均勻分布u(0,b)中,采樣得到正整數(shù)r,n=10r作為訓(xùn)練集的總體數(shù);

    7、s2.2從均勻分布u(0,b)中,采樣得到正整數(shù)s,設(shè)m=10s;

    8、s2.3設(shè)fi為總體中,出現(xiàn)i次數(shù)的元素個數(shù),并設(shè)sfi=∑ifi,在限制下,隨機抽取sfi,并反向計算出構(gòu)造數(shù)據(jù)總體的分布f={f1,f2,...,},fi=sfi-sfi+1;

    9、批量重復(fù)s2.1-3,生成采樣的頻率數(shù)據(jù),作為訓(xùn)練數(shù)據(jù),輸入到下游模型中;

    10、步驟s3,根據(jù)不同數(shù)據(jù)性質(zhì)估計問題,設(shè)計不同的可學習神經(jīng)網(wǎng)絡(luò),解決數(shù)據(jù)性質(zhì)估計問題,

    11、利用數(shù)據(jù)性質(zhì)函數(shù)歸納,將這些離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)估計歸納為以下計算目標:

    12、

    13、其中,對應(yīng)總體中出現(xiàn)j次數(shù)據(jù)項被采樣到的概率,而則對應(yīng)作用于概率上的性質(zhì)估計函數(shù);將數(shù)據(jù)性質(zhì)估計器設(shè)定為:其中,ai為線性系數(shù),fi代表在樣本中,出現(xiàn)i次的元素個數(shù),則對應(yīng)著出現(xiàn)i次元素,在大小為n的樣本中,所占有的頻率;等式的前半部分進行近似,誤差為:

    14、

    15、其中,poly(n,n,j,t)為關(guān)于j、n、n、t的多項式;針對不同的性質(zhì)估計問題,可以輸入到上式中,得到不同的近似目標;將誤差ε與估計器估計值同真實值的絕對誤差合并,作為最終損失函數(shù)

    16、

    17、其中,wj,at都為兩層的mlp,也可以是更為復(fù)雜,有更強表達能力的網(wǎng)絡(luò)結(jié)構(gòu),并對網(wǎng)絡(luò)進行更新;

    18、步驟s4,將步驟s2中生成的隨機數(shù)據(jù)分布組輸入到步驟s3中,作為訓(xùn)練數(shù)據(jù),通過s3中構(gòu)造的損失函數(shù),作為訓(xùn)練的終止條件,當損失函數(shù)值更新較小時,對應(yīng)到實際操作中,是通過繪制損失函數(shù)的函數(shù)值曲線,函數(shù)值曲線會快速下降,然后下降速率會衰減直至平緩,此時停止更新,并在數(shù)據(jù)流緩存中,保留模型;

    19、探測數(shù)據(jù)是否發(fā)生大規(guī)模變更,具體標準為,輸入數(shù)據(jù)的規(guī)模是否發(fā)生改變,采樣率范圍是否發(fā)生改變,其數(shù)值域是否發(fā)生更改、其數(shù)據(jù)偏態(tài)性是否發(fā)生改變。當數(shù)據(jù)發(fā)生大規(guī)模遷移或改變時,重新運行步驟s2與s3,以此得到新的模型。

    20、步驟s5,將步驟s4中得到的最終模型,結(jié)合步驟s1中提取的數(shù)據(jù)信息特征,對數(shù)據(jù)性質(zhì)問題進行估計。通過神經(jīng)網(wǎng)絡(luò)進行估計后,得到的數(shù)據(jù)性質(zhì)估計,即可回答數(shù)據(jù)性質(zhì)估計問題。

    21、所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為n,在機器中維護一個水塘采樣池n,將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計,最終在機器內(nèi)存中,維護一組數(shù)據(jù)頻率;當需要對數(shù)據(jù)進行性質(zhì)估計時,返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,ed:xd},作為模型的輸入;其數(shù)據(jù)頻率的頻率字典,計作:{f1,f2,…,fi,…},其中,fi代表在樣本中,一共有fi個元素出現(xiàn)了i次。

    22、本專利技術(shù)實施例的創(chuàng)新之處在于:

    23、1.本專利技術(shù)可以利用多項式估計,應(yīng)對基于采樣的不同數(shù)據(jù)性質(zhì)估計,而不需要對每個問題單獨設(shè)計算法。

    24、2.本專利技術(shù)可以應(yīng)用在數(shù)據(jù)流環(huán)境下,并適應(yīng)不同的數(shù)據(jù)分布,單獨學習估計器。

    25、3.本專利技術(shù)在數(shù)據(jù)流環(huán)境下,提升了估計數(shù)據(jù)性質(zhì)估計的效果,并提供理論最優(yōu)的采樣復(fù)雜度。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,包括步驟S1-S5:

    2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為N,在機器中維護一個水塘采樣池n,將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計,最終在機器內(nèi)存中,維護一組數(shù)據(jù)頻率;當需要對數(shù)據(jù)進行性質(zhì)估計時,返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,eD:xD},作為模型的輸入;其數(shù)據(jù)頻率的頻率字典,計作:{f1,f2,…,fi,…},其中,fi代表在樣本中,一共有fi個元素出現(xiàn)了i次。

    【技術(shù)特征摘要】

    1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,包括步驟s1-s5:

    2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為n,在機器中維護一個水...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:魏哲巍李家郡雷潤林王思博丁博麟
    申請(專利權(quán))人:中國人民大學
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码av在线播放| 国99精品无码一区二区三区| 亚洲GV天堂无码男同在线观看| 无码精品不卡一区二区三区| 精品久久久无码中文字幕| av无码免费一区二区三区| 四虎成人精品国产永久免费无码| 亚洲av无码一区二区乱子伦as| 无码av专区丝袜专区| 无码精品A∨在线观看十八禁| 中文字幕无码av激情不卡| 毛片无码一区二区三区a片视频| 亚洲精品无码乱码成人| 亚洲成A∨人片天堂网无码| 精品人妻系列无码一区二区三区 | 精品人妻系列无码人妻免费视频| 亚洲av无码一区二区三区不卡| av无码a在线观看| 国产精品无码亚洲精品2021| 2021无码最新国产在线观看 | 免费无码又爽又刺激高潮软件| 一本色道无码道DVD在线观看| 亚洲AV无码国产在丝袜线观看| 久久99久久无码毛片一区二区| 国产午夜无码视频免费网站| 无码被窝影院午夜看片爽爽jk | 最新无码专区视频在线| 日韩乱码人妻无码系列中文字幕| 少妇性饥渴无码A区免费 | 国产精品无码一本二本三本色| 精品久久久久久无码专区不卡| 日韩乱码人妻无码中文字幕久久| 亚洲中文字幕不卡无码| 国产在线无码一区二区三区视频| 亚洲精品无码永久中文字幕| 亚洲欧洲美洲无码精品VA| 西西午夜无码大胆啪啪国模| 久久无码无码久久综合综合| 日韩亚洲AV无码一区二区不卡 | 无码精品人妻一区二区三区中| 国产精品视频一区二区三区无码|