System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本公開涉及數(shù)據(jù)庫領(lǐng)域,更具體地講,涉及一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法。
技術(shù)介紹
1、隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)規(guī)模急劇增長,數(shù)據(jù)通常以高速大量的形式出現(xiàn),短時間內(nèi)返回對數(shù)據(jù)的一些性質(zhì)估計成為必要的需求。簡要的數(shù)據(jù)性質(zhì)能直觀地體現(xiàn)出數(shù)據(jù)的分布形態(tài),可以適用的數(shù)據(jù)算法,也能探測出數(shù)據(jù)是否產(chǎn)生了異常,是否能滿足之前的數(shù)據(jù)假設(shè)。對于高速的連續(xù)數(shù)據(jù),利用數(shù)據(jù)的連續(xù)性,構(gòu)建數(shù)據(jù)曲線擬合圖,能獲得具有一定規(guī)律的連續(xù)型數(shù)據(jù),從而回答上述問題。但對于離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)也尤為重要,卻缺少普適性的算法對這些離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)進行分析。要返回離散數(shù)據(jù)的數(shù)據(jù)性質(zhì),通常計算需要完整的數(shù)據(jù)頻率字典。要得到數(shù)據(jù)流上的完整數(shù)據(jù)頻率,需要將訪問過的數(shù)據(jù)都進行保存合并,再計數(shù)。當數(shù)據(jù)元素各不相同時,保存所有數(shù)據(jù)難以滿足空間的需要,同時效率低下,難以滿足實時的需求。如何高效獲取離散數(shù)據(jù)的數(shù)據(jù)性質(zhì)從而成為挑戰(zhàn)。
2、在數(shù)據(jù)庫中,估計離散分布的數(shù)據(jù)性質(zhì)是該領(lǐng)域的核心問題之一。離散分布的數(shù)據(jù)性質(zhì)包括數(shù)據(jù)的不同元素個數(shù)、數(shù)據(jù)的熵、數(shù)據(jù)的p階矩等等問題。并且離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)可以應(yīng)用于分析數(shù)據(jù)問題的各個方面,例如,優(yōu)化查詢效率、優(yōu)化壓縮算法等,該問題在流數(shù)據(jù)上的數(shù)據(jù)分析上尤為重要。通常不記錄所有元素,但仍可估計這些數(shù)據(jù)性質(zhì)的方法是采樣算法。通過對輸入的流數(shù)據(jù)進行均勻采樣,保留一部分的數(shù)據(jù)信息,從而對數(shù)據(jù)整體性質(zhì)進行估計。傳統(tǒng)的采樣估計性質(zhì)的方法會針對某項特定的數(shù)據(jù)性質(zhì),并分析其固有的分布屬性,從而得到固定的采樣估計器,以應(yīng)對特定的數(shù)據(jù)性質(zhì)估
3、在數(shù)據(jù)流中,數(shù)據(jù)分布也并非一成不變的。由于數(shù)據(jù)分布會隨著時間變化推移,針對特定的數(shù)據(jù)分布所設(shè)計的固定估計器,并不能很好地應(yīng)對不同數(shù)據(jù)分布下的估計問題。面對數(shù)據(jù)分布的變化,比較合理的解決方案是利用機器學習的方法,針對不同數(shù)據(jù)分布,學習不同的估計器,并根據(jù)數(shù)據(jù)分布的變化,對估計器進行調(diào)整。
4、因此,設(shè)計一個統(tǒng)一地,可以根據(jù)數(shù)據(jù)變化,隨之變化的數(shù)據(jù)流下的采樣數(shù)據(jù)性質(zhì)估計器十分有必要。此外,利用機器學習方法,在固定的采樣率下,提升估計器的估計效果,也是設(shè)計估計器的重要部分。
技術(shù)實現(xiàn)思路
1、本公開的實施例的目的在于提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,本專利技術(shù)的主要研究目標是通過基于層次結(jié)構(gòu)的模型與程序分析技術(shù)的有機結(jié)合,實現(xiàn)對粒度為項目級別的代碼摘要文檔的自動生成。研究的具體對象為英文文檔,針對的編程語言為java。摘要文檔主要體現(xiàn)為簡短的自然語言摘要,不涉及復(fù)雜信息比如目錄結(jié)構(gòu)、使用說明等。并根據(jù)此模型以eclipse插件形式在eclipse?ide上設(shè)計和實現(xiàn)了開源代碼倉庫摘要自動生成工具。
2、在一個總的方面,提供一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,包括步驟s1-s5:
3、步驟s1,從數(shù)據(jù)流中提取樣本;該數(shù)據(jù)流場景限制為離散流數(shù)據(jù),且數(shù)據(jù)量較大,無法在內(nèi)存中完全維護,但需要分析該數(shù)據(jù)的離散分布性質(zhì)。例如,分析日志數(shù)據(jù)是否異常,此時,日志數(shù)據(jù)不斷輸入,但難以在內(nèi)存中完全維護,僅能通過采樣的方式,計算日志數(shù)據(jù)分布是否改變。
4、步驟s2,生成訓(xùn)練數(shù)據(jù);
5、具體步驟包括s2.1-s2.3:
6、s2.1從均勻分布u(0,b)中,采樣得到正整數(shù)r,n=10r作為訓(xùn)練集的總體數(shù);
7、s2.2從均勻分布u(0,b)中,采樣得到正整數(shù)s,設(shè)m=10s;
8、s2.3設(shè)fi為總體中,出現(xiàn)i次數(shù)的元素個數(shù),并設(shè)sfi=∑ifi,在限制下,隨機抽取sfi,并反向計算出構(gòu)造數(shù)據(jù)總體的分布f={f1,f2,...,},fi=sfi-sfi+1;
9、批量重復(fù)s2.1-3,生成采樣的頻率數(shù)據(jù),作為訓(xùn)練數(shù)據(jù),輸入到下游模型中;
10、步驟s3,根據(jù)不同數(shù)據(jù)性質(zhì)估計問題,設(shè)計不同的可學習神經(jīng)網(wǎng)絡(luò),解決數(shù)據(jù)性質(zhì)估計問題,
11、利用數(shù)據(jù)性質(zhì)函數(shù)歸納,將這些離散數(shù)據(jù)分布的數(shù)據(jù)性質(zhì)估計歸納為以下計算目標:
12、
13、其中,對應(yīng)總體中出現(xiàn)j次數(shù)據(jù)項被采樣到的概率,而則對應(yīng)作用于概率上的性質(zhì)估計函數(shù);將數(shù)據(jù)性質(zhì)估計器設(shè)定為:其中,ai為線性系數(shù),fi代表在樣本中,出現(xiàn)i次的元素個數(shù),則對應(yīng)著出現(xiàn)i次元素,在大小為n的樣本中,所占有的頻率;等式的前半部分進行近似,誤差為:
14、
15、其中,poly(n,n,j,t)為關(guān)于j、n、n、t的多項式;針對不同的性質(zhì)估計問題,可以輸入到上式中,得到不同的近似目標;將誤差ε與估計器估計值同真實值的絕對誤差合并,作為最終損失函數(shù)
16、
17、其中,wj,at都為兩層的mlp,也可以是更為復(fù)雜,有更強表達能力的網(wǎng)絡(luò)結(jié)構(gòu),并對網(wǎng)絡(luò)進行更新;
18、步驟s4,將步驟s2中生成的隨機數(shù)據(jù)分布組輸入到步驟s3中,作為訓(xùn)練數(shù)據(jù),通過s3中構(gòu)造的損失函數(shù),作為訓(xùn)練的終止條件,當損失函數(shù)值更新較小時,對應(yīng)到實際操作中,是通過繪制損失函數(shù)的函數(shù)值曲線,函數(shù)值曲線會快速下降,然后下降速率會衰減直至平緩,此時停止更新,并在數(shù)據(jù)流緩存中,保留模型;
19、探測數(shù)據(jù)是否發(fā)生大規(guī)模變更,具體標準為,輸入數(shù)據(jù)的規(guī)模是否發(fā)生改變,采樣率范圍是否發(fā)生改變,其數(shù)值域是否發(fā)生更改、其數(shù)據(jù)偏態(tài)性是否發(fā)生改變。當數(shù)據(jù)發(fā)生大規(guī)模遷移或改變時,重新運行步驟s2與s3,以此得到新的模型。
20、步驟s5,將步驟s4中得到的最終模型,結(jié)合步驟s1中提取的數(shù)據(jù)信息特征,對數(shù)據(jù)性質(zhì)問題進行估計。通過神經(jīng)網(wǎng)絡(luò)進行估計后,得到的數(shù)據(jù)性質(zhì)估計,即可回答數(shù)據(jù)性質(zhì)估計問題。
21、所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為n,在機器中維護一個水塘采樣池n,將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計,最終在機器內(nèi)存中,維護一組數(shù)據(jù)頻率;當需要對數(shù)據(jù)進行性質(zhì)估計時,返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,ed:xd},作為模型的輸入;其數(shù)據(jù)頻率的頻率字典,計作:{f1,f2,…,fi,…},其中,fi代表在樣本中,一共有fi個元素出現(xiàn)了i次。
22、本專利技術(shù)實施例的創(chuàng)新之處在于:
23、1.本專利技術(shù)可以利用多項式估計,應(yīng)對基于采樣的不同數(shù)據(jù)性質(zhì)估計,而不需要對每個問題單獨設(shè)計算法。
24、2.本專利技術(shù)可以應(yīng)用在數(shù)據(jù)流環(huán)境下,并適應(yīng)不同的數(shù)據(jù)分布,單獨學習估計器。
25、3.本專利技術(shù)在數(shù)據(jù)流環(huán)境下,提升了估計數(shù)據(jù)性質(zhì)估計的效果,并提供理論最優(yōu)的采樣復(fù)雜度。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,包括步驟S1-S5:
2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為N,在機器中維護一個水塘采樣池n,將數(shù)據(jù)所獲得的數(shù)據(jù)進行頻率統(tǒng)計,最終在機器內(nèi)存中,維護一組數(shù)據(jù)頻率;當需要對數(shù)據(jù)進行性質(zhì)估計時,返回數(shù)據(jù)頻率的頻率字典{e1:x1,e2:x2,…,eD:xD},作為模型的輸入;其數(shù)據(jù)頻率的頻率字典,計作:{f1,f2,…,fi,…},其中,fi代表在樣本中,一共有fi個元素出現(xiàn)了i次。
【技術(shù)特征摘要】
1.一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,包括步驟s1-s5:
2.如權(quán)利要求1所述的一種數(shù)據(jù)流上的基于采樣和多項式的可學習性質(zhì)估計方法,其特征在于,所述從數(shù)據(jù)流中提取樣本的具體方法為:選擇采樣率在0.01~0.001之間,假設(shè)數(shù)據(jù)流總大小為n,在機器中維護一個水...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:魏哲巍,李家郡,雷潤林,王思博,丁博麟,
申請(專利權(quán))人:中國人民大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。