System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及數(shù)據(jù)處理,尤其涉及一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法和裝置。
技術(shù)介紹
1、在教育管理系統(tǒng)的漏洞檢測(cè)過程中,通常會(huì)用到人工智能檢測(cè)系統(tǒng),利用人工智能識(shí)別系統(tǒng)提高漏洞檢測(cè)的檢測(cè)效率和檢測(cè)準(zhǔn)確性。在搭建人工智能檢測(cè)系統(tǒng)時(shí),需要收集大量的目標(biāo)數(shù)據(jù),構(gòu)建龐大的數(shù)據(jù)庫。由于數(shù)據(jù)量龐大,不同樣本間可能含有相似的信息,故信息冗余現(xiàn)象可能存在。
2、已有技術(shù)中,在進(jìn)行數(shù)據(jù)處理時(shí),通過響應(yīng)內(nèi)容解析html后把內(nèi)容和響應(yīng)頭信息進(jìn)行embedding的方式,容易造成維度過高、訓(xùn)練過擬合問題,而且由于解析全部的內(nèi)容,不能夠精準(zhǔn)的學(xué)習(xí)到想要的內(nèi)容信息。
3、鑒于此,提供一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法和裝置,以期對(duì)訓(xùn)練數(shù)據(jù)集中的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以剔除數(shù)據(jù)庫中的冗余數(shù)據(jù),解決數(shù)據(jù)維度過高,訓(xùn)練過擬合的問題。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法和裝置,以期對(duì)訓(xùn)練數(shù)據(jù)集中的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以剔除數(shù)據(jù)庫中的冗余數(shù)據(jù),解決數(shù)據(jù)維度過高,訓(xùn)練過擬合的問題;從而通過對(duì)采集到的原始數(shù)據(jù)進(jìn)行處理,剔除數(shù)據(jù)庫中的冗余數(shù)據(jù),提高模型訓(xùn)練效率,避免模型訓(xùn)練中出現(xiàn)過擬合。
2、本專利技術(shù)提供一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,所述方法包括:
3、獲取待處理的原始數(shù)據(jù),并構(gòu)建訓(xùn)練數(shù)據(jù)集;
4、按預(yù)設(shè)的維度將所述訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行劃分,以得到至少兩個(gè)不同維度的數(shù)據(jù)子集;<
...【技術(shù)保護(hù)點(diǎn)】
1.一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,所述預(yù)設(shè)的維度包括內(nèi)容維度和結(jié)構(gòu)維度。
3.根據(jù)權(quán)利要求2所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,在所述預(yù)設(shè)的維度為內(nèi)容維度的情況下,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行處理,具體包括:
4.根據(jù)權(quán)利要求3所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行去除特殊符號(hào)處理,具體包括:
5.根據(jù)權(quán)利要求3所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,具體包括:
6.根據(jù)權(quán)利要求2所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,在所述預(yù)設(shè)的維度為結(jié)構(gòu)維度的情況下,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行處理,具體包括:
7.一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理裝置,其特征在于,所述裝置包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,所述預(yù)設(shè)的維度包括內(nèi)容維度和結(jié)構(gòu)維度。
3.根據(jù)權(quán)利要求2所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,在所述預(yù)設(shè)的維度為內(nèi)容維度的情況下,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行處理,具體包括:
4.根據(jù)權(quán)利要求3所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行去除特殊符號(hào)處理,具體包括:
5.根據(jù)權(quán)利要求3所述的用于學(xué)校管理系統(tǒng)的模型訓(xùn)練數(shù)據(jù)預(yù)處理方法,其特征在于,對(duì)數(shù)據(jù)子集中的數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,具體包括:
6.根據(jù)權(quán)利要求2所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡碩利,張進(jìn),
申請(qǐng)(專利權(quán))人:南昌理工學(xué)院,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。