• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于模型庫的智能數(shù)據(jù)提取方法技術(shù)

    技術(shù)編號:14894950 閱讀:161 留言:0更新日期:2017-03-29 10:14
    本發(fā)明專利技術(shù)公開了一種基于模型庫的智能數(shù)據(jù)提取方法,包括如下步驟:a)預(yù)先定義多個數(shù)據(jù)模型,并為每個模型的每個字段設(shè)置特征,形成模型庫的字段特征;b)對待提取數(shù)據(jù)源的樣本數(shù)據(jù)進行數(shù)據(jù)特征提取并過濾掉特征相同的數(shù)據(jù);c)將提取到的數(shù)據(jù)源的特征樣本與模型庫的字段特征進行特征匹配,選取特征匹配度最高的模型作為該數(shù)據(jù)源的特征模型;d)根據(jù)選定的數(shù)據(jù)模型對數(shù)據(jù)源進行格式化提取。本發(fā)明專利技術(shù)提供的基于模型庫的智能數(shù)據(jù)提取方法,通過特征抽取和特征匹配評分完成數(shù)據(jù)提取,提高識別格式化的效率,無需對數(shù)據(jù)進行建模,并可以根據(jù)分析需求方便地進行模型更新。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及一種數(shù)據(jù)提取方法,尤其涉及一種基于模型庫的智能數(shù)據(jù)提取方法
    技術(shù)介紹
    現(xiàn)有的數(shù)據(jù)提取方法主要有如下兩種:1、根據(jù)數(shù)據(jù)的格式按照固定的字符進行分割,并根據(jù)分割的數(shù)據(jù)結(jié)果進行建模,數(shù)據(jù)統(tǒng)一按照這種模型進行格式化,將所有的輸入數(shù)據(jù)先按照固定的分割符進行切分,并根據(jù)切分的下標進行相對應(yīng)的字段賦值,最終達到按照該模型輸出對應(yīng)的數(shù)據(jù),針對的不同的數(shù)據(jù)格式定義不同的數(shù)據(jù)模型。2、根據(jù)數(shù)據(jù)的格式,靈活的采用正則表達式進行模型字段定義,對于輸入的數(shù)據(jù)按照模型的字段進行正則表達的方式進行匹配,滿足該正則表達式的數(shù)據(jù)則賦值給該字段。正則表達式具備高度的靈活性可以滿足不同格式的數(shù)據(jù)匹配。不需要對所有的數(shù)據(jù)格式都進行建模操作現(xiàn)有技術(shù)主要存在如下缺點:1、按照固定分割的方式進行數(shù)據(jù)分割,需要對所有的數(shù)據(jù)格式都進行建模,在目前信息化高速發(fā)展的情況下大量分散的形式及不同格式的數(shù)據(jù)越來越多,針對每一種數(shù)據(jù)格式進行建模一種相當大的工作量。2、正則表達改善了按照固定分割符進行數(shù)據(jù)格式化提取需要建立非常多個模型的問題,但同樣的帶來的一些問題,在數(shù)據(jù)格式化提取時需要編寫好正則表達式,并將該表達式應(yīng)用于不同的數(shù)據(jù)源,需要人員對所有的數(shù)據(jù)都進行人工分析,并按照所有的數(shù)據(jù)格式編寫滿足所有條件的正則表達式,這會造成數(shù)據(jù)的提取的錯誤率提高,不能真正完全的提取需要的數(shù)據(jù),往往會參插錯誤的數(shù)據(jù),造成分析工作的難度及準確性。3、在數(shù)據(jù)分析過程中,分析人員對于數(shù)據(jù)的分析需求往往都集中在幾個固定的字段上,不需要對所有的數(shù)據(jù)都進行提取分析,而現(xiàn)有的技術(shù)需要對數(shù)據(jù)進行分析后才進行建模,時間上需要一定的時間,無法滿足快速的數(shù)據(jù)接入后即可分析的需求。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)所要解決的技術(shù)問題是提供一種基于模型庫的智能數(shù)據(jù)提取方法,能夠提高識別格式化的效率,無需對數(shù)據(jù)進行建模,并可以根據(jù)分析需求方便地進行模型更新。本專利技術(shù)為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種基于模型庫的智能數(shù)據(jù)提取方法,包括如下步驟:a)預(yù)先定義多個數(shù)據(jù)模型,并為每個模型的每個字段設(shè)置特征,形成模型庫的字段特征;b)對待提取數(shù)據(jù)源的樣本數(shù)據(jù)進行數(shù)據(jù)特征提取并過濾掉特征相同的數(shù)據(jù);c)將提取到的數(shù)據(jù)源的特征樣本與模型庫的字段特征進行特征匹配,選取特征匹配度最高的模型作為該數(shù)據(jù)源的特征模型;d)根據(jù)選定的數(shù)據(jù)模型對數(shù)據(jù)源進行格式化提取。上述的基于模型庫的智能數(shù)據(jù)提取方法,其中,所述步驟b)包括如下過程:將輸入的數(shù)據(jù)源的樣本數(shù)據(jù)按照行的方式進行數(shù)據(jù)讀取,將每行數(shù)據(jù)中連續(xù)的英文字母或數(shù)字,當為一個字符處理,并將字母全部采用s字母代替,數(shù)字則采用d替代,輸出每行數(shù)據(jù)的特征格式,并緩存在內(nèi)存中;循環(huán)遍歷所有的樣本數(shù)據(jù),當某一行的樣本數(shù)據(jù)的特征格式已經(jīng)存在于緩存中時,則過濾掉該行的樣本數(shù)據(jù)。上述的基于模型庫的智能數(shù)據(jù)提取方法,其中,所述步驟c)通過字符查找算法,將模型庫的所有字段都與特征樣本進行匹配,匹配過程如下:當一條特征樣本滿足某一模型的所有字段時,則對于該模型在這個特征樣本的評分為100分;當部分匹配時,將匹配的字段數(shù)除以該模型的總字段數(shù)再乘以100,則為該模型在這個特征樣本的評分;將所有特征樣本的評分累加除以特征樣本的總數(shù),得出該模型的評分,最終將評分最高的模型定義為該數(shù)據(jù)源的數(shù)據(jù)模型。上述的基于模型庫的智能數(shù)據(jù)提取方法,其中,所述步驟d)循環(huán)讀取輸入的數(shù)據(jù)源,按照選定模型的字段特征與數(shù)據(jù)源進行匹配,滿足該特征的值則將數(shù)據(jù)賦值為該字段的值,不滿足則將該字段賦值為空,遍歷完模型的所有字段后將模型數(shù)據(jù)輸出,完成數(shù)據(jù)提取。本專利技術(shù)對比現(xiàn)有技術(shù)有如下的有益效果:本專利技術(shù)提供的基于模型庫的智能數(shù)據(jù)提取方法,通過特征抽取和特征匹配評分完成數(shù)據(jù)提取,提高識別格式化的效率,無需對數(shù)據(jù)進行建模,并可以根據(jù)分析需求方便地進行模型更新。附圖說明圖1為本專利技術(shù)基于模型庫的智能數(shù)據(jù)提取流程圖;圖2為本專利技術(shù)的特征匹配流程圖。具體實施方式下面結(jié)合附圖和實施例對本專利技術(shù)作進一步的描述。圖1為本專利技術(shù)基于模型庫的智能數(shù)據(jù)提取流程圖。請參見圖1,本專利技術(shù)提供的基于模型庫的智能數(shù)據(jù)提取方法,包括如下步驟:步驟S1:預(yù)先定義多個數(shù)據(jù)模型,并為每個模型的每個字段設(shè)置特征,形成模型庫的字段特征;模型的建立是基于目前市場上比較常用的分析模型進行建立的。并且根據(jù)不同的行業(yè)可以對模型進行調(diào)整,滿足不同行業(yè)的數(shù)據(jù)提取需求;步驟S2:對待提取數(shù)據(jù)源的樣本數(shù)據(jù)進行數(shù)據(jù)特征提取并過濾掉特征相同的數(shù)據(jù);通過對相同的特征值數(shù)據(jù)進行過濾,減少特征值得樣本數(shù)據(jù),提高識別格式化的效率;步驟S3:將提取到的數(shù)據(jù)源的特征樣本與模型庫的字段特征進行特征匹配,選取特征匹配度最高的模型作為該數(shù)據(jù)源的特征模型;模型字段特征與數(shù)據(jù)特征的匹配度可以按照規(guī)則進行評分,然后根據(jù)評分結(jié)果選擇最滿足該數(shù)據(jù)的模型;步驟S4:根據(jù)選定的數(shù)據(jù)模型對數(shù)據(jù)源進行格式化提取。本專利技術(shù)基于現(xiàn)有的模型庫進行特征匹配并進行數(shù)據(jù)提取,對輸入的數(shù)據(jù)源進行全面的遍歷掃描,輸出所有的數(shù)據(jù)的特征值,對于相同的特征值則進行過濾,減少特征樣本,以提高特征匹配的效率。循環(huán)遍歷特征值樣本,將樣本與模型庫中的模型進行特征匹配,按照匹配度進行評分,最終所有的經(jīng)過特征樣本評分后,選擇評分最高的模型,作為該數(shù)據(jù)源的數(shù)據(jù)模型。確定數(shù)據(jù)模型后,后續(xù)該數(shù)據(jù)源的數(shù)據(jù)都按照這個數(shù)據(jù)模型進行數(shù)據(jù)提取,數(shù)據(jù)的每一行數(shù)據(jù)都會與模型字段進行特征匹配。字段特征與數(shù)據(jù)特征可以匹配的則將該字段進行賦值,不匹配的字段則輸出為空,最終將所有的數(shù)據(jù)都按照該模型進行提取。下面對本專利技術(shù)的三個主要步驟:特征抽取、特征匹配評分和數(shù)據(jù)提取做進一步的解釋說明。1、特征抽取將輸入的數(shù)據(jù)源按照行的方式進行數(shù)據(jù)讀取,將每行數(shù)據(jù)中連續(xù)的英文字母或數(shù)字,當為一個字符處理,并將字母全部采用s字母代替,數(shù)字則采用d替代,輸出每行數(shù)據(jù)的特征格式,并緩存在內(nèi)存中,循環(huán)遍歷所有的數(shù)據(jù)源,當數(shù)據(jù)源的特征格式已經(jīng)在緩存中可以匹配到時,則將該條特征數(shù)據(jù)過濾掉。保障特征樣本的唯一性。例如輸入的數(shù)據(jù)源為:10.202.0.11--[22/Jun/2016:10:55:06+0800]\POST/mvq/json/getCdrData.actionHTTP/1.1\2001702時,其輸出特征值為:d.d.d.d--[d/s/d:d:d:d+d]\s/s/s/s.ss/d.d\dd。2、特征匹配評分請參見圖2,將數(shù)據(jù)源的特征樣本和模型庫中的模型字段進行特征匹配,模型字段定義時會設(shè)置該字段的特征值,通過字符查找算法,將模型的所有字段都與特征樣本進行匹配,評分方式為:當該模型定義為8個字段時,第一條特征樣本滿足該模型的所有字段時,則對于該模型在這個特征樣本的評分為100分,當部分匹配時,則將匹配中的字段數(shù)除以模型的總字段數(shù)在乘以100,則為該模型在這個特征樣本的評分。最終將所有的分數(shù)累加除以特征樣本的總數(shù),得出該模型的評分。并最終將評分最高的模型定義為該數(shù)據(jù)源的數(shù)據(jù)模型。3、數(shù)據(jù)提取循環(huán)讀取輸入的數(shù)據(jù)源,將已經(jīng)匹配到的模型,按照模型的字段里面的特征規(guī)則與數(shù)據(jù)源進行匹配,滿足該特征的值則將數(shù)據(jù)賦值為該字段的值,不滿足則將該字段賦值為空,遍歷完模型的所有字段,后將模型數(shù)據(jù)輸出,即可以將所本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】
    一種基于模型庫的智能數(shù)據(jù)提取方法,其特征在于,包括如下步驟:a)預(yù)先定義多個數(shù)據(jù)模型,并為每個模型的每個字段設(shè)置特征,形成模型庫的字段特征;b)對待提取數(shù)據(jù)源的樣本數(shù)據(jù)進行數(shù)據(jù)特征提取并過濾掉特征相同的數(shù)據(jù);c)將提取到的數(shù)據(jù)源的特征樣本與模型庫的字段特征進行特征匹配,選取特征匹配度最高的模型作為該數(shù)據(jù)源的特征模型;d)根據(jù)選定的數(shù)據(jù)模型對數(shù)據(jù)源進行格式化提取。

    【技術(shù)特征摘要】
    1.一種基于模型庫的智能數(shù)據(jù)提取方法,其特征在于,包括如下步驟:a)預(yù)先定義多個數(shù)據(jù)模型,并為每個模型的每個字段設(shè)置特征,形成模型庫的字段特征;b)對待提取數(shù)據(jù)源的樣本數(shù)據(jù)進行數(shù)據(jù)特征提取并過濾掉特征相同的數(shù)據(jù);c)將提取到的數(shù)據(jù)源的特征樣本與模型庫的字段特征進行特征匹配,選取特征匹配度最高的模型作為該數(shù)據(jù)源的特征模型;d)根據(jù)選定的數(shù)據(jù)模型對數(shù)據(jù)源進行格式化提取。2.如權(quán)利要求1所述的基于模型庫的智能數(shù)據(jù)提取方法,其特征在于,所述步驟b)包括如下過程:將輸入的數(shù)據(jù)源的樣本數(shù)據(jù)按照行的方式進行數(shù)據(jù)讀取,將每行數(shù)據(jù)中連續(xù)的英文字母或數(shù)字,當為一個字符處理,并將字母全部采用s字母代替,數(shù)字則采用d替代,輸出每行數(shù)據(jù)的特征格式,并緩存在內(nèi)存中;循環(huán)遍歷所有的樣本數(shù)據(jù),當某一行的樣本數(shù)據(jù)的特征格式已經(jīng)存在于緩存中時...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:程永新謝濤吳澤鋒
    申請(專利權(quán))人:上海輕維軟件有限公司
    類型:發(fā)明
    國別省市:上海;31

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产强被迫伦姧在线观看无码| 亚洲AV无码乱码精品国产| 亚洲国产成人无码AV在线影院| 久久精品国产亚洲AV无码娇色| 精品无码综合一区二区三区| 精品久久亚洲中文无码| 人妻无码中文久久久久专区| 日韩免费a级毛片无码a∨| 亚洲Av无码专区国产乱码DVD| 人妻老妇乱子伦精品无码专区| 久久无码人妻一区二区三区午夜| 精品人妻中文无码AV在线| 国产成人无码精品久久久露脸| 亚洲av无码不卡一区二区三区| 国模GOGO无码人体啪啪| 亚洲色偷拍另类无码专区| 久久久无码精品人妻一区| 日韩精品无码一区二区中文字幕| 精品少妇无码AV无码专区| 日韩av无码免费播放| 日韩精品无码一区二区三区不卡 | 国产色爽免费无码视频| 国产亚洲精久久久久久无码AV| 无码亚洲成a人在线观看| 五月丁香六月综合缴清无码| 亚洲精品中文字幕无码A片老| 亚洲一区二区三区无码国产 | 亚洲人成人伊人成综合网无码 | 最新亚洲春色Av无码专区| 麻豆精品无码国产在线果冻| 成人免费午夜无码视频| 无码乱码av天堂一区二区| 麻豆AV无码精品一区二区| 亚洲中文无码永久免| a级毛片无码免费真人| 久久亚洲av无码精品浪潮| 少妇无码一区二区三区免费| 亚洲av中文无码乱人伦在线播放| 性无码一区二区三区在线观看| 少妇人妻无码专区视频| 亚洲国产成人精品无码一区二区|