• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種關系型數據庫中表分段抽取系統及方法技術方案

    技術編號:13138842 閱讀:72 留言:0更新日期:2016-04-07 00:15
    本發明專利技術提供了一種關系型數據庫中表分段抽取系統及方法,系統包括抽取模塊、日志模塊及步長管理模塊;抽取模塊根據步長管理模塊中的優化步長信息對表進行分段構造,并根據構造的分段對表進行分段抽取,并將分段抽取結果記錄在日志模塊,形成日志信息,步長管理模塊根據日志信息動態地生成優化步長信息。本發明專利技術通過將低于平均抽取行數的分段進行合并,將高于平均抽取行數的分段進行拆分,智能地優化各個分段的數據行數,使各個分段的數據趨于均勻,從而提升讀取關系型數據表時效率和性能。

    【技術實現步驟摘要】

    本專利技術屬于大數據分布式計算領域,尤其涉及。
    技術介紹
    隨著大數據領域的技術越來越成熟,很多公司都會引入一項或者多項大數據的技術給公司的某項業務或者某些領域帶來新的發展,比如根據用戶信息分析挖掘出用戶行為熱點,提供給公司的決策層,調整產品,吻合用戶需求。大數據技術固然不錯,但是前提是需要有數據,有數據后才可談使用哪些技術。在國內甚至全世界的大部分公司的數據都存儲在傳統的關系型數據庫中,比如MySQL、Oracle、SQL Server等,但是傳統的關系型數據庫不能勝任海量數據下的分析統計工作,分布式的大數據存儲和計算框架卻很適合,圖1所示為現有技術中利用HAD00P和Hive架構實現海量數據統計分析的示意圖。在數據抽取階段的工作一般是利用JDBC與數據庫進行通信,使用ETL工具將數據抽取并導入到HAD00P的HDFS中。用戶可以向Hive提交SQL,Hive會啟動一些系列的MAPREDUCE程序并讀取HDFS中的數據進行查詢分析。HAD00P具有非常好的擴展性和容錯性,這也使得公司在應付海量數據時可以從容的面對,不需要擔心數據會容納不了和丟失。因此會將一些歷史數據或者訪問量很低的數據從關系型數據庫轉移到HDFS中,利用類似于HIVE這一類的技術對其進行分析統計和做數據挖掘。在目前大數據領域中還有一些技術可以直接的連接關系型數據庫進行查詢分析,不需要將數據轉移到HDFS,比如Presto就可以配置關系型數據庫的數據源。當前數據增長越來越迅速,對數據的分析統計時效性要求也越來越高,如何能快速從關系型數據庫中把數據抽取出來,成為了越來越多的公司考慮的問題。一般來說從關系型數據庫中抽取數據有兩種方式:1、全表單線程抽取。2、對表進行分段抽取,并且可以設置并發量。對于全表單線程抽取,速度明顯是難以保證的,時間容易拖長;分段抽取的策略處理的方式按照固定的偏移量對表進行分段處理,這種方式容易造成數據傾斜,因為在實際業務中,數據是不連續的,容易造成數據空洞或者是集中,這種情況下分段出來的數據,可能有一段或者幾段的數據量很大,其余的很小。
    技術實現思路
    (一)要解決的技術問題本專利技術的目的在于,提供,提升讀取關系型數據表時效率和性能。(二)技術方案本專利技術提供一種關系型數據庫中表分段抽取系統,包括:抽取模塊,用于對表進行分段抽取;日志模塊,用于根據抽取模塊的分段抽取結果,生成日志信息并存儲;步長管理模塊,用于提取日志模塊中的日志信息,并根據該日志信息,生成優化步長信息并存儲。本專利技術還一種關系型數據庫中表分段抽取方法,包括:S1,對表進行分段抽取;S2,根據分段抽取結果,生成日志信息并存儲;S3,提取存儲的日志信息,并根據該日志信息,生成優化步長信息并存儲。(三)有益效果本專利技術提供的關系型數據庫中表分段抽取系統及方法,通過將低于平均抽取行數的分段進行合并,將高于平均抽取行數的分段進行拆分,智能地優化各個分段的數據行數,使各個分段的數據趨于均勻,從而提升讀取關系型數據表時效率和性能。【附圖說明】圖1是現有技術中利用HAD00P和Hive架構實現海量數據統計分析的示意圖。圖2是本專利技術提供的關系型數據庫中表分段抽取方法的流程圖。【具體實施方式】為使本專利技術的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本專利技術進一步詳細說明。本專利技術提供,系統包括抽取模塊、日志模塊及步長管理模塊;抽取模塊根據步長管理模塊中的優化步長信息對表進行分段構造,并根據構造的分段對表進行分段抽取,并將分段抽取結果記錄在日志模塊,形成日志信息,步長管理模塊根據日志信息動態地生成優化步長信息。本專利技術通過將低于平均抽取行數的分段進行合并,將高于平均抽取行數的分段進行拆分,智能地優化各個分段的數據行數,使各個分段的數據趨于均勻,從而提升讀取關系型數據表時效率和性能。根據本專利技術的一種實施方式,關系型數據庫中表分段抽取系統包括:抽取模塊,用于對表進行分段抽取;日志模塊,用于根據抽取模塊的分段抽取結果,生成日志信息并存儲;步長管理模塊,用于提取日志模塊中的日志信息,并根據該日志信息,生成優化步長信息并存儲。優選地,步長管理模塊可以采用一個管理線程在后臺檢測日志模塊是否有新的日志信息,若有,則提取新的日志信息至一個全局排隊列表中,可配置提取頻率,如3分鐘/次;然后管理線程啟動若干個用于計算動態步長的子線程,子線程可以是4個,子線程根據全局排隊列表中的日志信息,生成優化步長信息,并存儲于一個優化結果表中,以供抽取模塊進行分段抽取。根據本專利技術的一種實施方式,抽取模塊判斷所述步長管理模塊中是否存儲有優化步長信息,若是,則根據所述優化步長信息對表進行分段構造,并根據構造的分段對表進行分段抽取;否則,根據固定步長信息對表進行分段構造,并根據構造的分段對表進行分段抽取;其中,優化步長信息和固定步長信息均包括分段總數及每個分段的抽取行數。根據本專利技術的一種實施方式,日志信息包括對表進行分段抽取時每個分段的開始位置、結束位置及抽取行數。根據本專利技術的一種實施方式,步長管理模塊包括:日志檢測子模塊,用于從所述日志模塊中提取日志信息;步長計算子模塊,用于根據日志信息中記錄的每個分段的開始位置、結束位置及抽取行數,計算出最優的分段數及每個分段的最優步長,得到優化步長信息;存儲子模塊,用于存儲優化步長信息。根據本專利技術的一種實施方式,步長計算子模塊計算出每個分段的最優步長,得到優化步長信息,其原理是將低于平均抽取行數的分段進行合并,將高于平均抽取行數的分段進行拆分,具體包括:按照每個分段的開始位置對每個分段進行升序排序;計算每個分段的平均抽取行數m,其公式為:m = L/n,其中,L為每個分段的行數的合計值,η為總的分段數;合并抽取行數低于平均抽取行數m的相鄰分段,并記錄通過合并而得到的分段數ηι;記錄讀取行數等于平均讀取行數m的分段數n2;計算需拆分的分段數n3,其公式為:η3 = η—ηι—Π2 ;計算每個需拆分分段X的拆分分段數kx,其公式為:kxzLx/UXm,其中,Lx為該需拆分分段X的抽取行數,U為需拆分的分段總行數合計值;計算每個需拆分分段X拆分后的每個分段的行數Lxx:Lxx=Lx/kx;計算優化后的分段總數N,其公式為:Ν=ηι+η2+ηχ,其中,nx為每個需拆分分段拆分后分段數的合計值;將優化后的分段總數N及每個分段的抽取行數作為優化步長信息。優選地,可將分段合并及分段拆分的條件進一步進行限定,如,將抽取行數小于m/2的相鄰分段進行合并,將抽取行數大于等于m/2且小于等于3m/2的分段進行保留,將抽取行數大于3m/2的分段進行拆分。圖2是本專利技術提供的關系型數據庫中表分段抽取方法的流程圖,方法包括:S1,對表進行分段抽取;S2,根據分段抽取結果,生成日志信息并存儲;S3,提取存儲的日志信息,并根據該日志信息,生成優化步長信息并存儲。根據當前第1頁1 2 本文檔來自技高網
    ...

    【技術保護點】
    一種關系型數據庫中表分段抽取系統,其特征在于,包括:抽取模塊,用于對表進行分段抽取;日志模塊,用于根據抽取模塊的分段抽取結果,生成日志信息并存儲;步長管理模塊,用于提取所述日志模塊中的日志信息,并根據該日志信息,生成優化步長信息并存儲。

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:郭李明
    申請(專利權)人:北京京東尚科信息技術有限公司北京京東世紀貿易有限公司
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩人妻无码精品久久免费一| 亚洲国产精品无码久久九九 | 精品无码AV一区二区三区不卡| 亚洲AV无码专区国产乱码电影| 亚洲中文字幕无码av在线| 国产成人无码av在线播放不卡| 日韩乱码人妻无码中文视频| 中文无码vs无码人妻| 亚洲另类无码一区二区三区| 中文字幕精品无码一区二区三区| 亚洲av中文无码字幕色不卡| 久久人妻少妇嫩草AV无码专区 | 国产成人无码av| 无码中文人妻在线一区| 人妻丰满熟妇AV无码片| 亚洲爆乳无码一区二区三区| 国产免费久久久久久无码| 亚洲精品无码久久毛片波多野吉衣| 人妻系列AV无码专区| 免费无码国产V片在线观看| 亚洲色无码国产精品网站可下载| 亚洲AV无码一区东京热| 久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 亚洲AV无码专区国产乱码电影| 国产成人精品无码一区二区老年人| 无码国产精品一区二区免费虚拟VR| 伊人久久精品无码二区麻豆| 国产成人亚洲综合无码| 狠狠精品久久久无码中文字幕| 日韩AV无码精品一二三区| a级毛片无码免费真人| 日韩激情无码免费毛片| 国产在线无码精品无码| 亚洲 另类 无码 在线| YY111111少妇无码理论片| 亚洲中文字幕无码中文字在线| HEYZO无码综合国产精品227| 国产麻豆天美果冻无码视频| 成人无码一区二区三区| 国产亚洲精品无码成人| 久久精品无码精品免费专区|