本發明專利技術公開了一種面向大數據的多范型融合分析處理方法,該方法包括以下步驟:數據預處理階段;配置文件階段:數據查詢分析階段;用戶反饋階段。本發明專利技術提出的基于GBase數據庫的大數據多范型融合分析處理是可以有效滿足大數據分析市場需求的解決方案。
Multi paradigm fusion analysis processing method for large data
The invention discloses a multi paradigm for the integration of large data analysis methods, the method comprises the following steps: data preprocessing; configuration file: data query analysis stage; user feedback stage. The method of fusion and analysis of large data and multiple patterns based on GBase database provided by the invention is a solution that can effectively meet the market demand of large data analysis.
【技術實現步驟摘要】
一種面向大數據的多范型融合分析處理方法
本專利技術涉及互聯網
,具體地說,涉及一種面向大數據的多范型融合分析處理方法。
技術介紹
自上世紀90年代萬維網應用普及以來,人類社會每年產生和收集的數據量以驚人的速度增長著。從目前萬維網應用的發展趨勢看,數據增長速率有增無減,已遠超過摩爾定律的增長速率。IDC的調查顯示,從2013開始全球產生的數據量以每年40%的速度增長,到2020年全球數據量將增長為現在的10倍,即44。毋容置疑,這標志著人類早經邁入了“大數據時代”。大數據的特點可概括為:大容量(Volume)、高速率(Velocity)、多樣化(Variety)和總體價值(Value),即“4個V”。在大數據時代,數據在量上的增長已經產生了質的飛躍,原來很多困難的事情,借助大數據已變成了現實,大數據分析應運而生。大數據分析(BigDataAnalysis)是通過計算工具處理和分析大數據集,從中發現隱藏的模式、未知的關聯、未來的趨勢、用戶的偏好、有用的商業信息等各種新知識。這項技術對于任何企業和組織的發展都是至關重要的,因為它使得大數據成為了推動企業進行科學決策和戰略發展的抓手,將大數據化為了一種與競爭對手比拼的戰略資源。可以預見,在未來十年的時間內,誰成功駕馭了大數據分析的利器,誰就贏得了未來企業競爭的商機,誰就能夠占領行業制高點。傳統關系型數據管理技術雖然經歷了并行化的發展,但在一些特殊的應用場景下,依舊不能滿足大數據的分析任務,在擴展性和適應性上遇到了巨大障礙。大數據分析方法與技術需要解決的矛盾是:如何在盡量短的時間內,處理和分析盡量多的數據以發現和獲取盡量豐富的新知識。作為大數據科學與技術的一個主要方向,當下的大數據分析理論、方法和技術和工具還遠未達到現實世界中企業對大數據進行分析處理的要求。突破若干大數據分析面臨的棘手問題,研發出一套大數據分析的有效工具,對于從事大數據分析的研究者和實踐者來說是迫在眉睫的任務。
技術實現思路
本專利技術的目的在于提供一種面向大數據的多范型融合分析處理方法,提出采用“混合架構”(HybridArchitecture)和“多范型融合”(Multi-paradigm)為兩大支柱的大數據分析新型理論與技術體系,力圖攻克大數據分析中混合數據模式、異構數據源、業務流程復雜、分析工具脫節等多種理論和技術難題。為實現上述技術目的,達到上述技術效果,其技術方案具體為:一種面向大數據的多范型融合分析處理方法,包括以下步驟:步驟1、數據預處理階段:該階段獨立于以下業務流程階段,是用戶將所需要的數據經過用戶自定義的規則進行數據清理并存入關系數據庫的過程,用戶需記錄該關系數據庫的位置、用戶名、密碼的連接數據庫時所用到基本信息;步驟2、配置文件階段:配置文件分為關系數據庫配置文件和機器學習配置文件,用戶需要在配置文件中按照給出的標簽填寫相應的參數信息,具體的數據庫配置文件中,“configuration”表示配置文件的開始,在“database”標簽內填寫有關數據庫的信息,其中,用戶需要在“url”中指明在步驟1中提到的數據庫的位置信息,“user”表示該數據庫連接時需要用到的用戶名,“password”是該用戶名對應的密碼,“sql”是數據庫查詢語句;具體的機器學習配置文件中,“database”與上述的數據庫配置文件中的相同,“parameter”表示調用的機器學習算法所需的除了輸入參數外的其他參數,“algorithm”表示需要調用的算法名;步驟3、數據查詢分析階段:根據用戶提供的配置文件信息,開始數據庫查詢和機器學習算法調用,除了“ConfigurationFile”部分通過據查詢信息,框架根據配置文件中有關機器學習的配置文件在機器學習算法庫中調用相應的機器學習算法,根據配置文件中有關數據庫查詢的配置文件在數據庫中進行數據查詢,然后將查詢得到的結果與機器學習計算得到的結果進行比較,判斷這兩部分得到的信息是否符合查詢,最終將查詢結果反饋給用戶;步驟4、用戶反饋階段:用戶根據框架提供的結果判斷是否是用戶希望得到的信息,如果有出入則在配置文件中進行參數調整,再次運行框架以得到結果,多次迭代該過程以達到用戶最終期望的結果。本專利技術具有以下有益效果:本專利技術提出的基于GBase數據庫的大數據多范型融合分析處理是可以有效滿足大數據分析市場需求的解決方案。主要表現在:①基于GBase數據庫構建“混合架構”的大數據分析處理系統,可以有效適應既涉及關系數據又需要分布式大數據支持的數據分析情景;②大數據的多范型融合分析處理,應用面向大數據的分析處理方法學,綜合使用經典OLAP,機器學習和圖分析等多種手段處理大數據,發揮經典OLAP在數據立方體分析,機器學習算法在智能化預測模型建立和圖分析在大圖復雜網絡結構特征方面的優勢,滿足市場對于精準化、智能化大數據分析的新需求。目前南大通用的GBase8a數據庫穩固地占據著國內分析型數據庫的主要市場份額。本專利技術充分發揮南大通用在國產數據庫產業鏈中的產品優勢,打造基于GBase數據庫的面向大數據多范型融合分析處理的原型系統,產學研緊密結合,有利于加速大數據多范型融合分析理論與技術的產業化步伐,從而進一步加強天津國產數據庫在信息產業鏈中的地位。本專利技術具有良好的產業化前景。由于本專利技術是基于GBase數據庫的大數據多范型融合分析處理關鍵技術,可以通過產業化過程,發展成為下一代GBase數據庫發布版本中的創新功能,從而填補在現有產業鏈中國產大數據分析產品的空白。對相關技術與產品及其產業的帶動作用具體可概括為:①將大數據多范型融合分析處理理論體系和技術與GBase數據庫集成在一起,可以實現完全自主知識產權的國產大數據分析產品,做到代碼自主可控,完全符合“自主可控、安全可靠”的國家信息安全戰略,進而為提升國家的信息安全水平做出重大貢獻。②以國產大數據分析產品為基礎,帶動大數據集成、大數據中間件、大數據可視化、大數據決策支持系統等多種下游軟件產品的產業化發展,催生新的大數據分析產業生態環境的形成,促進我國信息產業的發展。附圖說明圖1為本專利技術面向大數據的多范型融合分析處理方法的流程圖;圖2為具體的數據庫配置文件;圖3為具體的機器學習配置文件。具體實施方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。本專利技術是一個面向大數據的多范型融合分析處理框架,是一種多領域的通用技術,詳細的業務流程參見圖1:1、數據預處理階段:該階段獨立于以下業務流程階段,是用戶將所需要的數據經過用戶自定義的規則進行數據清理并存入關系數據庫的過程,用戶需記錄該關系數據庫的位置、用戶名、密碼等連接數據庫時所用到基本信息;2、配置文件階段:即圖1中“ConfigurationFile”,該配置文件分為關系數據庫配置文件和機器學習配置文件,詳細的文件內容如圖2,圖3。用戶需要在配置文件中按照給出的標簽填寫相應的參數信息。圖2是具體的數據庫配置文件,“configuration”表示配置文件的開始,在“database”標簽內填寫有關數據庫的信息,其中,用戶需要在“url”中指明在步驟一中提到的數據庫的位置信息,“user”表示該數據庫連接時需要用到的用戶名,“pa本文檔來自技高網...

【技術保護點】
一種面向大數據的多范型融合分析處理方法,其特征在于,包括以下步驟:步驟1、數據預處理階段:該階段獨立于以下業務流程階段,是用戶將所需要的數據經過用戶自定義的規則進行數據清理并存入關系數據庫的過程,用戶需記錄該關系數據庫的位置、用戶名、密碼的連接數據庫時所用到基本信息;步驟2、配置文件階段:配置文件分為關系數據庫配置文件和機器學習配置文件,用戶需要在配置文件中按照給出的標簽填寫相應的參數信息,具體的數據庫配置文件中,“configuration”表示配置文件的開始,在“database”標簽內填寫有關數據庫的信息,其中,用戶需要在“url”中指明在步驟1中提到的數據庫的位置信息,“user”表示該數據庫連接時需要用到的用戶名,“password”是該用戶名對應的密碼,“sql”是數據庫查詢語句;具體的機器學習配置文件中,“database”與上述的數據庫配置文件中的相同,“parameter”表示調用的機器學習算法所需的除了輸入參數外的其他參數,“algorithm”表示需要調用的算法名;步驟3、數據查詢分析階段:根據用戶提供的配置文件信息,開始數據庫查詢和機器學習算法調用,除了“Configuration?File”部分通過據查詢信息,框架根據配置文件中有關機器學習的配置文件在機器學習算法庫中調用相應的機器學習算法,根據配置文件中有關數據庫查詢的配置文件在數據庫中進行數據查詢,然后將查詢得到的結果與機器學習計算得到的結果進行比較,判斷這兩部分得到的信息是否符合查詢,最終將查詢結果反饋給用戶;步驟4、用戶反饋階段:用戶根據框架提供的結果判斷是否是用戶希望得到的信息,如果有出入則在配置文件中進行參數調整,再次運行框架以得到結果,多次迭代該過程以達到用戶最終期望的結果。...
【技術特征摘要】
1.一種面向大數據的多范型融合分析處理方法,其特征在于,包括以下步驟:步驟1、數據預處理階段:該階段獨立于以下業務流程階段,是用戶將所需要的數據經過用戶自定義的規則進行數據清理并存入關系數據庫的過程,用戶需記錄該關系數據庫的位置、用戶名、密碼的連接數據庫時所用到基本信息;步驟2、配置文件階段:配置文件分為關系數據庫配置文件和機器學習配置文件,用戶需要在配置文件中按照給出的標簽填寫相應的參數信息,具體的數據庫配置文件中,“configuration”表示配置文件的開始,在“database”標簽內填寫有關數據庫的信息,其中,用戶需要在“url”中指明在步驟1中提到的數據庫的位置信息,“user”表示該數據庫連接時需要用到的用戶名,“password”是該用戶名對應的密碼,“sql”是數據庫查詢語句;具體的機器學習配置文件中,“datab...
【專利技術屬性】
技術研發人員:張小旺,馮志勇,張嘉慧,
申請(專利權)人:天津大學,
類型:發明
國別省市:天津,12
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。