• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>深圳大學專利>正文

    一種基于Spark語義的數據重用方法及其系統技術方案

    技術編號:14786063 閱讀:524 留言:0更新日期:2017-03-11 00:08
    本發明專利技術提供一種基于Spark語義的數據重用方法,其中,所述方法包括:語義信息收集步驟、收集Spark應用運行時的語義信息;語義維護步驟、維護來自所述語義信息收集步驟所收集到的語義信息;數據主動緩存步驟、根據所述語義信息和預設的閾值模型緩存未被用戶程序顯式緩存的數據;緩存數據遷移步驟、根據所述語義信息和預設的閾值模型將緩存數據在動態隨機存取存儲器與固定存儲器之間遷移。本發明專利技術還提供一種基于Spark語義的數據重用系統。本發明專利技術提供的技術方案能減少重復數據計算,提升計算效率,有效避免了對開發人員經驗的依賴。

    【技術實現步驟摘要】

    本專利技術涉及數據處理領域,尤其涉及一種基于Spark語義的數據重用方法及其系統
    技術介紹
    Spark是目前高效且在產業界被廣泛使用的大數據計算框架,尤其適用于多次迭代計算的應用領域,如機器學習、圖處理、數據挖掘、交互式查詢等,其原因在于spark可以將中間數據緩存在內存中。Spark比Hadoop更加通用、靈活,為用戶提供了多種算子,并且用戶可以命名、物化和控制中間結果的存儲、分區等,這給開發上層應用的用戶提供了方便。此外,目前Spark的性能瓶頸已經轉向CPU與內存,大容量的內存將有效地提升Spark的內存計算效率。非易失內存具有容量大、讀速率快、功耗低的特點可以有效解決Spark內存計算對內存容量的需求。目前,對Spark的數據重用技術僅局限于其本身提供的緩存算子cache等,而且這需要程序開發人員對應用程序熟悉,在程序中必須人為指導地顯式調用緩存操作,不能進行啟發式的自動緩存操作,并且也不具備重用緩存數據的遷移功能。
    技術實現思路
    有鑒于此,本專利技術的目的在于提供一種基于Spark語義的數據重用方法及其系統,旨在解決現有技術中由于過度依賴人為指導地顯式調用緩存操作,不能進行啟發式的自動緩存操作,并且也不具備重用緩存數據的遷移功能而導致數據重用率較低且計算時間較長的問題。本專利技術提出一種基于Spark語義的數據重用方法,主要包括:語義信息收集步驟、收集Spark應用運行時的語義信息;語義維護步驟、維護來自所述語義信息收集步驟所收集到的語義信息;數據主動緩存步驟、根據所述語義信息和預設的閾值模型緩存未被用戶程序顯式緩存的數據;緩存數據遷移步驟、根據所述語義信息和預設的閾值模型將緩存數據在動態隨機存取存儲器與固定存儲器之間遷移。另一方面,本專利技術還提供一種基于Spark語義的數據重用系統,所述系統包括:語義信息收集模塊,用于收集Spark應用運行時的語義信息;語義維護模塊,用于維護來自所述語義信息收集步驟所收集到的語義信息;數據主動緩存模塊,用于根據所述語義信息和預設的閾值模型緩存未被用戶程序顯式緩存的數據;緩存數據遷移模塊,用于根據所述語義信息和預設的閾值模型將緩存數據在動態隨機存取存儲器與固定存儲器之間遷移。本專利技術提供的技術方案,通過引入混合內存介質,在不增加集群規模的前提下增大了集群內存容量;通過語義信息的探索和啟發式數據緩存,可以主動將被應用程序多次使用而又未被用戶程序顯式緩存的數據緩存起來,減少重復數據計算,提升計算效率,加速計算,有效避免了對開發人員經驗的依賴;在數據緩存較多時,通過將緩存數據從動態隨機存取存儲器(DRAM)遷移到固定存儲器(NVM),可以避免DRAM容量緊張;在DRAM內存充足時,通過將緩存數據從NVM遷移到DRAM,可以提升計算速率。附圖說明圖1為本專利技術一實施方式中基于Spark語義的數據重用方法流程圖;圖2為本專利技術一實施方式中的軟件系統架構圖;圖3為本專利技術一實施方式中基于Spark語義的數據重用系統10的內部結構示意圖。具體實施方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。本專利技術提供的技術方案,為了提升Spark中的數據重用效率,加速計算,需要在Spark中設計能適應混合內存介質的啟發式數據緩存與遷移機制。其原因在于在這種迭代計算框架的應用中,需要反復操作的次數越多、所需讀取的數據量越大,計算受益越大,機器學習算法、交互式查詢都是典型的應用,需要對重用數據進行緩存操作;非易失內存為需要緩存的數據提供了大的內存容量,在動態隨機存取存儲器(DRAM)內存緊張時,可以將緩存在DRAM的數據遷移到非易失內存。以下將對本專利技術所提供的一種基于Spark語義的數據重用方法進行詳細說明。請參閱圖1,為本專利技術一實施方式中基于Spark語義的數據重用方法流程圖。在步驟S1中,語義信息收集步驟、收集Spark應用運行時的語義信息。在本實施方式中,所述語義信息收集步驟主要包括:根據Spark任務在被執行時,利用調度器(DAGscheduler)將Spark任務拆分成多個有依賴關系的執行階段(Stage),然后通過語義收集器在Spark任務被執行過程中收集語義信息。在本實施方式中,為了克服現有技術的缺陷,提供一種基于Spark語義的數據重用方法,該方法引入了非易失內存,在Spark中設計能適應混合內存介質的啟發式數據緩存與遷移機制,在保證數據內存充足的前提下,提高數據重用率,減少計算時間。具體的,將混合內存應用在spark上,并設計啟發式數據重用方法。所述混合內存指的是DRAM和固定存儲器(non-volatilememory,NVM,也稱之為非易失性存儲器或者非易失內存)混合介質;所述的啟發式數據重用方法包括主動緩存機制和緩存數據遷移機制,體現在spark語義收集、語義維護、主動緩存和緩存數據遷移四個方面。其中,混合內存材質可以是Flash,結構可以是外部式結構。在本實施方式中,所述語義信息可以保存以下信息:Stageid、RDDid、RDDid_size、RDDid_readtimes、RDDid_cacheflag、Cache_type。其中,Stageid表示Stage的標號,RDDid表示Stage中某一RDD的標號,RDDid_size表示這個RDD的大小,RDDid_readtimes表示該RDD被讀(或者被使用)的次數,RDDid_cacheflag表示布爾值,表明一個RDD是否被用戶程序顯式緩存,Cache_type表示數據緩存的位置。其中,Stage表示執行階段,RDD(ResilientDistributedDatasets)表示彈性分布式數據集,是分布式內存的一個抽象概念,是spark中最重要的概念,可以簡單的把RDD理解成一個提供了許多操作接口的數據集合,和一般數據集不同的是,其實際數據分布存儲于一批機器中(內存或磁盤中),當然,RDD肯定不會這么簡單,它的功能還包括容錯、集合內的數據可以并行處理等。與許多專有的大數據處理平臺不同,Spark建立在統一抽象的RDD之上,使得它可以以基本一致的方式應對不同的大數據處理場景。在步驟S2中,語義維護步驟、維護來自所述語義信息收集步驟所收集到的語義信息。在本實施方式中,所述語義維護步驟主要包括:利用語義信息維護組件保存并維護來自所述語義信息收集步驟所收集到的語義信息,并在維護過程中利用所述語義信息維護組件根據用戶預定義的閾值觸發緩存操作,其中,維護操作包括增加語義信息操作、修改語義信息操作以及刪除語義信息操作。在本實施方式中,本專利技術提供的語義收集主要通過在spark中設計語義信息收集器,用于在程序運行時,收集語義信息,并傳遞給予語義維護步驟,本專利技術提供的語義維護主要通過在spark中設計語義信息維護組件,用于維護語義信息,并運行閾值模型,觸發執行引擎中的數據緩存或遷移。主要分兩方面:(a)、跟蹤并計算語義中未顯式緩存的RDD的大小以及讀次數,然后判別是否到達閾值模型中的閾值,觸發緩存操作,并修改維護的語義;(b)、跟蹤并計算語義中已經被緩存(包含用戶顯式緩存與啟發式緩存)的RDD的大小以及讀次數本文檔來自技高網...
    一種基于Spark語義的數據重用方法及其系統

    【技術保護點】
    一種基于Spark語義的數據重用方法,其特征在于,所述方法包括:語義信息收集步驟、收集Spark應用運行時的語義信息;語義維護步驟、維護來自所述語義信息收集步驟所收集到的語義信息;數據主動緩存步驟、根據所述語義信息和預設的閾值模型緩存未被用戶程序顯式緩存的數據;緩存數據遷移步驟、根據所述語義信息和預設的閾值模型將緩存數據在動態隨機存取存儲器與固定存儲器之間遷移。

    【技術特征摘要】
    1.一種基于Spark語義的數據重用方法,其特征在于,所述方法包括:語義信息收集步驟、收集Spark應用運行時的語義信息;語義維護步驟、維護來自所述語義信息收集步驟所收集到的語義信息;數據主動緩存步驟、根據所述語義信息和預設的閾值模型緩存未被用戶程序顯式緩存的數據;緩存數據遷移步驟、根據所述語義信息和預設的閾值模型將緩存數據在動態隨機存取存儲器與固定存儲器之間遷移。2.如權利要求1所述的基于Spark語義的數據重用方法,其特征在于,所述語義信息收集步驟主要包括:根據Spark任務在被執行時,利用調度器將Spark任務拆分成多個有依賴關系的執行階段,然后通過語義收集器在Spark任務被執行過程中收集語義信息。3.如權利要求2所述的基于Spark語義的數據重用方法,其特征在于,所述語義維護步驟主要包括:利用語義信息維護組件保存并維護來自所述語義信息收集步驟所收集到的語義信息,并在維護過程中利用所述語義信息維護組件根據用戶預定義的閾值觸發緩存操作,其中,維護操作包括增加語義信息操作、修改語義信息操作以及刪除語義信息操作。4.如權利要求3所述的基于Spark語義的數據重用方法,其特征在于,所述數據主動緩存步驟主要包括:跟蹤并計算語義中未被用戶程序顯式緩存的彈性分布數據集的大小以及讀次數,如果大小和讀次數都到達閾值模型中對應的閾值時,則觸發緩存操作將沒有主動緩存的數據緩存到所述固定存儲器中,如果大小沒有到達閾值但是讀次數達到了閾值時,則觸發緩存操作將沒有主動緩存的數據緩存到所述動態隨機存取存儲器中。5.如權利要求4所述的基于Spark語義的數據重用方法,其特征在于,所述緩存數據遷移步驟主要包括:對于已經被緩存的數據,如果彈性分布數據集的大小達到閾值但讀次數沒有達到閾值,且此時所述動態隨機存取存儲器的存儲空間不足時,則將已經緩存到所述動態隨機存取存儲器中的數據遷移至所述固定存儲器中進行存儲,反之則遷移到所述動態隨機存取存儲器進行存儲。6.一種...

    【專利技術屬性】
    技術研發人員:陸克中毛一帆黃澤成王明儉毛睿廖好
    申請(專利權)人:深圳大學
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码国产精品色| 免费A级毛片无码A∨免费 | 国产午夜无码片在线观看| 免费无码AV电影在线观看| 亚洲日韩激情无码一区| 成人麻豆日韩在无码视频| 人妻无码αv中文字幕久久| 日韩中文无码有码免费视频 | 亚洲AV无码专区在线亚| 国产亚洲美日韩AV中文字幕无码成人| 免费无码一区二区三区| 大桥久未无码吹潮在线观看| 免费无码黄网站在线观看| 2021无码最新国产在线观看| 无码一区二区三区免费| 无码毛片一区二区三区视频免费播放 | 人妻AV中出无码内射| 免费无码一区二区三区蜜桃大| 久久AV高潮AV无码AV| 少妇无码一区二区二三区| 亚洲国产成人精品无码久久久久久综合 | 无码毛片一区二区三区视频免费播放| 精品国产V无码大片在线看| 亚洲综合无码一区二区| 无码人妻精品一区二区三区久久 | 国产精品三级在线观看无码 | 亚洲国产精品无码久久久秋霞1| 亚洲一区爱区精品无码| 国产精品无码久久综合| 中文字幕无码第1页| 中文字幕AV中文字无码亚| 中文字幕无码毛片免费看| 国产成人无码免费网站| 国产成人无码精品久久久性色| 无码精品不卡一区二区三区 | 亚洲精品无码专区在线播放| 亚洲中文无码卡通动漫野外| 成人免费一区二区无码视频| 色欲AV无码一区二区三区| 亚洲?V无码乱码国产精品| 免费无码午夜福利片|