本申請涉及一種大數據質量控制方法、系統、超級計算機和計算機可讀存儲介質,其中,該方法包括:源數據獲取步驟,從預設多個數據源獲取源數據;知識圖譜構建步驟,基于源數據經知識抽取、數據對齊構建知識圖譜,知識圖譜包括:實體數據、關系數據、三元組數據及子圖數據;質量控制模型構建步驟,配置質量控制參數并基于質量控制參數及知識圖譜構建質量評價數據集,構建多模態端到端大數據質量控制模型,利用質量評價數據集訓練質量控制模型,訓練后的質量控制模型用于基于輸入的實體數據、子圖數據和/或三元組數據計算并輸出數據置信值。通過本申請,實現基于圖數據的大數據質量控制,提高質量控制方法的領域擴展性。提高質量控制方法的領域擴展性。提高質量控制方法的領域擴展性。
【技術實現步驟摘要】
大數據質量控制方法、系統、超級計算機和存儲介質
[0001]本申請涉及大數據
,特別是涉及大數據質量控制方法、系統、超級計算機和計算機可讀存儲介質。
技術介紹
[0002]數據質量控制是保障大數據整體數據質量的關鍵環節。數據質量控制方法的領域性強,普適性低,缺乏通用性。現有基于深度學習技術的數據質量控制方法往往適用于特定領域,比如:基于深度學習的海溫觀測數據質量控制方法、基于深度學習的醫學放射影像質量控制方法、基于深度學習的環境監測數據質量控制方法等。
[0003]以上方法主要是對序列化數據、圖像數據進行質量控制,且,對數量質量的評價維度依賴于該領域內的數據相關性或合理性,只適用于特定領域,無法擴展適用至其他領域(如生物醫藥領域),無法滿足日益增長的大數據質量控制需求。
[0004]目前針對相關技術中普遍適用的數據質量控制,尚未提出有效的解決方案。
技術實現思路
[0005]本申請實施例提供了一種大數據質量控制方法、系統、超級計算機和計算機可讀存儲介質,實現基于圖數據的大數據質量控制,提高質量控制方法的領域擴展性。
[0006]第一方面,本申請實施例提供了一種大數據質量控制方法,包括:
[0007]源數據獲取步驟,從預設多個數據源獲取源數據;具體的,所述數據源包括:DrugBank、KEGG(KeggDrug)、RCSB PDB、PubMed、Uniprot、Pubchem、Chemspider、Wikipedia、Patent等30個生物醫藥數據庫作為數據源,所述源數據包括疾病、基因、細胞系、蛋白質、靶點、化合物、藥物、通路等8類,源數據中涵蓋了規則庫、算法庫、模型庫、文獻庫、專利庫、本體庫等,其中,蛋白質PRO、細胞系CLO、疾病DOID、化合物CHEBI、通路PW、基因GO數據來源于The OBO Foundry(生物醫學本體資源服務與應用);
[0008]知識圖譜構建步驟,基于所述源數據經知識抽取、數據對齊、數據存儲、增量演化及可視化展示構建知識圖譜,所述知識圖譜包括:實體數據、關系數據、三元組數據及子圖數據;基于所述源數據,知識圖譜中相應的實體包括疾病、基因、細胞系、蛋白質、靶點、化合物、藥物、通路等8類;
[0009]質量控制模型構建步驟,配置質量控制參數并基于所述質量控制參數及知識圖譜構建質量評價數據集,構建多模態端到端大數據質量控制模型,利用所述質量評價數據集訓練所述質量控制模型,訓練后的所述質量控制模型用于基于輸入的實體數據、子圖數據和/或三元組數據計算并輸出數據置信值,所述質量評價數據集的數據用于作為監督學習任務中的參數;其中,所述質量控制參數包括:數據全面性參數、數據時效性參數、數據真實性參數、數據關聯性參數及數據精準性參數。
[0010]在其中一些實施例中,所述質量評價數據集的形式為序列化數據,所述質量評價數據集中包含實體數據、關系數據、三元組數據、子圖數據及質量控制參數中的數據時效性
參數及數據真實性參數,其中,三元組包括:頭實體、關系及尾實體,可表示為(h,r,t),h為頭實體,t為尾實體,r為頭實體與尾實體的關系,數據集中訓練集、驗證集和測試集的占比分別為6:2:2。
[0011]在其中一些實施例中,所述知識圖譜構建步驟進一步包括:
[0012]知識抽取步驟,抽取所述源數據中的多類本體并對本體進行解析,抽取本體中的實體屬性,并根據預定義的本體間關系及本體內實體間關系抽取實體關系,所述實體屬性包括但不限于:實體標識符ID、實體功能描述IAO_0000115、實體命名空間NameSpace、實體標簽Label、實體外部鏈指hasDbXref、實體同義詞Synonym,其中,實體功能描述IAO_0000115為對本體中實體參與的生理過程或功能的描述;所述本體間關系包括但不限于:數據庫鏈指、論文鏈指、網頁鏈指、文獻鏈指。所述本體內實體間關系包括但不限于:同義詞關聯、標簽關聯、子父類關系、命名空間關聯。
[0013]數據對齊步驟,基于所述實體的實體ID或實體標識符ID進行實體對齊。具體的,來源于The OBO Foundry的數據可根據實體標識符ID進行實體對齊,其他數據源的屬性可直接根據實體ID進行對齊。
[0014]在其中一些實施例中,所述質量控制模型構建步驟進一步包括:
[0015]數據獲取步驟,獲取輸入的知識圖譜的子圖數據、三元組數據及實體數據,并計算對應的質量控制參數;具體的,計算質量控制參數中的數據時效性參數及數據真實性參數;
[0016]預訓練模型加載步驟,加載圖預訓練模型訓練子圖數據,并加載文本預訓練模型訓練三元組數據及實體數據,以提升質量控制模型的性能;
[0017]數據嵌入步驟,結合所述質量控制參數對所述子圖數據、三元組數據及實體數據分別進行特征提取及嵌入,得到的子圖向量、三元組向量及實體向量后進行融合,得到特征向量;三類數據對應的模型具體為:對所述子圖數據采用Graph2vec模型,對所述三元組數據采用transformer模型,對所述實體數據采用Node2vec模型。
[0018]模型訓練步驟,利用多頭注意力機制對所述特征向量進行網絡訓練,所訓練網絡包括卷積層、池化層、全連接層及分類網絡softmax,所述分類網絡softmax輸出數據置信值。本步驟通過多頭注意力機制捕捉特征向量中的有效信息,網絡的激活函數采用Relu,學習率配置為0.01,隨機失活dropout配置為0.5,一次訓練所抓取的數據樣本數量batchsize配置為256,其中,分類網絡softmax輸出的數據置信值分布在[0,1]之間,越接近1說明數據質量越高,反之,數據質量越差。
[0019]在其中一些實施例中,所述源數據獲取步驟進一步包括:
[0020]數據內容更新步驟,對所述數據源的數據進行更新,更新方式包括全面更新、通過程序解析進行增量更新和/或通過增量爬蟲進行增量更新。
[0021]第二方面,本申請實施例提供了一種大數據質量控制系統,包括:
[0022]源數據獲取模塊,用于從預設多個數據源獲取源數據;
[0023]知識圖譜構建模塊,用于基于所述源數據經知識抽取、數據對齊、數據存儲、增量演化及可視化展示構建知識圖譜,所述知識圖譜包括:實體數據、關系數據、三元組數據及子圖數據;
[0024]質量控制模型構建模塊,用于配置質量控制參數并基于所述質量控制參數及知識圖譜構建質量評價數據集,構建多模態端到端大數據質量控制模型,利用所述質量評價數
據集訓練所述質量控制模型,訓練后的所述質量控制模型用于基于輸入的實體數據、子圖數據和/或三元組數據計算并輸出數據置信值,所述質量評價數據集的數據用于作為監督學習任務中的參數;其中,所述質量控制參數包括:數據全面性參數、數據時效性參數、數據真實性參數、數據關聯性參數及數據精準性參數。
[0025]在其中一些實施例中,所述知識圖譜構建模塊進一步包括:
[0026]知識抽取模塊,用于抽取所本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種大數據質量控制方法,其特征在于,包括:源數據獲取步驟,從預設多個數據源獲取源數據;知識圖譜構建步驟,基于所述源數據經知識抽取、數據對齊構建知識圖譜,所述知識圖譜包括:實體數據、關系數據、三元組數據及子圖數據;質量控制模型構建步驟,配置質量控制參數并基于所述質量控制參數及知識圖譜構建質量評價數據集,構建多模態端到端大數據質量控制模型,利用所述質量評價數據集訓練所述質量控制模型,訓練后的所述質量控制模型用于基于輸入的實體數據、子圖數據和/或三元組數據計算并輸出數據置信值;其中,所述質量控制參數包括:數據全面性參數、數據時效性參數、數據真實性參數、數據關聯性參數及數據精準性參數。2.根據權利要求1所述的大數據質量控制方法,其特征在于,所述知識圖譜構建步驟進一步包括:知識抽取步驟,抽取所述源數據中的多類本體并對本體進行解析,抽取本體中的實體屬性,并根據預定義的本體間關系及本體內實體間關系抽取實體關系;數據對齊步驟,基于所述實體的實體ID或實體標識符ID進行實體對齊。3.根據權利要求2所述的大數據質量控制方法,其特征在于,所述質量控制模型構建步驟進一步包括:數據獲取步驟,獲取輸入的知識圖譜的子圖數據、三元組數據及實體數據,并計算對應的質量控制參數;預訓練模型加載步驟,加載圖預訓練模型訓練子圖數據,并加載文本預訓練模型訓練三元組數據及實體數據;數據嵌入步驟,結合所述質量控制參數對所述子圖數據、三元組數據及實體數據分別進行特征提取及嵌入,得到的子圖向量、三元組向量及實體向量后進行融合,得到特征向量;模型訓練步驟,利用多頭注意力機制對所述特征向量進行網絡訓練,所訓練網絡包括卷積層、池化層、全連接層及分類網絡softmax,所述分類網絡softmax輸出數據置信值。4.根據權利要求1所述的大數據質量控制方法,其特征在于,所述源數據獲取步驟進一步包括:數據內容更新步驟,對所述數據源的數據進行更新,更新方式包括全面更新、通過程序解析進行增量更新和/或通過增量爬蟲進行增量更新。5.一種大數據質量控制系統,其特征在于,包括:源數據獲取模塊,用于從預設多個數據源獲取源數據;知識圖譜構建模塊,用于基于所述源數據經知識抽取、數據對齊構建知識圖譜,所述知識圖譜包括:實體數據、關系數...
【專利技術屬性】
技術研發人員:楊帥,賈曉藝,蘇亮,譚華,岳國峰,王卓亞,董振華,丁燕梅,王雙,付艷,張楠,
申請(專利權)人:青島國實科技集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。