本發明專利技術公開一種去中心化數據生態系統,包括:任務分配系統,將數據需求方的數據需求信息分配給數據提供方;收到數據提供方提供的數據后,將數據校對任務分別給數據校對方,載入校準數據到數據質量檢測系統;數據質量檢測系統,接收數據校對方的校對數據,根據校準數據和/或AI技術對校對數據檢測,校對確認后向數據需求方交付成品數據,同時向結算系統提交支付指令,向任務分配系統反饋數據制作質量;結算系統,接收數據需求方的預付費用,根據支付指令從預付費用中向數據提供方以及數據校對方支付結算費用。本發明專利技術能以去中心化的方式保證人工校對數據工作的質量。
【技術實現步驟摘要】
一種去中心化的數據生態系統
本專利技術涉及人工智能數據庫的供需生態系統
,具體涉及一種去中心化的數據生態系統。
技術介紹
近十年來,人工智能(AI)取得了飛速的發展。隨著深度學習等技術的開源和計算設備的高速進步,人工智能已經開始逐漸影響人類生活的各個方面。智能語音、人臉識別、自動駕駛等技術已經不再只是學術界的熱點,而是即將真實走入每個人的生活中。在擁有無限可能的人工智能技術及應用背后,提供燃料的是海量的優質數據。這些數據作為人工智能算法的訓練和測試數據,和機器學習算法擁有同樣重要的地位。在深度學習算法已經全面開源的背景下,訓練數據變得尤為重要。在未來,人工智能技術的進步將更加大量依賴于海量的優質數據支持。一方面,現有的人工智能數據的產能有限,無法支持未來的數據需求。另一方面,我們每個人都已經在互聯網上留下了大量數據,但這些數據的產權不明確,利用率有很大提升空間。目前的數據庫產業鏈中,在數據庫需求方和實際制作方之間存在著多級的中間商,導致數據制作效率低,成本高,并無法對采集者的個人信息數據安全提供保障。應用區塊鏈(去中心化)技術是利用海量碎片化互聯網用戶數據、提高數據產能及使用效率的最佳途徑。去中心化的數據生態系統可以使得海量用戶生成的個人數據安全性更高,即數據只對具體數量的數據真正需求方可見,從而排除了各級數據中間商獲得數據中涵蓋信息的可能。另外,去中心化的數據生態系統可以使得數據的提供方獲得對于其提供的數據種類及去向的完全控制權,從而避免了數據中間商濫用數據提供方隱私及個人信息的可能。盡管目前已經存在各種基于哈希(HASH)算法的去中心化協議和解決方案,但這些方案都不能直接被應用到一個去中心化的數據生態系統中。其中最主要的問題在于:數據(如語音數據、圖像數據等)若想對一種人工智能算法(如深度學習)產生貢獻,其數據本身需要被精確標注。如一句語音錄音若想被語音識別算法所應用,必須有伴隨這段語音信號的文本信號(即寫明這段語音信號中的內容,以下稱伴隨數據)一并提供給算法進行訓練。而獲得對于某一數據對應的解釋內容的工作,稱為標注工作,通常需要人工進行校對標注。由此可見,目前的去中心化技術可以保證數據提供方提供的數據的唯一性、安全性及可對某一數據的交易進行記錄等;也可以保證某一對數據的校對者校對產生的伴隨數據的唯一性、安全性及可對某一校對后數據的交易進行記錄。但目前,并不能以去中心化的方式保證人工校對數據工作的質量。若此環節不能保證,則產生的數據將不能被人工智能系統使用。
技術實現思路
本專利技術的目的是針對現有技術中存在的技術缺陷,而提供一種去中心化數據生態系統。為實現本專利技術的目的所采用的技術方案是:一種去中心化數據生態系統,包括:任務分配系統,用于將數據需求方的數據需求信息按預定的分配規則分配給數據提供方;在接收到數據提供方提供的數據后,將數據校對任務按預設分配規則分別給數據校對方,由數據校對方對數據進行標注,并載入校準數據到數據質量檢測系統;數據質量檢測系統,用于接收數據校對方的校對數據,根據載入的校準數據和/或AI技術對校對數據進行檢測,校對確認通過后向數據需求方交付成品數據,同時向結算系統提交支付指令,并同時向任務分配系統進行數據制作質量反饋;結算系統,用于接收數據需求方的預付費用,以及根據數據質量檢測系統的支付指令進行費用結算,向預付費中向數據提供方以及數據校對方支付結算費用。所述數據需求信息包括數據類型、數據規模、數據價格、數據質量要求、數據質檢方法。所述任務分配系統在收到數據需求信息后,先按對數據需求方事先約定的規則進行提交需求的檢驗,如滿足檢驗要求,則向數據提供方分配數據采集任務;否則向數據需求方反饋,要求數據需求方修改,反復執行,直到通過檢驗為止。所述任務分配系統在向數據提供方分配數據采集任務前,先向下廣播征集數據提供方及數據校對方,如在一定時間之內未能獲得最小的參與方數量,則向數據需求方反饋結果,并提示數據需求方修改需求,直至達成最小參與方數量。所述任務分配系統收到的數據提供方提交的數據中的每一個最小單元數據將與數據提供方的個人識別信息一并通過希運算生成一個固定長度的哈希值。所述數據質量檢測系統收到數據校對方提交的校對數據中的每一個最小單元數據將與數據標注信息、數據校對方的個人識別信息一并通過希運算生成一個固定長度的哈希值。所述數據質量檢測系統在校對不通過時,向數據校對方發送校對返工指令,數據校對方需在提高校對質量后再進行上傳直到通過。所述校準數據是由數據需求方提供的成品數據。所述數據質量檢測系統通過所述的校準數據和或人工智能來對校對數據進行檢測。本專利技術提供的去中心化數據生態系統,能以去中心化的方式保證人工校對數據工作的質量,保證產生的數據將能被人工智能系統使用。附圖說明圖1是去中心化的數據生態系統的原理示意圖。具體實施方式以下結合附圖和具體實施例對本專利技術作進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。參見圖1所示,一種去中心化的數據生態系統,包括:任務分配系統,用于將數據需求方的數據需求信息按預定的分配規則分配給數據提供方;在接收到數據提供方提供的數據后,將數據校對任務按預設分配規則分別給數據校對方,由數據校對方對數據進行標注,并載入校準數據到數據質量檢測系統;數據質量檢測系統,用于接收數據校對方的校對數據,根據載入的校準數據和/或AI技術對校對數據進行檢測,校對確認通過后向數據需求方交付成品數據,同時向結算系統提交支付指令,并同時向任務分配系統進行數據制作質量反饋;結算系統,用于接收數據需求方的預付費用,以及根據數據質量檢測系統的支付指令進行費用結算,向預付費中向數據提供方以及數據校對方支付結算費用。需要說明的是,本專利技術中,數據生態系統中的各個子系統都是以去中心化的方式進行構建的,即各個系統只是邏輯上存在,但實際上以分布式的方式部署在為數據生態系統提供算力的計算機中,通過加密的互聯網形式進行數據機指令的傳輸。任何具有計算資源的實體都可以為系統提供算力并從中獲利,其中也包括了數據需求方、數據提供方和數據校對方。其中,本專利技術中,所述數據需求的數據需求信息或規格需求,由數據需求向任務分配系統提交包括,但不限于數據類型(如語音、圖像、文本、視頻等)、數據規模、數據價格、數據質量要求、數據質檢方法(如采用數據需求方提供的校準數據質檢,還是使用人工智能AI技術質檢)。其中,所述任務分配系統在收到數據需求信息后,先按對數據需求方事先約定的規則進行提交需求的檢驗,如滿足檢驗要求,則向數據提供方分配數據采集任務;否則向數據需求方反饋,反饋存在的問題,要求數據需求方修改;待數據需求方修改之后再次提交審核。反復執行此過程直到需求通過為止。其中,在數據需求方的數據需求通過系統審查之后,所述任務分配系統在向數據提供方分配數據采集任務前,先向下廣播征集數據提供方以及數據校對方,如在一定時間之內未能獲得系統要求的最小的參與方數量,則任務分配系統向數據需求方反饋結果,并提示數據需求方修改需求(如數據價格或報價),直至達成最小參與方數量。在達成最小參與方數量后,由數據需求方按一定比例預先支付費用到結算系統中,然后再由所述任務分配系統向數據提供方分配數據采集任務,開始數據本文檔來自技高網...
【技術保護點】
1.一種去中心化的數據生態系統,其特征在于,包括:任務分配系統,用于將數據需求方的數據需求信息按預定的分配規則分配給數據提供方;在接收到數據提供方提供的數據后,將數據校對任務按預設分配規則分別給數據校對方,由數據校對方對數據進行標注,并載入校準數據到數據質量檢測系統;數據質量檢測系統,用于接收數據校對方的校對數據,根據載入的校準數據和/或AI技術對校對數據進行檢測,校對確認通過后向數據需求方交付成品數據,同時向結算系統提交支付指令,并同時向任務分配系統進行數據制作質量反饋;結算系統,用于接收數據需求方的預付費用,以及根據數據質量檢測系統的支付指令進行費用結算,從預付費中向數據提供方以及數據校對方支付結算費用。
【技術特征摘要】
1.一種去中心化的數據生態系統,其特征在于,包括:任務分配系統,用于將數據需求方的數據需求信息按預定的分配規則分配給數據提供方;在接收到數據提供方提供的數據后,將數據校對任務按預設分配規則分別給數據校對方,由數據校對方對數據進行標注,并載入校準數據到數據質量檢測系統;數據質量檢測系統,用于接收數據校對方的校對數據,根據載入的校準數據和/或AI技術對校對數據進行檢測,校對確認通過后向數據需求方交付成品數據,同時向結算系統提交支付指令,并同時向任務分配系統進行數據制作質量反饋;結算系統,用于接收數據需求方的預付費用,以及根據數據質量檢測系統的支付指令進行費用結算,從預付費中向數據提供方以及數據校對方支付結算費用。2.根據要求1所述去中心化的數據生態系統,其特征在于,所述數據需求信息包括數據類型、數據規模、數據價格、數據質量要求、數據質檢方法。3.根據要求1所述去中心化的數據生態系統,其特征在于,所述任務分配系統在收到數據需求信息后,先按對數據需求方事先約定的規則進行提交需求的檢驗,如滿足檢驗要求,則向數據提供方分配數據采集任務;否則向數據需求方反饋,...
【專利技術屬性】
技術研發人員:吳妍,鄭羲光,
申請(專利權)人:北京慧聽科技有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。