本申請實施例公開了一種文件標注系統及方法,其屬于數據分類領域。該系統包括:數據上傳模塊,用于將采集到的原始數據文件上傳到數據庫中;數據預判斷模塊,用于根據預判斷處理規則對數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與原始數據文件對應的機器標注信息;頁面標注模塊,用于顯示原始數據文件及其對應的機器標注信息,接收與原始數據文件對應的用戶輸入信息,根據用戶輸入信息生成與原始數據文件對應的用戶標注信息;數據存儲模塊,用于根據用戶標注信息,生成與原始數據文件對應的標注數據文件。上述方案保證了標注系統的安全性、效率性、機密性和統一性,極大地方便了文件標注工作。
【技術實現步驟摘要】
本申請實施例涉及數據分類領域,尤其涉及一種文件標注系統及方法。
技術介紹
隨著大數據時代的到來,越來越多的公司重視對于數據的收集。可是由于數據來源的不同,公司收集的大量數據都是比較雜亂的,不同渠道的數據形式各不相同:1、文件格式不同;2、對于相同內容的字段,所用的字段名不同;3、對于文本文件,所用的字段之間的分隔符不同;4、文本編碼方式不同,等等。鑒于上述情況,為了能有效地利用數據,就需要對這些數據進行人工標注。因為數據量比較大,所以需要較多的標注者一起標注。同時,因為這些數據文件是公司的重要文件,不能泄密,所以需要盡可能地不把數據完全展現給標注者。目前,在現有技術中,一種方案的專注點是針對單個文件進行標注,例如編寫一個可視化的數據清洗流程,然后對文件一個一個的執行這個流程;另一個方案的專注點是針對同一文件進行多人標注,如果多人標注相同,則認為該標注為正確標注。在實現本申請實施例的過程中,專利技術人發現現有技術至少存在如下問題:在第一種現有技術方案中,創建一個工作流的工作量比較大,而且對于每個字段和分隔符都需要人工判斷,進一步加大了人工工作量;同時,因為該方案無法處理數據庫文件,所以用于標注的文件都需要手工導出;另外,因為需要進行標注的數據文件都需要在標注者本地運行,所以,數據文件需要完整的發給每一個標注者,從而導致重要的數據文件存在極大的泄密風險。而在第二種方案中,每個標注者都需要自己維護一套用于標注的代碼,做了很多重復性工作,出錯風險也隨之增大,同時每個字段和分隔符都需要人工判斷,所以標注工作量非常大;另外,也會出現第一種方案中,標注文件需要手工導出和數據文件存在泄密風險的問題。
技術實現思路
鑒于上述問題,提出了本申請實施例以便提供一種解決上述問題的文件標注系統及方法。依據本申請實施例的一個方面,提供了一種文件標注系統,包括:數據上傳模塊,用于將采集到的原始數據文件上傳到數據庫中;數據預判斷模塊,用于根據預判斷處理規則對數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與原始數據文件對應的機器標注信息;頁面標注模塊,用于顯示原始數據文件及其對應的機器標注信息,接收與原始數據文件對應的用戶輸入信息,根據用戶輸入信息生成與原始數據文件對應的用戶標注信息;數據存儲模塊,用于根據用戶標注信息,生成與原始數據文件對應的標注數據文件。依據本申請實施例的另一個方面,提供了一種文件標注方法,包括:將采集到的原始數據文件上傳到數據庫中;根據預判斷處理規則對數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與原始數據文件對應的機器標注信息;顯示原始數據文件及其對應的機器標注信息,接收與原始數據文件對應的用戶輸入信息,根據用戶輸入信息生成與原始數據文件對應的用戶標注信息;根據用戶標注信息,生成與原始數據文件對應的標注數據文件。本申請實施例提供的一種文件標注系統及方法,將采集到的原始數據文件上傳到數據庫中;根據預判斷處理規則對數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與原始數據文件對應的機器標注信息;顯示原始數據文件及其對應的機器標注信息,接收與原始數據文件對應的用戶輸入信息,根據用戶輸入信息生成與原始數據文件對應的用戶標注信息;根據用戶標注信息,生成與原始數據文件對應的標注數據文件。由此可見,本申請實施例通過將數據文件存入數據庫的方式實現了數據文件的統一管理,同時保存了用戶標注信息,不會因為文件刪除導致丟失,保證了標注系統的安全性;通過預判斷處理,提示標注者可能的分隔符和字段名,提高了標注效率,保證了標注系統的效率性;通過統一平臺選擇性地向標注者顯示原始數據文件及其對應的機器標注信息并接收用戶輸入信息,實現了數據的選擇性分發和在同一平臺上進行多人標注,保證了系統的機密性和統一性。上述說明僅是本申請實施例技術方案的概述,為了能夠更清楚了解本申請實施例的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請實施例的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。附圖說明一個或多個實施例通過與之對應的附圖中的圖片進行示例性說明,這些示例性說明并不構成對實施例的限定,附圖中具有相同參考數字標號的元件表示為類似的元件,除非有特別申明,附圖中的圖不構成比例限制。圖1是本申請實施例一提供的一種文件標注系統的結構示意圖;圖2是本申請實施例二提供的一種文件標注系統的結構示意圖;圖3是本申請實施例三提供的一種文件標注方法的流程圖;圖4是本申請實施例四提供的一種文件標注方法的流程圖;圖5是本申請實施例二提供的一種文件標注系統中數據上傳模塊的業務流程示意圖;圖6是本申請實施例二提供的一種文件標注系統中分隔符預判斷子模塊的業務流程示意圖;圖7是本申請實施例二提供的一種文件標注系統中字段預判斷子模塊的業務流程示意圖;圖8是本申請實施例二提供的一種文件標注系統中頁面標注模塊的結構示意圖;圖9是本申請實施例二提供的一種文件標注系統中數據存儲模塊的業務流程示意圖。具體實施方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。實施例一圖1是本申請實施例一提供的一種文件標注系統的結構示意圖。如圖1所示,該系統包括數據上傳模塊11、數據預判斷模塊12、頁面標注模塊13和數據存儲模塊14。數據上傳模塊11,用于將采集到的原始數據文件上傳到數據庫中。在具體實施中,該模塊需要對采集到的原始數據進行一系列的初步處理,之后再將初步處理后的原始數據文件上傳到數據庫中。在這種情況下,之后對原始數據文件進行的標注處理均可在數據庫中完成,極大的方便了數據的管理,一定程度上也有利于提高標注效率。數據預判斷模塊12,用于根據預判斷處理規則對數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與原始數據文件對應的機器標注信息。其中,機器標注信息包括選定分隔符信息以及預判斷字段名信息。該模塊的作用是根據預設的處理規則,對需要標注的原始數據文件進行預處理,通過一定的方式,選出選定分隔符和預判斷字段名。該選定分隔符和預判斷字段名用于當用戶進行人工標注時,提示用戶可以參考選定分隔符和預判斷字段名來決定用戶標注信息。頁面標注模塊13,用于顯示原始數據文件及其對應的機器標注信息,接收與原始數據文件對應的用戶輸入信息,根據用戶輸入信息生成與原始數據文件對應的用戶標注信息。在具體實施中,該模塊主要通過例如目錄結構來直觀有序地展示系統中的原始數據文件,并方便用戶選擇需要標注的數據文件。同時,該模塊通過網頁或APP等方式向用戶分發需要標注的數據,既方便用戶隨時隨地的進行標注,又能讓多個用戶同時對數據庫中的數據進行標注,同時,還可以只展示部分數據給用戶標注,保證了數據文件本身的機密性不受威脅。數據存儲模塊14,用于根據用戶標注信息,生成與原始數據文件對應的標注數據文件。在具體實施中,該模塊還可以對標注完成后的原始數據文件進行進一步處理,例如校驗用戶標注是否正確、將處理好的數據文件轉換成統一的文件格式等,這一系列的處理使本文檔來自技高網...

【技術保護點】
一種文件標注系統,其特征在于,包括:數據上傳模塊,用于將采集到的原始數據文件上傳到數據庫中;數據預判斷模塊,用于根據預判斷處理規則對所述數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與所述原始數據文件對應的機器標注信息;頁面標注模塊,用于顯示所述原始數據文件及其對應的機器標注信息,接收與所述原始數據文件對應的用戶輸入信息,根據所述用戶輸入信息生成與所述原始數據文件對應的用戶標注信息;數據存儲模塊,用于根據所述用戶標注信息,生成與所述原始數據文件對應的標注數據文件。
【技術特征摘要】
1.一種文件標注系統,其特征在于,包括:數據上傳模塊,用于將采集到的原始數據文件上傳到數據庫中;數據預判斷模塊,用于根據預判斷處理規則對所述數據庫中的原始數據文件進行預判斷處理,根據預判斷處理結果生成與所述原始數據文件對應的機器標注信息;頁面標注模塊,用于顯示所述原始數據文件及其對應的機器標注信息,接收與所述原始數據文件對應的用戶輸入信息,根據所述用戶輸入信息生成與所述原始數據文件對應的用戶標注信息;數據存儲模塊,用于根據所述用戶標注信息,生成與所述原始數據文件對應的標注數據文件。2.根據權利要求1所述的系統,其特征在于,所述數據上傳模塊進一步包括:解壓縮子模塊,用于根據文件后綴名識別所述原始數據文件中的壓縮格式文件,對所述壓縮格式文件進行解壓縮處理;信息采集子模塊,用于獲取所述原始數據文件的文件信息,其中,所述文件信息用于確定所述數據庫中的多個原始數據文件的排列順序;校驗子模塊,用于將所述原始數據文件的標識信息與所述系統數據庫中已錄入的各個文件的標識信息進行比較,根據比較結果確定所述原始數據文件的校驗結果;編碼轉換子模塊,用于將校驗結果為校驗成功的原始數據文件的文件內容轉換成統一編碼,并將轉換后的原始數據文件上傳到所述數據庫中。3.根據權利要求2所述的系統,其特征在于,所述解壓縮子模塊進一步用于通過文件后綴名選擇解壓工具,并遞歸查找解壓得到的文件目錄,每當查找到的所述文件目錄中包含壓縮文件時,對所述壓縮文件進行解壓縮處理。4.根據權利要求1所述的系統,其特征在于,所述機器標注信息包括選定分隔符信息以及預判斷字段名信息,且所述數據預判斷模塊進一步包括:分隔符預判斷子模塊,用于根據預設的分隔符集合確定所述原始數據文件中包含的各個分隔符,分別獲取與各個分隔符相對應的數據分割結果,根據所述數據分割結果從各個分隔符中確定用于分割文件的選定分隔符;字段預判斷子模塊,用于通過所述選定分隔符將所述原始數據文件分割為多個字段,并根據預設的字段名匹配規則確定各個字段所對應的預判斷字段名。5.根據權利要求4所述的系統,其特征在于,所述字段預判斷子模塊具體用于:當多個字段所對應的預...
【專利技術屬性】
技術研發人員:汪德嘉,居勝峰,
申請(專利權)人:江蘇通付盾科技有限公司,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。