【技術實現步驟摘要】
一種生物名稱數據整合方法及系統
[0001]本專利技術涉及數據整合領域,特別是涉及一種生物名稱數據整合方法及系統。
技術介紹
[0002]生物名稱是地球上各種生物的身份標識,收集、清洗和整合生物名稱數據是生物學研究的基礎性、頻繁性和重要的工作。由于全球生物名錄眾多,各個生物名錄的數據結構并非完全一致,傳統的人工手動整合生物名稱數據是一項費時費力效率低下且容易出錯的工作。
技術實現思路
[0003]本專利技術的目的是提供一種生物名稱數據整合方法及系統,實現高效、準確地完成生物名稱數據的整合工作。
[0004]為實現上述目的,本專利技術提供了如下方案:
[0005]一種生物名稱數據整合方法,所述方法包括:
[0006]確定生物名稱數據整合的目標術語集;所述目標術語集包括:生物名錄、名稱ID、科學名稱、科學名稱作者、整合狀態、整合等級、父級名稱、接受名稱、發表信息、父級名稱、接受名稱、整合階級、完整科學名稱、規范名稱、發表作者和/或發表年份;
[0007]獲取待整合的數據文件;
[0008]建立所述目標術語集中術語和待整合的數據文件中數據之間的映射關系;
[0009]根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件。
[0010]可選地,所述數據文件包括:源數據和列名。
[0011]可選地,根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件,具體包括:r/>[0012]判斷待整合的數據文件中是否存在與所述目標術語集中術語相映射的列名,得到第一判斷結果;
[0013]若所述第一判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語對應的列名下的數據根據所述映射關系映射至所述目標術語集中對應的術語下,得到生物名稱數據整合文件;
[0014]若所述第一判斷結果為否,則判斷待整合的數據文件中的源數據是否存在與所述目標術語集中術語相映射的源數據,得到第二判斷結果;
[0015]若所述第二判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語存在映射關系的源數據根據所述映射關系映射至所述目標術語集中對應的術語下,得到生物名稱數據整合文件;
[0016]若所述第二判斷結果為否,則所述目標術語集中對應的術語的數據為空或添加所述目標術語集中對應的術語對應的數據,得到生物名稱數據整合文件。
[0017]可選地,根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件,之后還包括:
[0018]添加待補充術語至生物名稱數據整合文件;
[0019]建立所述待補充術語與所述生物名稱數據整合文件中的術語之間映射關系;
[0020]根據所述補充映射關系將所述生物名稱數據整合文件中的相應內容添加至待補充的目標術語,得到補充后的生物名稱數據整合文件。
[0021]一種生物名稱數據整合系統,所述生物名稱數據整合系統應用于上述所述的生物名稱數據整合方法,所述系統包括:
[0022]目標術語集確定模塊,用于確定生物名稱數據整合的目標術語集;所述目標術語集包括:生物名錄、名稱ID、科學名稱、科學名稱作者、整合狀態、整合等級、父級名稱、接受名稱、發表信息、父級名稱、接受名稱、整合階級、完整科學名稱、規范名稱、發表作者和/或發表年份;
[0023]獲取模塊,用于獲取待整合的數據文件;
[0024]建立模塊,用于建立所述目標術語集中術語和待整合的數據文件中數據之間的映射關系;
[0025]生物名稱數據整合文件確定模塊,用于根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件。
[0026]可選地,所述生物名稱數據整合文件確定模塊,具體包括:
[0027]判斷單元,用于判斷待整合的數據文件中是否存在與所述目標術語集中術語相映射的列名,得到第一判斷結果;
[0028]第一選擇單元,用于若所述第一判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語對應的列名下的數據根據所述映射關系映射至所述目標術語集中對應的術語下,得到生物名稱數據整合文件;
[0029]第二選擇單元,用于若所述第一判斷結果為否,則判斷待整合的數據文件中的源數據是否存在與所述目標術語集中術語相映射的源數據,得到第二判斷結果;
[0030]第三選擇單元,用于若所述第二判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語存在映射關系的源數據根據所述映射關系映射至對應的所述目標術語集中的術語下,得到生物名稱數據整合文件;
[0031]第四選擇單元,用于若所述第二判斷結果為否,則所述目標術語集中對應的術語的數據為空或添加所述目標術語集中對應的術語對應的數據,得到生物名稱數據整合文件。
[0032]可選地,所述系統還包括:補充模塊,具體包括:
[0033]補充單元,用于添加待補充術語至生物名稱數據整合文件;
[0034]構建單元,用于建立所述待補充術語與所述生物名稱數據整合文件中的術語之間映射關系;
[0035]映射單元,用于根據所述補充映射關系將所述生物名稱數據整合文件中的相應內容添加至待補充的目標術語,得到補充后的生物名稱數據整合文件。
[0036]一種電子設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述所述的生物名稱數據
整合方法。
[0037]一種計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被執行時實現如上述所述的生物名稱數據整合方法。
[0038]根據本專利技術提供的具體實施例,本專利技術公開了以下技術效果:
[0039]本專利技術公開一種生物名稱數據整合方法及系統,所述方法包括:確定生物名稱數據整合的目標術語集;獲取待整合的數據文件;建立所述目標術語集中術語和待整合的數據文件中數據之間的映射關系;根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件。本專利技術通過確定目標術語集,并構建目標術語集中每個術語的映射關系,基于映射關系對待整合的數據文件進行高效、準確地整合完成生物名稱數據的整合工作。
附圖說明
[0040]為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0041]圖1為本專利技術實施例中生物名稱數據整合方法的流程圖。
具體實施方式
[0042]下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種生物名稱數據整合方法,其特征在于,所述方法包括:確定生物名稱數據整合的目標術語集;所述目標術語集包括:生物名錄、名稱ID、科學名稱、科學名稱作者、整合狀態、整合等級、父級名稱、接受名稱、發表信息、父級名稱、接受名稱、整合階級、完整科學名稱、規范名稱、發表作者和/或發表年份;獲取待整合的數據文件;建立所述目標術語集中術語和待整合的數據文件中數據之間的映射關系;根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件。2.根據權利要求1所述的生物名稱數據整合方法,其特征在于,所述數據文件包括:源數據和列名。3.根據權利要求2所述的生物名稱數據整合方法,其特征在于,根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件,具體包括:判斷待整合的數據文件中是否存在與所述目標術語集中術語相映射的列名,得到第一判斷結果;若所述第一判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語對應的列名下的數據根據所述映射關系映射至所述目標術語集中對應的術語下,得到生物名稱數據整合文件;若所述第一判斷結果為否,則判斷待整合的數據文件中的源數據是否存在與所述目標術語集中術語相映射的源數據,得到第二判斷結果;若所述第二判斷結果為是,則將待整合的數據文件中與所述目標術語集中術語存在映射關系的源數據根據所述映射關系映射至所述目標術語集中對應的術語下,得到生物名稱數據整合文件;若所述第二判斷結果為否,則所述目標術語集中對應的術語的數據為空或添加所述目標術語集中對應的術語對應的數據,得到生物名稱數據整合文件。4.根據權利要求1所述的生物名稱數據整合方法,其特征在于,根據所述映射關系將待整合的數據文件導入到所述目標術語集中對應的術語下,得到生物名稱數據整合文件,之后還包括:添加待補充術語至生物名稱數據整合文件;建立所述待補充術語與所述生物名稱數據整合文件中的術語之間映射關系;根據所述補充映射關系將所述生物名稱數據整合文件中的相應內容添加至待補充的目標術語,得到補充后的生物名稱數據整合文件。5.一種生物名稱數據整合系統,其特征在于,所述生物名稱數據整合系統應用于所述權利要求1
?
4中任意一項所述的生物名稱數據整合方法,所述系統包括:目標術語集確定模塊,用于確定生物名稱數據整合的目標...
【專利技術屬性】
技術研發人員:邱金水,莊會富,張建文,金濤,
申請(專利權)人:中國科學院昆明植物研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。