本發明專利技術公開了一種規范企業名稱的方法,該方法包括以下步驟:接收銷售數據中的企業名稱與預先設置的企業信息數據庫中的名稱進行完全匹配;對于未匹配的企業名稱,將企業名稱進行亂碼處理;根據名稱規范性,進行附加信息清除;將符號文本化轉化,去除銷售數據中企業名稱含有符號信息合理轉化;進行數字標準化處理;名稱分解處理,提取銷售數據中有描述多個企業名稱的數據進行逐個提取;根據字庫進行語義轉化;輸出規范企業名稱。本發明專利技術通過采用上述方法可以將銷售數據中企業名稱進行規范化處理,將原來含有符號、亂碼以及附加信息等非名稱信息處理掉,便于統計。
【技術實現步驟摘要】
【專利摘要】本專利技術公開了,該方法包括以下步驟:接收銷售數據中的企業名稱與預先設置的企業信息數據庫中的名稱進行完全匹配;對于未匹配的企業名稱,將企業名稱進行亂碼處理;根據名稱規范性,進行附加信息清除;將符號文本化轉化,去除銷售數據中企業名稱含有符號信息合理轉化;進行數字標準化處理;名稱分解處理,提取銷售數據中有描述多個企業名稱的數據進行逐個提取;根據字庫進行語義轉化;輸出規范企業名稱。本專利技術通過采用上述方法可以將銷售數據中企業名稱進行規范化處理,將原來含有符號、亂碼以及附加信息等非名稱信息處理掉,便于統計。【專利說明】
本專利技術涉及銷售數據中企業名稱處理技術,尤其涉及到。
技術介紹
在對企業銷售數據進行數據處理過程中,企業名稱是否規范是為最終銷售報表統計的精確度起到很大的關聯作用。如果企業名稱無法有效地規范,不僅影響整個作業過程的進度,同時也影響報表統計的精度,因此企業名稱規范是非常必要。大多數情況下,企業規范名稱的組成方式為:行政區+字號+行業特點+組織形式或者字號+行政區+行業特點+組織形式。公司名稱中的行政區劃是本企業所在地縣級以上行政區劃的名稱或地名;公司名稱中的字號是根據本企業的企業文化和特點而有投資人所共同商議的名稱;公司名稱中的行業特點只指投資人所經營的行業名稱(根據工商局有關規定確立)公司名稱中組織形式是根據企業經濟活動性質與國家有關法律法規確定的例如:上海雷允上藥業有限公司,名稱的組成方式:行政區劃:上海;字號:雷允上;行業特點:醫藥;組織形式:有限公司;而在真實企業進銷存數據中,企業常常因為自身方便會在企業名稱上添加不同的特殊標記,這些企業名稱在統計分析時,需要將不標準的名稱轉換成規范標準的企業名稱后進行后續操作。現階段對于企業名稱進行規范時,往往僅去掉名稱中的亂碼,而忽視了對數據名稱規范性的整理,從而造成后續人工操作工作量巨大,整個過程的實現周期會非常長,企業需要為此花費相當多的資源進行處理。針對相關技術中的問題,目前尚未提出有效的解決方案。
技術實現思路
針對相關技術中的問題,本專利技術提出,能夠有效果規范數據中的企業名稱,方便統計。本專利技術的技術方案是這樣實現的:根據本專利技術的一個方面,提供了,該方法包括以下步驟:接收銷售數據中的企業名稱與預先設置的企業信息數據庫中的名稱進行完全匹配;對于未匹配的企業名稱,將企業名稱進行亂碼處理;根據名稱規范性,進行附加信息清除;將符號文本化轉化,去除銷售數據中企業名稱含有符號信息合理轉化;進行數字標準化處理;名稱分解處理,提取銷售數據中有描述多個企業名稱的數據進行逐個提取;根據字庫進行語義轉化,輸出規范企業名稱。優選的,所述進行數字標準化處理具體為:將銷售數據中企業名稱中含有數字的數據進行轉換,統一將小寫轉換為大寫。優選的,所述對企業名稱中名稱進行處理語義轉化具體包括:I)、對專有名稱進行轉化;2)、對錯字進行轉換;3)、對繁體字進行轉換。本專利技術通過采用上述方法可以將銷售數據中企業名稱進行規范化處理,將原來含有符號、亂碼以及附加信息等非名稱信息處理掉,便于統計。【專利附圖】【附圖說明】為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1是根據本專利技術實施例的規范企業名稱的方法的流程圖。【具體實施方式】下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本專利技術保護的范圍。本專利技術實施例提供了,該方法包括以下步驟:接收銷售數據中的企業名稱與預先設置的企業信息數據庫中的名稱進行完全匹配;對于未匹配的企業名稱,將企業名稱進行亂碼處理;根據名稱規范性,進行附加信息清除;將符號文本化轉化,去除銷售數據中企業名稱含有符號信息合理轉化;進行數字標準化處理;名稱分解處理,提取銷售數據中有描述多個企業名稱的數據進行逐個提取;根據字庫進行語義轉化,輸出規范企業名稱。優選的,所述進行數字標準化處理具體為:將銷售數據中企業名稱中含有數字的數據進行轉換,統一將小寫轉換為大寫。優選的,所述對企業名稱中名稱進行處理語義轉化具體包括:I)、對專有名稱進行轉化;2)、對錯字進行轉換;3)、對繁體字進行轉換。本實施例提供的上述方法可以將銷售數據中企業名稱進行規范化處理,將原來含有符號、亂碼以及附加信息等非名稱信息處理掉,便于統計。以下參照附圖并舉具體實施例,對本專利技術進行詳細說明。如圖1所示,本專利技術方法包含如下步驟。步驟101,接受企業名稱數據。步驟102,將接受的企業名稱數據中企業名稱與預先設置的企業信息數據庫中的企業名稱進行完全相似匹配,對完整匹配的數據,如果可以匹配執行步驟109,對于未匹配的企業名稱執行步驟103。步驟103,對企業名稱進行亂碼處理;具體的,將名稱中的非漢字及數字的亂碼去除,舉例說明:#北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原:解放軍466院李大夫 TEL:302% s)進行亂碼處理后轉換為:北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原:解放軍466院李大夫TEL:302)。步驟104,對企業名稱中附加信息進行處理;具體的,將企業名稱中附帶的附加信息刪除掉,如姓名、電話等,舉例說明:1、北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原:解放軍466院李大夫 TEL:302); 轉換為:北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原:解放軍466院)。2、1003776_蛘埠市第三人民醫院,進行處理后轉換為:蛘埠市第三人民醫院。3、常平(Y)百福堂藥店33563(G),進行處理后轉換為轉換為:常平百福堂藥店。4、(Z Y H) 深圳橫崗(Y)瑞草堂藥業深竹分店556336,進行處理后轉換為:深圳橫崗瑞草堂藥業深竹分店。步驟105,對企業名稱中符號文本轉化;具體的,將名稱中不全的符號補全,舉例說明:“北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原::解放軍466院)”,轉換為:“北京懷柔中國人民解放軍空軍航空醫學研究所附屬醫院(原:解放軍第466院)”。步驟106,對企業名稱中數字標準化處理;具體的,將數字統一由阿拉伯數字修改為漢字,舉例說明:解放軍466院轉換為:解放軍第四六六院。步驟107,對企業名稱中名稱分解處理;具體的,將復合的名稱分解成兩個名稱,舉例說明:北京懷柔解放軍空軍航空醫學研究所附屬醫院(原:解放軍第四六六院)分解為:1、北京懷柔解放軍空軍航空醫學研究所附屬醫院2、原:解放軍第四六六院步驟108,對企業名稱中名稱進行處理語義轉化;這里面包含:1、對專有名稱進行轉化,舉例說明:北京懷柔解放軍空軍航空醫學研究所附屬醫院(原:解放軍第四六六院)轉化為:北京懷柔空軍航空醫學研究所附屬醫院(原:解放軍第四六六院)。2、對錯字進行轉換:雷龍江寶泉嶺農墾興盛藥店轉換為:黑龍江寶泉嶺農墾興盛藥店。3、對繁體字進行轉換,舉例說明:寳和堂大藥房轉換為:寶和堂大藥房;步驟本文檔來自技高網...
【技術保護點】
一種規范企業名稱的方法,其特征在于,該方法包括以下步驟:接收銷售數據中的企業名稱與預先設置的企業信息數據庫中的名稱進行完全匹配;對于未匹配的企業名稱,將企業名稱進行亂碼處理;根據名稱規范性,進行附加信息清除;將符號文本化轉化,去除銷售數據中企業名稱含有符號信息合理轉化;進行數字標準化處理;名稱分解處理,提取銷售數據中有描述多個企業名稱的數據進行逐個提取;根據字庫進行語義轉化;輸出規范企業名稱。
【技術特征摘要】
【專利技術屬性】
技術研發人員:黃旭江,
申請(專利權)人:上海倍通醫藥科技咨詢有限公司,
類型:發明
國別省市:上海;31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。