本發明專利技術涉及文本數據處理技術領域,公開了一種文本數據的處理終端查找方法,在實際使用時,本發明專利技術提前依據文本數據的類別生成對應的規則處理器,每個規則處理器中包括處理終端,當有文本數據輸入時,先提前判斷出與文本數據對應的子分類號,然后對子分類號進行過濾得到有用子分類號,接著依據有用子分類號分配對應的規則處理器,然后在所有規則處理器中確定有用規則處理器,然后分別計算有用規則處理器中的處理終端的處理規則的配置標簽集合與文本數據的文本數標簽集合的相似度,并基于相似度為每個處理終端生成一個總得分值,通過將總得分值最大的處理終端作為數據處理終端,從而可以替代人工進行文本數據的處理對象查找,提高了查找效率。了查找效率。了查找效率。
【技術實現步驟摘要】
一種文本數據的處理終端查找方法
[0001]本專利技術涉及文本數據處理
,具體涉及一種文本數據的處理終端查找方法。
技術介紹
[0002]在事務處理系統中,用戶大多先在輸入界面輸入文本數據,然后工作人員基于文本數據進行分類,按照文本數據的類別將文本數據分發到對應的處理終端上進行處理,具體步驟如下:先人工判斷文本數據所屬的主分類號,然后根據其所屬的主分類號進行數據分類;接著人工根據文本數據的主分類號查看文本數據內容,并依據經驗確定文本數據的子分類號;然后人工依據子分類號進行任務派發,將文本數據發送到派發部門,派發部門接收到文本數據后依據文本數據的主分類號查看文本內容來確定文本數據的處理部門,處理部門對文本數據進行處理。然而這種處理方式在實際使用時存在以下不足:一方面都是通過人工判斷,則需要大量的人工投入,導致效率較低;另外一方面,由于文本數據存在表述不準的可能性,會出現一定的誤判可能性。
技術實現思路
[0003]在鑒于
技術介紹
的不足,本專利技術是提供了一種文本數據的處理終端查找方法,所要解決的技術問題是現有文本數據的處理終端的查找都是通過人工完成,效率較低。
[0004]為解決以上技術問題,本專利技術提供了如下技術方案:一種文本數據的處理終端查找方法,先依據文本數據的主分類號中的子分類號生成對應的規則處理器,每個規則處理器中包括至少一個處理終端,一個處理終端中設有對應的處理規則;包括以下步驟:S1:先獲取所述文本數據的主分類號,然后在所述主分類號的所有子分類號中查找所述文本數據對應的子分類號;S2:對所述文本數據對應的子分類號進行過濾,將所述文本數據對應的子分類號中與所述文本數據不匹配的子分類號去除掉,剩余的子分類號作為有用子分類號;S3:先基于所述有用子分類號分配規則處理器,然后在所有規則處理器中查找與所述文本數據相匹配的規則處理器,將與所述文本數據相匹配的規則處理器作為有用規則處理器;S4:獲取所述有用規則處理器中的每個處理終端的處理規則的配置標簽,并將每個處理規則的所有配置標簽作為一個配置標簽集合;對所述文本數據進行標簽提取,獲取文本數據的所有文本標簽,將所有文本標簽生成為文本標簽集合;S5:對每個配置標簽集合依次進行以下處理:依次選取配置標簽集合中的一個配置標簽,計算選取的配置標簽與文本標簽集合中與選取的配置標簽所對應的文本標簽的相似度;S6:對每個配置標簽集合依次進行以下處理:判斷配置標簽集合中的每個配置標
簽的相似度是否大于判定閾值,如果大于則將該相似度乘以配置權重得到該配置標簽的得分值,如果相似度小于判定閾值,則將該配置標簽的得分值置零;S7:將配置標簽集合中的所有配置標簽的得分相加得到配置標簽集合的總得分值;S8:將總得分最高的配置標簽集合所對應的處理終端作為所述文本數據的數據處理終端。
[0005]在某種實施方式中,步驟S2具體如下:S20:對每個所述文本數據對應的子分類號依次進行步驟S21;S21:將文本數據和子分類號帶入到配置的表達式中,通過表達式計算子分類號是否滿足要求,如果滿足則進行步驟S22,否則將該子分類號過濾掉,結束步驟S21;S22:判斷當前子分類號是否有特征值,如果有特征值則進行步驟S23,反之則結束步驟S22;S23:通過人工智能算法提取所述文本數據的文本特征值,并判斷所述文本特征值是否與所述特征值相匹配,如果匹配則結束步驟S23,反之則將該子分類號過濾掉。
[0006]在某種實施方式中,步驟S3具體如下:S30:獲取所有分配的規則處理器的匹配條件;S31:判斷所述文本數據是否滿足所述分配的規則處理器的匹配條件,如果滿足則將滿足的規則處理器作為有用規則處理器。
[0007]在某種實施方式中,在步驟S7中,當得到配置標簽集合的總得分值時,將配置標簽集合對應的處理規則打上所述總得分值,生成判斷數據包,并將判斷數據包存入總分集合中;步驟S8中,遍歷所述總分集合中的判斷數據包,在所述總分集合中查找總得分值最大的判斷數據包,并將總得分值最大的判斷數據包中的處理規則所對應的處理終端作為數據處理終端。
[0008]在某種實施方式中,所述規則處理器通過樣本數據訓練得到。
[0009]在某種實施方式中,還包括步驟S9,步驟S9如下:S9:獲取所述數據處理終端中的處理規則,通過所述數據處理終端中的處理規則對所述文本數據進行處理,并將處理后的數據保存到數據庫中。
[0010]本專利技術與現有技術相比所具有的有益效果是:本專利技術提前依據文本數據的類別生成對應的規則處理器,每個規則處理器中包括處理終端,當有文本數據輸入時,先提前判斷出與文本數據對應的子分類號,然后對子分類號進行過濾得到有用子分類號,接著依據有用子分類號分配對應的規則處理器,然后在所有規則處理器中確定有用規則處理器,然后分別計算有用規則處理器中的處理終端的處理規則的配置標簽集合與文本數據的文本數標簽集合的相似度,并基于相似度為每個處理終端生成一個總得分值,通過將總得分值最大的處理終端作為數據處理終端,從而可以替代人工進行文本數據的處理對象查找,提高了查找效率。
附圖說明
[0011]圖1為實施例中的本專利技術的流程圖;圖2為實施例中的本專利技術的步驟S2的流程圖;
圖3為實施例中的本專利技術的步驟S3的流程圖。
具體實施方式
[0012]現在結合附圖對本專利技術作進一步詳細的說明。這些附圖均為簡化的示意圖,僅以示意方式說明本專利技術的基本結構,因此其僅顯示與本專利技術有關的構成。
[0013]一種文本數據的處理終端查找方法,先依據文本數據的主分類號中的子分類號生成對應的規則處理器,每個規則處理器中包括至少一個處理終端,一個處理終端中設有對應的處理規則,處理規則用于對文本數據進行處理,在實際使用時,為了便于文本數據匹配到對應的處理終端,每個處理規則都設有配置標簽。另外,本實施例中,規則處理器通過樣本數據訓練得到,通過不斷的增加樣本數量和樣本類型可以得到更多不同的規則處理器,從而能對更多文本數據進行處理。另外為了能依據文本數據查找到對應的規則處理器,每個規則處理器都設置有對應的匹配條件。
[0014]如圖1所示,本專利技術包括以下步驟:S1:先獲取文本數據的主分類號,然后在主分類號的所有子分類號中查找文本數據對應的子分類號。
[0015]在實際使用時,主分類號是文本數據的大類,例如可以是教育、行政、環境和公共衛生等類別;子分類號是文本數據的小類,以環境這個主分類號為例,其下面可以有空氣污染、河流污染、森林砍伐等多個子分類號。
[0016]在實際使用時,可以通過人工智能算法對文本數據進行關鍵詞提取來得到文本數據的主分類號和子分類號。
[0017]在實際使用時,步驟S1得到的文本數據的主分類號為一個,但是得到的文本數據的子分類號可能有兩個以上。
[0018]S2:對文本數據對應的子分類號進行過濾,將文本數據對應的子分類號中與文本數據不匹配的子分類號去除掉,剩余的子分類號作為有用子分類號。
[0019]在實際使用時,步驟S1中獲得的文本數據的所有子本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種文本數據的處理終端查找方法,其特征在于,先依據文本數據的子分類號生成對應的規則處理器,每個規則處理器中包括至少一個處理終端,一個處理終端中設有對應的處理規則;包括以下步驟:S1:先獲取所述文本數據的主分類號,然后在所述主分類號的所有子分類號中查找所述文本數據對應的子分類號;S2:對所述文本數據對應的子分類號進行過濾,將所述文本數據對應的子分類號中與所述文本數據不匹配的子分類號去除掉,剩余的子分類號作為有用子分類號;S3:先基于所述有用子分類號分配規則處理器,然后在所有分配的規則處理器中查找與所述文本數據相匹配的規則處理器,將與所述文本數據相匹配的規則處理器作為有用規則處理器;S4:獲取所述有用規則處理器中的每個處理終端的處理規則的配置標簽,并將每個處理規則的所有配置標簽作為一個配置標簽集合;對所述文本數據進行標簽提取,獲取文本數據的文本標簽,將文本標簽生成為文本標簽集合;S5:對每個配置標簽集合依次進行以下處理:依次選取配置標簽集合中的一個配置標簽,計算選取的配置標簽與文本標簽集合中與選取的配置標簽所對應的文本標簽的相似度;S6:對每個配置標簽集合依次進行以下處理:判斷配置標簽集合中的每個配置標簽的相似度是否大于判定閾值,如果大于則將該相似度乘以配置權重得到該配置標簽的得分值,如果相似度小于判定閾值,則將該配置標簽的得分值置零;S7:將配置標簽集合中的所有配置標簽的得分相加得到配置標簽集合的總得分值;S8:將總得分最高的配置標簽集合所對應的處理終端作為所述文本數據的數據處理終端。2.根據權利要求1所述的一種文本數據的處理終端查找方法,其特征在于,步驟S2具體如下:S20:對每個...
【專利技術屬性】
技術研發人員:柴亞團,陳思遠,
申請(專利權)人:無錫容智技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。