System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能領域,具體而言,涉及一種目標類型文檔的分類方法及裝置、存儲介質。
技術介紹
1、術語在特定類別的非存在性,即一個術語在某類文檔中幾乎不出現或完全不出現的情況,是目標類型文檔分類中區分不同類別的重要依據。例如,在對比兩個科研項目申請書時,如果某個術語在標示創新性高的項目申請書中頻繁出現,而在標示創新性較低的項目申請書中幾乎不出現,那么這個術語就具有很高的區分價值,能夠幫助分類器準確地區分不同類型的申請書。然而,現有的相關技術中往往忽略了術語在特定類別中的非存在性,導致目標類型文檔(例如科技文檔)的分類不準確。
2、針對相關技術中,由于忽略了術語在特定類別中的非存在性,導致目標類型文檔的分類不準確的問題,目前尚未提出有效的解決方案。
3、因此,有必要對相關技術予以改良以克服相關技術中的所述缺陷。
技術實現思路
1、本申請實施例提供了一種目標類型文檔的分類方法及裝置、存儲介質,以至少解決相關技術中,由于忽略了術語在特定類別中的非存在性,導致目標類型文檔的分類不準確的問題。
2、根據本申請實施例的一方面,提供一種目標類型文檔的分類方法,包括:根據所述目標類型文檔的第一術語構建混淆矩陣,并根據所述混淆矩陣確定所述第一術語的真正類率tpr和假正類率fpr;根據所述真正類率tpr和所述假正類率fpr確定三角比較測度tcm;在所述三角比較測度tcm與目標值的差值小于預設閾值的情況下,將所述三角比較測度tcm高于預設值的術語確定為第二術語,根據所
3、在一個示例性的實施例中,根據所述目標類型文檔的第一術語構建混淆矩陣之前,所述方法還包括:去除所述目標類型文檔中的目標類型詞語,其中,所述目標類型詞語包括以下至少之一:停用詞、低頻詞和高頻詞;對去除所述目標類型詞語的目標類型文檔進行詞形還原或詞干提取。
4、在一個示例性的實施例中,根據所述目標類型文檔的第一術語構建混淆矩陣,包括:從所述目標類型文檔中確定包含所述第一術語的正類文檔和不包含所述第一術語的負類文檔;獲取所述第一術語在所述正類文檔中的真正例tp、所述第一術語在所述負類文檔中的假正例fp、所述第一術語在所述負類文檔中的真反例tn和所述第一術語在所述正類文檔中的假反例fn;根據所述真正例tp、所述假正例fp、所述真反例tn和所述假反例fn,構建所述混淆矩陣。
5、在一個示例性的實施例中,根據所述混淆矩陣確定所述第一術語的真正類率tpr和假正類率fpr,包括:根據以下公式確定所述真正類率tpr:以及根據以下公式確定所述假正類率fpr:
6、在一個示例性的實施例中,根據所述真正類率tpr和所述假正類率fpr確定三角比較測度tcm,包括:根據以下公式確定所述三角比較測度tcm:
7、
8、在一個示例性的實施例中,將所述三角比較測度tcm高于預設值的術語確定為第二術語,包括:從多個第一術語對應的三角比較測度tcm中確定超過所述預設值的目標三角比較測度tcm;將預設數量的所述目標三角比較測度tcm對應的術語確定為所述第二術語。
9、在一個示例性的實施例中,根據所述第二術語對所述目標類型文檔進行分類,包括:將所述第二術語轉化為特征向量;將所述特征向量輸入至用于訓練所述第二術語的目標分類器,得到所述目標分類器的輸出結果;根據所述輸出結果對所述目標類型文檔進行分類,得到所述目標類型文檔的分類結果。
10、根據本申請實施例的另一方面,還提供了一種目標類型文檔的分類裝置,包括:第一確定模塊,用于根據所述目標類型文檔的第一術語構建混淆矩陣,并根據所述混淆矩陣確定所述第一術語的真正類率tpr和假正類率fpr;第二確定模塊,用于根據所述真正類率tpr和所述假正類率fpr確定三角比較測度tcm;分類模塊,用于在所述三角比較測度tcm與目標值的差值小于預設閾值的情況下,將所述三角比較測度tcm高于預設值的術語確定為第二術語,根據所述第二術語對所述目標類型文檔進行分類。
11、根據本申請實施例的又一方面,還提供了一種計算機可讀的存儲介質,該計算機可讀的存儲介質中存儲有計算機程序,其中,該計算機程序被設置為運行時執行上述目標類型文檔的分類方法。
12、根據本申請實施例的又一方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執行上述目標類型文檔的分類方法。
13、根據本申請實施例的又一方面,還提供了一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現本申請各個實施例中所述方法的步驟。
14、通過本申請,根據目標類型文檔的第一術語構建的混淆矩陣確定所述第一術語的真正類率tpr和假正類率fpr;進而根據所述真正類率tpr和所述假正類率fpr確定三角比較測度tcm;當所述三角比較測度tcm與目標值的差值小于預設閾值時,確定所述三角比較測度tcm高于預設值的術語為第二術語,根據所述第二術語對所述目標類型文檔進行分類。從而解決了相關技術中由于忽略了術語在特定類別中的非存在性,導致目標類型文檔的分類不準確的問題。
本文檔來自技高網...【技術保護點】
1.一種目標類型文檔的分類方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,根據所述目標類型文檔的第一術語構建混淆矩陣之前,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,根據所述目標類型文檔的第一術語構建混淆矩陣,包括:
4.根據權利要求3所述的方法,其特征在于,根據所述混淆矩陣確定所述第一術語的真正類率TPR和假正類率FPR,包括:
5.根據權利要求1所述的方法,其特征在于,根據所述真正類率TPR和所述假正類率FPR確定三角比較測度TCM,包括:
6.根據權利要求1所述的方法,其特征在于,將所述三角比較測度TCM高于預設值的術語確定為第二術語,包括:
7.根據權利要求1所述的方法,其特征在于,根據所述第二術語對所述目標類型文檔進行分類,包括:
8.一種目標類型文檔的分類裝置,其特征在于,包括:
9.一種計算機可讀的存儲介質,其特征在于,所述計算機可讀的存儲介質包括存儲的程序,其中,所述程序運行時執行權利要求1至7中任一項所述的方法。
10.
...【技術特征摘要】
1.一種目標類型文檔的分類方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,根據所述目標類型文檔的第一術語構建混淆矩陣之前,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,根據所述目標類型文檔的第一術語構建混淆矩陣,包括:
4.根據權利要求3所述的方法,其特征在于,根據所述混淆矩陣確定所述第一術語的真正類率tpr和假正類率fpr,包括:
5.根據權利要求1所述的方法,其特征在于,根據所述真正類率tpr和所述假正類率fpr確定三角比較測度tcm,包括:
6.根據權...
【專利技術屬性】
技術研發人員:邸智,馮帆,鄭子辰,任鑫,
申請(專利權)人:中國華能集團清潔能源技術研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。