System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文本數據處理,尤其涉及論文撤稿原因自動分類系統。
技術介紹
1、文本數據處理
的核心技術包括自然語言處理(nlp)、文本分類、情感分析、信息抽取和文本挖掘等,自然語言處理技術通過算法實現對人類語言的理解與處理,包括文本的分詞、詞性標注、實體識別、依存關系分析等基礎任務,文本數據處理還涉及機器學習和深度學習技術,利用監督學習、無監督學習、強化學習等方法對大規模文本數據進行分析、建模和預測,尤其在自動分類、主題建模和情感分析等任務中有廣泛應用,該技術廣泛用于輿情分析、社交媒體監控、信息過濾、自動問答系統等場景,是信息化社會中不可或缺的技術支撐。
2、其中,論文撤稿原因自動分類系統旨在通過自動化的方式對論文撤稿的原因進行分類與分析,該系統利用文本數據處理技術,包括自然語言處理和機器學習算法,從撤稿通知、聲明和其他相關文獻中提取相關內容,自動識別并分類撤稿原因,如學術不端、實驗數據錯誤、同行評審問題等,此系統的主要用途是幫助學術界和出版界快速、高效地對撤稿原因進行系統化整理與分析,提升撤稿流程的透明度和處理效率,并為研究人員、出版商以及監管機構提供決策支持。
3、現有技術雖然涵蓋廣泛的應用場景,但在處理復雜的文本數據,如撤稿聲明中的隱含信息和推理分析方面,顯得力不從心,特別是在識別法律爭議和期刊操作問題時,常規方法因缺乏足夠的深度分析和推理能力而無法有效識別撤稿的深層原因,這導致撤稿處理流程的不透明,處理效率低下,以及對撤稿原因的誤解或錯誤分類,未能正確識別期刊操作的錯誤會導致再次發生類似問題
技術實現思路
1、本專利技術的目的是解決現有技術中存在的缺點,而提出的論文撤稿原因自動分類系統。
2、為了實現上述目的,本專利技術采用了如下技術方案:論文撤稿原因自動分類系統包括:
3、任務劃分模塊基于論文撤稿聲明,識別并提取撤稿原因,對學術不端、數據錯誤、期刊操作的類型進行標注,生成撤稿原因分類體系,通過分析撤稿聲明內容中的信息,標注為推理任務,并為每個任務分配處理規則,獲取任務輸入數據集;
4、模型構建模塊基于所述任務輸入數據集,根據差異化任務的特性,分別對撤稿聲明文本進行標注處理,提取關聯特征,生成任務特征提取集,利用所述任務特征提取集進行訓練,并與共享特征進行融合,得到任務處理優化模型;
5、多任務聯合模塊基于所述任務處理優化模型,對撤稿原因分類和推理任務進行聯合處理,將共享特征輸入多任務網絡,通過每個任務損失函數進行合并優化,生成多任務聯合處理結果;
6、推理分析模塊基于所述多任務聯合處理結果,對撤稿聲明中的法律和期刊編輯問題進行推理分析,判斷撤稿聲明中是否存在法律爭議和期刊操作問題,生成法律和期刊操作推理分類結果,通過分析推理任務與撤稿原因,得到論文撤稿原因推理分類輸出結果。
7、作為本專利技術的進一步方案,所述撤稿原因分類體系的獲取步驟具體為:
8、基于論文撤稿聲明,使用文本抽取分離撤稿的關鍵信息,篩選撤稿、錯誤、偽造關鍵詞的句子,排除與撤稿無關的信息,通過文本分割,得到抽取信息集;
9、對所述抽取信息集進行內容分類,通過檢查文本關鍵特征,將其標注為學術不端、數據錯誤和期刊操作錯誤三類,并為每類單獨設置標識符,并對標注過程進行糾偏規避分類錯誤,通過反復檢驗標注結果的一致性,得到分類標注集;
10、根據所述分類標注集,對數據進行匯總與分析,包括分析每類撤稿原因的出現頻率,對撤稿類別進行匯總,在分析中剔除異常數據點,通過對比分析驗證數據集的完整性,得到撤稿原因分類體系。
11、作為本專利技術的進一步方案,所述任務輸入數據集的獲取步驟具體為:
12、根據所述撤稿原因分類體系,從撤稿聲明中提取文本字段,執行文本分詞處理,通過關鍵信息的匹配與歸類,識別撤稿聲明中的每個撤稿原因,結合先前已定義的撤稿類型規則,進行特征項的篩選,生成特征提取集;
13、對所述特征提取集進行頻率分析與加權處理,識別與任務關聯的特征項,對文本中的撤稿時間、撤稿處理周期、撤稿原因發生頻率的特征進行提取,并對特征項進行關鍵性排序,篩選符合任務輸入條件的特征項,利用頻率與權重的關系,生成分類處理規則;
14、結合所述分類處理規則,進行多維度關聯分析,依據特征間的關聯性為每個特征項分配加權值,采用公式:
15、;
16、加權每個特征項,生成任務輸入數據集;
17、其中,代表任務輸入數據集,代表第個特征項的權重,代表第個特征項的權重系數,是特征的影響因子,是調節系數,表示特征項的總數。
18、作為本專利技術的進一步方案,所述任務特征提取集的獲取步驟具體為:
19、通過對所述任務輸入數據集進行分析,識別差異化任務特性,將任務類型標注為分類變量,進行文本結構化解析,標記每條撤稿聲明中的核心文本元素,生成差異化任務類別集合;
20、基于所述差異化任務類別集合,提取關聯特征參數,包括任務文本中關聯的關鍵詞、上下文邏輯關系和撤稿聲明的語義模式,采用分類判斷標準對特征進行過濾,保留與任務目標的關聯特征,采用公式:
21、;
22、計算關聯特征集合的總得分并對結果進行排序,生成關聯特征集合;
23、其中,表示關聯特征集合的總得分,表示第個關鍵詞的權重值,表示關鍵詞的頻率,是影響因子,是調節系數,表示關鍵詞總數;
24、利用所述關聯特征集合,按照關聯特征和篩選規則,對特征進行優先級排序和特征交叉分析,結合任務類別的標注信息,建立任務特征提取集。
25、作為本專利技術的進一步方案,所述任務處理優化模型的獲取步驟具體為:
26、基于所述任務特征提取集,對數據集中的每項特征進行分類,每類特征根據數據類型和范圍設置清洗規則,執行數據標準化,得到任務特征初始化集;
27、采用所述任務特征初始化集,對任務特征和共享特征進行分層處理,每層特征賦予差異化的處理權重,根據權重合并特征,使用特征融合技術優化特征表現,形成融合特征模型;
28、通過所述融合特征模型,調整特征參數,進行多次迭代測試,調整每次測試的參數設置,建立任務處理優化模型。
29、作為本專利技術的進一步方案,所述多任務聯合處理結果的獲取步驟具體為:
30、基于所述任務處理優化模型,提取共享特征作為輸入特征集合,分析撤稿原因分類任務和推理任務的共享需求,提取對應參數,結合特征參數的關鍵性排序和頻率分析結果,建立多任務共享特征集合;
31、將所述多任務共享特征集合輸入多任務網絡模型,計算任務的損失值,根據分類任務和推理任務的關鍵目標,對損失值進行標準化處理,合并每個任務的損失值,采用公式:
32、;
33、計算得到任務的聯合損失值;
34、其中,為任務的聯合損失值,表示第個任務的權重,表示第個任務本文檔來自技高網...
【技術保護點】
1.論文撤稿原因自動分類系統,其特征在于,所述系統包括:
2.根據權利要求1所述的論文撤稿原因自動分類系統,其特征在于,所述撤稿原因分類體系的獲取步驟具體為:
3.根據權利要求2所述的論文撤稿原因自動分類系統,其特征在于,所述任務輸入數據集的獲取步驟具體為:
4.根據權利要求3所述的論文撤稿原因自動分類系統,其特征在于,所述任務特征提取集的獲取步驟具體為:
5.根據權利要求4所述的論文撤稿原因自動分類系統,其特征在于,所述任務處理優化模型的獲取步驟具體為:
6.根據權利要求5所述的論文撤稿原因自動分類系統,其特征在于,所述多任務聯合處理結果的獲取步驟具體為:
7.根據權利要求6所述的論文撤稿原因自動分類系統,其特征在于,所述法律和期刊操作推理分類結果的獲取步驟具體為:
8.根據權利要求7所述的論文撤稿原因自動分類系統,其特征在于,所述論文撤稿原因推理分類輸出結果的獲取步驟具體為:
【技術特征摘要】
1.論文撤稿原因自動分類系統,其特征在于,所述系統包括:
2.根據權利要求1所述的論文撤稿原因自動分類系統,其特征在于,所述撤稿原因分類體系的獲取步驟具體為:
3.根據權利要求2所述的論文撤稿原因自動分類系統,其特征在于,所述任務輸入數據集的獲取步驟具體為:
4.根據權利要求3所述的論文撤稿原因自動分類系統,其特征在于,所述任務特征提取集的獲取步驟具體為:
5.根據權利要求4所述的論文撤...
【專利技術屬性】
技術研發人員:廖常莉,且亞玲,李堯,代鳳玲,陳霜,
申請(專利權)人:西南醫科大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。