System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,具體來說涉及大語言模型領域,更具體地說,涉及一種基于上下文信息充足性判定的文本諷刺檢測方法。
技術介紹
1、諷刺是一種文學手法,是一種復雜的語言表達方式。發表觀點者通常使用諷刺手法,采用暗藏與字面含義相反的表達方式,對某個目標發表觀點,從而達到對目標揭露、批評或嘲笑的目的。諷刺在文學作品、新聞報到、口頭交流以及網絡社交媒體等廣泛存在。人們在采用諷刺的表達手法表達觀點時,其真實觀點態度往往不局限于文字表面含義,而是隱藏在文字的深層語義中。
2、檢測以及揭示諷刺手法是挖掘用戶真實情感、意圖和立場的關鍵,對情感分析領域、立場分析領域、仇恨言論識別領域的研究至關重要。
3、諷刺檢測在自然語言處理領域通常被認為是一個分類問題,即采用檢測方法對待分析數據進行判定,標記為“諷刺”或“非諷刺”。根據不同的數據模態(如文本、音頻、圖片、視頻等)以及不同數據模態的結合,諷刺檢測分為單一模態諷刺檢測和多模態諷刺檢測。
4、隨著諷刺語言檢測的需求日益增長,以及技術的革新和進步,諷刺檢測的研究已從傳統的基于規則的方法和基于特征的機器學習方法轉向了基于深度學習的方法?;谝巹t的方法,主要依賴于人工創建的模式進行分析,該方法僅限于固定模式來識別檢測諷刺。為了提高在常見場景的適應性,人們提出了基于特征的機器學習方法,該方法將人工設計的關鍵特征轉化為低維向量并進行分類,從而協助諷刺的識別與檢測。在深度學習時代,為了減少人為干預,加強語言分析,人們開始轉向采用深度學習方法進行諷刺檢測,主要包括以下類別
5、(1)利用不一致性來識別諷刺,是基于不一致性是社交媒體中典型和普遍的諷刺表達方式。在諷刺檢測中,"不一致性"是指語句表面意義與潛在意義之間的矛盾或不符,是產生諷刺效果的核心因素之一。例如,利用文字表面意義與語境或期望之間的矛盾表現語義的不一致,如“非常抱歉,我的腳硌到您的腳后跟了”來表達被踩之后沒有得到及時道歉的憤怒/提示。研究表明,不一致性不僅存在于待分析文本中,待分析文本與其上下文語境的不一致性同樣是諷刺性的特征。例如,分析社交論壇數據時,考慮待分析數據所處話題的其他評論或描述信息;分析社交媒體數據中,考慮待分析數據的評論信息以及發表者的用戶歷史發言、用戶信息等。研究表明,結合上下文語境信息的諷刺檢測方法可以達到較好的效果。
6、(2)利用情感與諷刺之間的相關性來檢測諷刺,是利用給定數據的情感分析相關結果,幫助識別語句中蘊含的情感傾向,例如:積極、消極或中性。通過捕捉情感和諷刺之間的復雜關系,如諷刺通常包含負面情感等來識別諷刺性語句。與利用不一致性進行諷刺檢測的方法類似,當前有些研究方法側重于分析待分析文本與其上下文語境的情感差異進行諷刺檢測。
7、(3)借助外部知識或常識檢測諷刺,是通過訪問與待分析數據相關的常識知識來檢測諷刺。外部知識或常識庫可以提供待分析文本相關背景知識與信息,可以作為待分析數據的上下文信息輔助諷刺檢測。
8、總的來說,采用深度學習的方法進行諷刺檢測,不論是借助不一致性、還是借助情感分析或者是借助外部知識的方法中,結合上下文信息進行諷刺檢測,是當前主流且有效的方法。
9、當前,進行諷刺檢測的深度學習的方法中,利用不一致性和情感推理諷刺檢測的方法,可結合上下文信息進行分析;借助外部知識或常識檢測的方法,將外部知識或常識認定為一種背景知識,可將背景知識作為一種上下文。采用結合上下文語境信息方式的諷刺檢測方法可以達到較好的效果。
10、然而,大部分方法在結合上下文信息時,僅是宏觀考慮結合上下文可能會提升諷刺檢測的效果,簡單地利用上下文信息來完成諷刺檢測,得到相關結果,實際的性能表現有待進一步提高。
11、需要說明的是:本
技術介紹
僅用于介紹本專利技術的相關信息,以便于幫助理解本專利技術的技術方案,但并不意味著相關信息必然是現有技術。相關信息與本專利技術方案一同提交和公開,在沒有證據表明相關信息已在本專利技術的申請日以前公開的情況下,相關信息不應被視為現有技術。
技術實現思路
1、因此,本專利技術的目的在于克服上述現有技術的缺陷,提供一種針對文本的諷刺檢測方法。
2、本專利技術的目的是通過以下技術方案實現的:
3、根據本專利技術的第一方面,提供一種針對文本的諷刺檢測方法,包括:獲取待分析文本及其諷刺上下文信息,其中,諷刺上下文信息是指用于輔助判斷待分析文本是否帶有諷刺情緒的語境信息;根據待分析文本及其諷刺上下文信息,評估待分析文本的諷刺上下文信息的充足性;在待分析文本的諷刺上下文信息不充足的情況下,根據預設的上下文信息檢索庫提供補充的上下文信息,得到更新的諷刺上下文信息;根據待分析文本及其最新的諷刺上下文信息,確定待分析文本是否帶有諷刺的情緒。該技術方案至少能夠實現以下有益技術效果:該方法彌補了現有方法無法感知上下文信息是否充足的缺陷,提出了有效判定給定上下文信息是否充足的方法。
4、可選的,評估待分析文本的諷刺上下文信息的充足性的結果包括:充足、不充足和無需上下文,所述方法還包括:在待分析文本的諷刺上下文信息充足的情況下,根據待分析文本及其最新的諷刺上下文信息,確定待分析文本是否帶有諷刺的情緒;在無需上下文的情況下,根據待分析文本及其最新的諷刺上下文信息,確定待分析文本是否帶有諷刺的情緒,該最新的諷刺上下文信息為缺省值。
5、可選的,所述評估待分析文本的諷刺上下文是否充足的處理包括:根據待分析文本及其諷刺上下文信息,利用預先訓練的第一檢測模型確定該待分析文本的諷刺上下文是否充足。該技術方案至少能夠實現以下有益技術效果:可以利用預先訓練的第一檢測模型來自動檢測諷刺上下文是否充足,提升檢測效率。
6、可選的,所述預先訓練的第一檢測模型按照以下方式訓練得到:獲取第一訓練集,該訓練集包括多個樣本及其標簽,其中,每個樣本包括一個樣本文本及其諷刺上下文,標簽的空間包括至少3個類別,分別是上下文充足、上下文不充足和無需上下文的類別,標簽指示對應樣本所屬的類別;利用第一訓練集訓練第一檢測模型根據輸入的樣本識別對應的文本屬于上下文充足、上下文不充足或者無需上下文的類別。該技術方案至少能夠實現以下有益技術效果:額外設置無需上下文的類別,可以讓模型對一些僅根據待分析文本自身就可判斷其是否屬于諷刺的類別進行有效判斷,以避免強制加入諷刺上下文,更好地保障諷刺檢測的準確性。
7、可選的,所述預先訓練的第一檢測模型按照以下方式訓練得到:獲取第一檢測模型,該第一檢測模型是在經訓練的大語言模型的部分層中加入適配層得到的;獲取第一訓練集,該訓練集包括多個樣本及其標簽,其中,每個樣本包括一個樣本文本及其諷刺上下文,標簽的空間包括至少3個類別,分別是上下文充足、上下文不充足和無需上下文的類別,標簽指示對應樣本所屬的類別;利用第一訓練集訓練第一檢測模型根據輸入的樣本識別對本文檔來自技高網...
【技術保護點】
1.一種針對文本的諷刺檢測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述評估待分析文本的諷刺上下文信息的充足性的結果包括:充足、不充足和無需上下文,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述評估待分析文本的諷刺上下文信息的充足性的處理包括:
4.根據權利要求3所述的方法,其特征在于,所述預先訓練的第一檢測模型按照以下方式訓練得到:
5.根據權利要求3所述的方法,其特征在于,所述預先訓練的第一檢測模型按照以下方式訓練得到:
6.根據權利要求1所述的方法,其特征在于,所述確定待分析文本是否帶有諷刺的情緒的處理包括:
7.根據權利要求6所述的方法,其特征在于,所述確定待分析文本是否帶有諷刺的情緒的處理包括:
8.根據權利要求1-6之一所述的方法,其特征在于,所述方法還包括:
9.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述計算機程序可被處理器執行以實現權利要求1-8之一所述方法的步驟。
10.一種電子設備,其特征在
...【技術特征摘要】
1.一種針對文本的諷刺檢測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述評估待分析文本的諷刺上下文信息的充足性的結果包括:充足、不充足和無需上下文,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述評估待分析文本的諷刺上下文信息的充足性的處理包括:
4.根據權利要求3所述的方法,其特征在于,所述預先訓練的第一檢測模型按照以下方式訓練得到:
5.根據權利要求3所述的方法,其特征在于,所述預先訓練的第一檢測模型按照...
【專利技術屬性】
技術研發人員:陳翠婷,薛源海,賀廣福,高金華,俞曉明,劉悅,沈華偉,程學旗,
申請(專利權)人:中國科學院計算技術研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。