System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩精品无码久久久久久,无码人妻一区二区三区免费,亚洲精品无码久久久久APP
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于論辯數據多任務微調和知識增強的零樣本立場檢測方法及系統技術方案

    技術編號:44428716 閱讀:2 留言:0更新日期:2025-02-28 18:41
    本發明專利技術涉及立場檢測技術領域,特別涉及一種于基于論辯數據多任務微調和知識增強的零樣本立場檢測方法及系統,首先利用提示工程從外部知識庫中檢索文本與對象之間的相關知識對微調數據和測試數據進行知識增強;然后分析論辯語料數據中包含多個任務,同時分別對每個任務的數據進行預處理;最后利用論辯語料數據和外部知識對開源大模型進行多任務微調,并使用微調后的模型進行立場推理。本發明專利技術利用嚴謹邏輯、噪音較小的論辯語料數據對開源大模型進行多任務微調,提升了模型立場檢測的性能;同時,模型利用外部知識庫返回的相關知識作為上下文,用以增強模型在文本理解和分析方面的準確性。

    【技術實現步驟摘要】

    本專利技術涉及立場檢測,特別涉及一種于基于論辯數據多任務微調和知識增強的零樣本立場檢測方法及系統


    技術介紹

    1、立場檢測(stance?detection)任務是自然語言處理領域的一個重要任務,旨在自動確定文本對特定對象的立場或態度,包括支持、反對或中立。

    2、零樣本立場檢測旨在確定文本對于在訓練階段未涉及的特定主題或對象所采取的立場或態度。在現實世界中,文本表達方式和目標對象往往復雜多變,不會局限于某個已有的特定領域或主題,而且通常是難以預測的,零樣本立場檢測旨在應對類似復雜場景下的挑戰。已有零樣本立場檢測研究雖然已經出現了較多成果,但其性能還不夠理想,仍是立場檢測研究領域的難點問題,具體大致體現在以下兩個方面:

    3、一方面,數據標注的稀缺性和社交媒體數據的局限性限制了立場檢測模型的泛化能力。主流的社交媒體立場檢測數據集往往集中于特定的主題,涉及對象數量較少且領域性強。同時,社交媒體用戶表達觀點和立場方式往往具有非正式、口語化以及文本篇幅短、語義隱晦等特點,導致邏輯性弱以及拼寫、語法等錯誤問題,增加了對其進行語義理解和處理分析的難度。這些問題也使得以數據驅動為核心的深度學習模型往往只能學習到表層和領域特定特征,難以獲取文本與對象之間的立場關聯。此外,人工標注立場成本較高且存在較強的主觀性,使得標注高質量立場數據集變得十分困難。另一方面,立場檢測任務本身的復雜性和上下文信息的匱乏加劇了模型學習的難度。立場檢測任務本質上是一項自然語言推理任務,要求模型具備相關專業知識并深刻理解文本的語義,才能做出準確的判斷,如圖1所示。由于文本通常不包含與對象相關的顯性知識,并且簡短內容中往往隱藏著隱含信息,因此需要將相關知識作為上下文融入到立場學習中,以增強模型對文本和對象的全面理解,從而提高模型解決立場檢測任務的能力。


    技術實現思路

    1、本專利技術旨在解決零樣本立場檢測面臨數據標注稀缺和任務本身復雜的挑戰,提出一種基于論辯數據多任務微調和知識增強的零樣本立場檢測方法及系統,通過論辯數據多任務微調并結合從外部數據庫檢索文本和對象之間相關知識的知識增強技術,從而顯著提高立場檢測的效果。

    2、為實現上述目的,所采取的技術方案是:

    3、一種基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,包括:

    4、首先利用提示工程從外部知識庫中檢索文本與對象之間的相關知識對微調數據和測試數據進行知識增強;

    5、然后分析論辯語料數據中包含多個任務,同時分別對每個任務的數據進行預處理;

    6、最后利用論辯語料數據和外部知識對開源大模型進行多任務微調,并使用微調后的模型進行立場推理。

    7、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,對微調數據和測試數據進行知識增強包括:

    8、選擇大型語言模型作為外部知識庫,通過設計提示、填充文本和對象,從外部知識庫中檢索與文本和對象相關的知識;若外部知識庫返回相關知識,這些知識將作為微調數據和測試數據中相關知識的補充。

    9、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,采用過濾機制對檢索到的相關知識進行過濾,如果外部知識庫提供異常或者不正確的信息,這些信息將被過濾,返回結果為空。

    10、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,論辯語料數據中包含四個任務分別是:

    11、①立場檢測:判斷前提句對目標對象的立場;立場檢測任務獲取外部知識;

    12、②觀點抽取:從文本信息中提取出特定主題或話題下的觀點、意見或態度;

    13、③立/駁論生成:是支持/反駁特定立場或觀點的信息和論據;

    14、④關系推理:分析文本中的信息和語境,推斷前提句和假設句之間的關系。

    15、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,對每個任務的數據進行預處理,將它們構建為符合相應任務微調數據的格式要求。

    16、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,開源大模型采用llama3-8b-instruct和mistral-7b-instruct。

    17、根據本專利技術基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,進一步地,立場推理過程為:首先使用知識增強方法檢索測試數據中文本與對象的相關知識;隨后,將檢索到的相關知識結合文本和對象,按照微調數據格式進行提示工程;最后,使用微調后的模型對測試數據中文本對目標對象的立場進行推理。

    18、進一步地,本專利技術還提出一種基于論辯數據多任務微調和知識增強的零樣本立場檢測系統,其特征在于,包括知識增強模塊、論辯數據多任務提示構建模塊和微調推理模塊,其中:

    19、知識增強模塊,用于利用提示工程從外部知識庫中檢索文本與對象之間的相關知識對微調數據和測試數據進行知識增強;

    20、論辯數據多任務提示構建模塊,用于分析論辯語料數據中包含多個任務,同時分別對每個任務的數據進行預處理;

    21、微調推理模塊,用于利用論辯語料數據和外部知識對開源大模型進行多任務微調,并使用微調后的模型進行立場推理。

    22、采用上述技術方案,所取得的有益效果是:

    23、1、針對數據標注的稀缺性和社交媒體數據的局限性,本專利技術在開源大模型上使用與立場檢測任務相關的論辯語料數據進行有監督的多任務微調,更好地學習遷移零樣本立場檢測與推理分析能力,提升了模型立場檢測的性能。

    24、2、針對立場檢測任務本身的復雜性和上下信息的匱乏,本專利技術將大型語言模型作為外部知識庫,從外部知識庫中檢測待測文本和對象的相關知識作為上下文信息,增強模型對待測文本和對象的語義理解能力。

    25、3、本專利技術方法顯著提高了零樣本立場檢測準確率,與chatgpt相比,本專利技術mdka模型框架在公開數據集semeval?2016task?a和p-stance上的平均f1值分別提高了15.74%和3.55%,驗證了基于論辯數據多任務微調和知識增強的零樣本立場檢測方法的有效性和優越性。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,包括:

    2.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,對微調數據和測試數據進行知識增強包括:

    3.根據權利要求2所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,采用過濾機制對檢索到的相關知識進行過濾,如果外部知識庫提供異常或者不正確的信息,這些信息將被過濾,返回結果為空。

    4.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,論辯語料數據中包含四個任務分別是:

    5.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,對每個任務的數據進行預處理,將它們構建為符合相應任務微調數據的格式要求。

    6.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,開源大模型采用LLAMA3-8b-Instruct和Mistral-7b-Instruct。

    7.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,立場推理過程為:首先使用知識增強方法檢索測試數據中文本與對象的相關知識;隨后,將檢索到的相關知識結合文本和對象,按照微調數據格式進行提示工程;最后,使用微調后的模型對測試數據中文本對目標對象的立場進行推理。

    8.一種基于論辯數據多任務微調和知識增強的零樣本立場檢測系統,其特征在于,包括知識增強模塊、論辯數據多任務提示構建模塊和微調推理模塊,其中:

    9.一種計算機裝置,包括存儲器、處理器及存儲在存儲器上的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現如權利要求1-7任一項所述方法的步驟。

    10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1-7任一項所述方法的步驟。

    ...

    【技術特征摘要】

    1.一種基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,包括:

    2.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,對微調數據和測試數據進行知識增強包括:

    3.根據權利要求2所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,采用過濾機制對檢索到的相關知識進行過濾,如果外部知識庫提供異常或者不正確的信息,這些信息將被過濾,返回結果為空。

    4.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,論辯語料數據中包含四個任務分別是:

    5.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,對每個任務的數據進行預處理,將它們構建為符合相應任務微調數據的格式要求。

    6.根據權利要求1所述的基于論辯數據多任務微調和知識增強的零樣本立場檢測方法,其特征在于,開源大...

    【專利技術屬性】
    技術研發人員:盧記倉范欽龍周剛祝濤杰陳靜皮乾坤尚守信
    申請(專利權)人:中國人民解放軍網絡空間部隊信息工程大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码国产自产拍在线观看| 久久精品无码专区免费青青| 日韩国产成人无码av毛片| 久久久久亚洲AV成人无码网站| 无码国内精品人妻少妇 | 性色av极品无码专区亚洲| 国产精品无码久久av| 无码区国产区在线播放| 精品一区二区三区无码免费直播| 无码少妇一区二区浪潮av| 无码人妻视频一区二区三区| 国产成人无码精品久久久久免费| 在线观看无码不卡AV| 亚洲av永久无码嘿嘿嘿| 久久久久亚洲AV无码专区首JN| 无码色AV一二区在线播放| 精品久久久久久久无码久中文字幕 | 无码精品国产va在线观看dvd| 国产av无码专区亚洲av桃花庵| yy111111电影院少妇影院无码| 中文字幕日产无码| 久久亚洲AV成人无码国产最大| 小13箩利洗澡无码视频网站| 免费无码又爽又刺激高潮软件| 国模无码人体一区二区| 亚洲av中文无码乱人伦在线r▽| 国产精品无码一本二本三本色| 人妻丰满熟AV无码区HD| 久久美利坚合众国AV无码| 国产精品无码无卡无需播放器| 亚洲AV无码一区二区三区电影 | 亚洲heyzo专区无码综合| 性无码免费一区二区三区在线 | 亚洲精品天堂无码中文字幕| 久久精品亚洲中文字幕无码麻豆| 国产成A人亚洲精V品无码| 亚洲不卡中文字幕无码| 亚洲国产精品无码av| 日韩精品专区AV无码| 久久无码专区国产精品发布| 亚洲精品自偷自拍无码|