System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及新聞的檢測評估領域,特別涉及一種新聞文章立場檢測與改寫評估方法。
技術介紹
1、新聞也叫消息、資訊,是通過報紙、電臺、廣播、電視臺等媒體途徑所傳播信息的一種稱謂,是記錄社會、傳播信息、反映時代的一種文體,新聞概念有廣義與狹義之分,就其廣義而言,除了發表于報刊、廣播、互聯網、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫等等;狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內外新近發生的、有價值的事實,讓別人了解,每則新聞一般包括標題、電頭、導語、主體、背景和結語六部分,前四者是主要部分,后二者是輔助部分,標題、導語、主體必不可少,寫法上主要是敘述,有時兼有議論、描寫、評論等,新聞是包含海量資訊的新聞服務平臺,真實反映每時每刻的重要事件,可以通過查看新聞事件、熱點話題、人物動態、產品資訊等,快速了解它們的最新進展。
2、新聞撰寫中通常會將自己的主觀情緒寫入至新聞文章中,當其隱含立場問題時,一旦發布,則會對民眾傳播不良的信息,以此需要對新聞文章進行檢測,但文章內容較多時,人工對其檢測效率較低,可能會產生遺漏,后續改寫也較為不便。
技術實現思路
1、本專利技術的主要目的在于提供一種新聞文章立場檢測與改寫評估方法,可以有效解決
技術介紹
中的問題。
2、為實現上述目的,本專利技術采取的技術方案為:
3、一種新聞文章立場檢測方法,包括以下操作步驟:
4、s1:數據集構建,首先
5、s2:話語結構分析,將文本分解為更小的單元,優選的分解為話語單元,并分析這些單元之間的關系和結構,包括文章的組織方式、論點的展開和論據的使用,用于識別出可能與政治立場相關的語言特征,用于捕捉文本的論證結構和修辭手法;
6、s3:文本表示,使用預訓練的語言模型來獲取文本的嵌入表示,模型用于捕捉文本中的語義信息和上下文關系;
7、s4:模型訓練,使用上述文本表示和話語結構信息來訓練一個分類器,以預測文本的政治立場類別,分類器包含多個層次,以處理不同粒度的信息,以達到檢測新聞立場的效果。
8、優選的,所述s1具體包括以下操作步驟:
9、s101:文本與標簽的選擇,從不同的政治新聞來源和公開的新聞數據集中獲取包含明確政治立場的文本數據,包括但不限于從左傾、右傾和中立的新聞網站中獲取文章;編寫爬蟲代碼設定爬取規則,包括但不限于按照日期范圍、關鍵詞篩選、新聞主題來獲取數據;根據來源的已知傾向和文章的內容為每篇文本ti賦予一個立場標簽yi,并根據政治立場分為左傾(l)、中立(n)、右傾(r),數據集d的形式如公式一:
10、;
11、s102:文本過濾與清理,在正式處理前,清理每篇文本ti,去除噪音字符、html標記、多余的空格、url,同時查看文本數據的整體情況,包括但不限于數據量大小、文本長度分布、語言種類、字符編碼,確定文本中存在的主要問題,包括但不限于重復內容、錯誤拼寫、不符合要求的格式,在python的基礎下,將文本數據存儲在一個集合中,用于自動去除重復內容;
12、將文本內容進行格式的統一,根據需求將文本全部轉換為大寫或小寫、將標題等部分進行特定的大小寫轉換;
13、對處理后的文本內容進行過濾和清理,驗證數據是否符合預期的質量標準,抽取部分樣本進行人工檢查、自動化的測試用例來驗證數據的準確性、完整性和一致性,根據驗證結果,對過濾和清理步驟進行調整和優化;
14、文本經過上述處理后用于后續處理,記清理后的文本為ti′;
15、s103:標簽編碼,將類別標簽yi轉為數值編碼,用于模型訓練,以下為公式二:
16、。
17、優選的,所述s2具體包括以下操作步驟:
18、s201:話語單元分割,將每篇清洗后的文本ti′劃分為基本的話語單元(edus),這些單元是最小的完整表達單元,每個文本用于表示為一組edus{ei1,ei2,…,ein},其中n表示edus的數量,以下為公式三:
19、;
20、同時合并過短的單元,將分割后出現的過短的話語單元,包括但不限于單個單詞、非常簡短的短語,當其不符合應用場景的要求,根據上下文和語義將它們與相鄰的單元合并;
21、檢查連貫性和邏輯性,通過人工檢查、自動的語義連貫性評估工具檢查分割后的話語單元是否在語義和邏輯上連貫,當發現分割不合理時,對分割方法進行調整;
22、s202:話語關系構建,分析每個edu之間的關系,建立話語結構,優選的,采用基于話語結構理論的方法來實現,將edus按它們之間的語義關系組織成樹結構,edu之間的關系結構表示為一棵樹,其中根節點表示主要論點,葉節點表示支持性論據;
23、具體的,使用分句工具按照修辭結構理論將texti劃分成多個句子,并且標注核心和衛星,核心表示中心信息的單元,具有相對完整的語義,衛星是傳達支撐信息的其他單元,用于補充說明核心部分,連貫的篇章由不同層次的修辭關系組成,將其表示為一種樹形結構;
24、從篇章單位開始,修辭結構樹逐步覆蓋整個篇章,形成層次化的篇章結構樹,層次的復雜程度與篇章語義的復雜程度相關,語義越復雜,層次越多;
25、s203:關系標注,通過標注不同的語義關系,包括但不限于“對比”、“支持”、“因果”,用于進一步豐富話語結構,在模型訓練中充分利用這些信息,標注用于識別每個edu在整體文本結構中的角色;
26、標注時基于人工和自動標注,其中人工標注:先確定一套完整的關系標注體系,包括關系類型、標注規則,標注人員根據標注體系,對文本中的話語單元之間的關系進行標注,標注人員分析句子之間是如何組織的,組織包括順承關系和對比關系;
27、自動標注:提取話語結構的各種特征,包括但不限于詞匯特征、句法特征、語義特征,使用標注好的語料來訓練機器學習模型,模型通過學習標注語料中的關系模式,從而對新的文本進行關系標注。
28、優選的,所述s3具體包括以下操作步驟:
29、s301:詞嵌入生成,使用預訓練的語言模型,包括但不限于roberta、longformer,將其生成每個edu的詞嵌入表示,以下為公式四:
30、;
31、其中eij表示第i篇文本的第j個edu,其中包含詞向量xijk,使用公式求出該edu的詞嵌入平均值,生成edu的嵌入表示veij,其中m表示edu中的詞數,xijk表示該edu中的第k個詞的嵌入表示;
32、s302:edu的上下文處理,將每個edu的嵌入表示veij輸入到lstm或transformer等上下文模型中,用于獲得更豐富的上下文表示,同時捕捉到edu之間的依賴關系;
33、s本文檔來自技高網...
【技術保護點】
1.一種新聞文章立場檢測方法,其特征在于:包括以下操作步驟:
2.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述S1具體包括以下操作步驟:
3.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述S2具體包括以下操作步驟:
4.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述S3具體包括以下操作步驟:
5.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述步驟S4中,在文本蘊含識別任務上訓練分類器模型,即判斷前提句子與假設句子之間是否具有蘊含關系、矛盾關系還是中立關系,所述S4具體包括以下操作步驟:
6.一種新聞文章立場改寫評估方法,改方法采用如權利要求1-5任意一項所述的新聞文章立場檢測方法,其特征在于:所述包括以下操作步驟:
7.根據權利要求6所述的一種新聞文章立場改寫評估方法,其特征在于:所述A具體為:將被檢測完的新聞文章中帶有立場的句子形成立場句子集,其中句子集表示為,然后使用標記器為句子打上標記,其中[INS]標記前面需要插入單詞的詞,[SUB]標
8.根據權利要求6所述的一種新聞文章立場改寫評估方法,其特征在于:所述B具體包括以下操作步驟:
9.根據權利要求6所述的一種新聞文章立場改寫評估方法,其特征在于:所述D具體包括以下操作步驟:
10.根據權利要求6所述的一種新聞文章立場改寫評估方法,其特征在于:所述F具體的步驟為:通過步驟A-E將句子集轉換成后,將轉換后的句子集融入到原文章newi中得到轉化立場后的文章newi’,再利用現有的自動文本評估指標(如ROUGE、SBERT、CtxSimFit)來計算修改后的文章與原文章的內容相似性,確保修改后的文章的內容與原文章的內容一致,以下為公式十五:
...【技術特征摘要】
1.一種新聞文章立場檢測方法,其特征在于:包括以下操作步驟:
2.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述s1具體包括以下操作步驟:
3.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述s2具體包括以下操作步驟:
4.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述s3具體包括以下操作步驟:
5.根據權利要求1所述的一種新聞文章立場檢測方法,其特征在于:所述步驟s4中,在文本蘊含識別任務上訓練分類器模型,即判斷前提句子與假設句子之間是否具有蘊含關系、矛盾關系還是中立關系,所述s4具體包括以下操作步驟:
6.一種新聞文章立場改寫評估方法,改方法采用如權利要求1-5任意一項所述的新聞文章立場檢測方法,其特征在于:所述包括以下操作步驟:
7.根據權利要求6所述的一種新聞文章立場改寫評估方法,其特征在于:所述a具體為:將被檢測...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。