System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及不良新聞文本的檢測領域,特別涉及一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法。
技術介紹
1、為了優(yōu)化新聞傳播效果,實現(xiàn)精準傳播,往往需要檢測新聞文本中隱含的不良傾向文本,但現(xiàn)有的新聞不良傾向文本的檢測算法還存在不少不足,如:大多數(shù)以全文為單位對文章進行上下文理解和文本分析而缺少了對句子單位的把控、以豐富文本特征為目加入外部知識注入但外部知識本身就隱含不良傾向、對長文本進行截取嵌入而缺失了全文特征等問題。
2、因此,提出一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法來解決上述問題很有必要。
技術實現(xiàn)思路
1、本專利技術的主要目的在于提供一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,可以有效解決
技術介紹
中的問題。
2、為實現(xiàn)上述目的,本專利技術采取的技術方案為:
3、一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,包括以下操作步驟:
4、s1:收集多個渠道的新聞文本形成數(shù)據(jù)集,對數(shù)據(jù)集進行清洗,形成包含標題、文本兩個元素的文本形成數(shù)據(jù)集,由專業(yè)的人員根據(jù)新聞文本中包含的傾向極性將新聞標注為中立、偏左、偏右,基于優(yōu)化模型訓練效果,將三類文本控制在相同數(shù)量并且包含多家新聞媒體;
5、s2:數(shù)據(jù)預處理,通過提前設定好句子劃分符號以及特征,對每一篇新聞文本進行分句形成新聞句列表,以新聞文章為單位將新聞存入數(shù)據(jù)加載器中并打亂數(shù)據(jù),其中每一篇新聞文章包含自身句子列表以及標題;
6、s3:文本嵌入,通過預訓練模型對數(shù)據(jù)加載器
7、s4:包括句子得分模塊,嵌入后的文本特征向量輸入至句子得分模塊,該模塊用于為句子賦予一個分數(shù),通過多特征融合策略,該模塊綜合分析句子的多方面特征,有效得到句子分數(shù),句子分數(shù)與嵌入后的文本特征向量相乘得到新的文本特征向量,從而實現(xiàn)對文本主題的準確概括;
8、s5:包括樹型層次結構模塊,將上述新的文本特征向量與句子分數(shù)輸入到樹型層次結構模塊中,該模塊用于評估與排序新聞文本中的句子重要性,從而構建出具有層級結構的樹型表示;
9、s6:包括特征融合模塊,將樹型層次結構的新聞輸入到特征融合模塊,該模塊用于將高維特征向量有效融合為低維表示;
10、s7:包括文本內容傾向檢測模塊,將融合后的樹型層次結構高維特征向量輸入到文本內容傾向檢測模塊后,通過全連接層進行特征轉換,用于提取潛在的文本傾向信息。
11、優(yōu)選的,所述s1具體包括以下操作步驟:
12、s101:在多個新聞網(wǎng)站以獲取指定時間范圍的多個主題的新聞并進行數(shù)據(jù)清洗,用于規(guī)范新聞文本數(shù)據(jù)的格式和字段,讓模型學習不良傾向形態(tài)特征而不是網(wǎng)站寫作特征,形成文本數(shù)據(jù)集;
13、s102:由專業(yè)的人員對獲取的新聞文本中包含的傾向形態(tài)極性進行標注,旨在將多個主題、內容的新聞歸類為三類,即偏左、中立、偏右,對應傾向形態(tài)中的左派、中立、右派。
14、優(yōu)選的,所述s2具體包括以下操作步驟:
15、s201:以步驟s1形成的新數(shù)據(jù)集中的為單位進行分句處理,得到句子列表表示第篇新聞文本的句子所構成的句子列表;
16、s202:將句子列表替換步驟s1所述新數(shù)據(jù)集,并輸入到數(shù)據(jù)加載器中,設定批次大小并打亂順序。
17、優(yōu)選的,所述s3具體包括以下操作步驟:
18、s301:利用預訓練模型語言模型對數(shù)據(jù)集進行嵌入處理,旨在將文本轉化為高維特征向量,學習上下文信息并捕捉句子深層語義;
19、s302:利用雙向模型對嵌入后的句子列表進行處理,以捕捉句子之間的上下文信息,并深入學習它們在文本結構中的相互關系,其中文本結構包括線性結構、總分結構、分總結構、并列結構,其關系包括因果關系、轉折關系、遞進關系,首先分析句子的詞性、句子成分,確定句子的語法結構,利用詞向量模型技術,確定句子中詞匯的語義含義,進而分析句子的整體語義,尋找句子之間的邏輯連接詞,以此推斷句子間的邏輯關系并提取其特征;
20、建立關系模型,基于提取的特征,使用深度學習模型構建句子關系分類模型,使用一部分標注好的數(shù)據(jù)集對模型進行評估,通過準確率、召回率、f1值衡量模型的性能,根據(jù)評估結果對模型進行優(yōu)化,調整模型的參數(shù)并改進特征提取方法。
21、優(yōu)選的,所述s4具體包括以下操作步驟:
22、s401:為每個句子分配一個長度得分,通過工具量化其字符、詞數(shù),句子長度得分用于捕捉句子在篇幅上的重要性,從而衡量其對整體文本的貢獻程度;
23、s402:為每個句子分配一個與標題相似度得分,通過計算句子與標題之間的語義相似度得分,衡量句子內容與標題主旨的契合程度,從而識別出與核心主題高度關聯(lián)的句子,反映其對整篇文本的重要性;
24、s403:衡量句子在文本中的相對位置重要性,定義句子位置得分,得分通過考慮句子在文檔中的具體位置及其在整體結構中的作用來評估句子的相對權重,用于反映出該句子在表達中心思想時的潛在貢獻;
25、s404:融合上述句子長度得分、句子與標題相似的得分、句子位置得分,為其分別分配一個可學習的參數(shù)并歸一化。
26、優(yōu)選的,所述s5具體包括以下操作步驟:
27、s501:實現(xiàn)文本句子的主次結構,利用計算得到的句子得分作為標準將句子劃分為中心句與中心句對應的支撐句,形成句子集,將整篇文章劃分為多個句子集;
28、s502:實現(xiàn)整個文本的主次結構,利用得到的句子集,將整篇文章形成樹型層次結構。
29、優(yōu)選的,所述s6具體包括以下操作步驟:
30、s601:以所述樹型層次結構對文本進行特征融合,以自下而上的方式進行逐步融合,將句子集中的中心句和支撐句進行特征融合,支撐句以文本自然順序排列,以確保保留文本的結構性和邏輯性;
31、s602:以同樣的方法將句子集進行特征融合,句子集以中心句在文本中的自然順序排列;
32、s603:以同樣的方式將正文部分與標題特征向量進行特征融合。
33、優(yōu)選的,所述s7具體包括以下操作步驟:
34、s701:將數(shù)量為的新聞特征向量進行拼接;
35、s702:將拼接后的新聞特征向量輸入分類器。
36、與現(xiàn)有技術相比,本專利技術提供了一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,具備以下有益效果:
37、1、該基于層次網(wǎng)絡的不良新聞文本極性檢測方法,可以判斷某篇新聞的文本內容是偏左、還是偏右,或者中性,可用于新聞文本發(fā)布前文本內容傾向的檢測、篩選,有助管控不良新聞文本的發(fā)布,優(yōu)化新聞傳播效果,優(yōu)化國家形象塑造的效果。
38、2、該基于層次網(wǎng)絡的不良新聞文本極性檢測方法,樹型層次結構模塊通過層次遞進的分析方法,該模塊能夠精準地組織句子的重要性層次,從而放大新聞的中心特征,并有效削弱和去除次要特征本文檔來自技高網(wǎng)...
【技術保護點】
1.一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:包括以下操作步驟:
2.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S1具體包括以下操作步驟:
3.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S2具體包括以下操作步驟:
4.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S3具體包括以下操作步驟:
5.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S4具體包括以下操作步驟:
6.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S5具體包括以下操作步驟:
7.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S6具體包括以下操作步驟:
8.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述S7具體包括以下操作步驟:
【技術特征摘要】
1.一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:包括以下操作步驟:
2.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述s1具體包括以下操作步驟:
3.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述s2具體包括以下操作步驟:
4.根據(jù)權利要求1所述的一種基于層次網(wǎng)絡的不良新聞文本極性檢測方法,其特征在于:所述s3具體包括以下操作步驟:
5.根據(jù)權...
【專利技術屬性】
技術研發(fā)人員:蔣少華,易錦成,文啟鵬,
申請(專利權)人:湖南師范大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。