System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及網(wǎng)絡(luò)輿情安全監(jiān)測,特別是涉及一種網(wǎng)絡(luò)輿情監(jiān)控方法和系統(tǒng)。
技術(shù)介紹
1、在當(dāng)前經(jīng)濟環(huán)境下,中小企業(yè)作為市場活力的重要體現(xiàn),其發(fā)展?fàn)顩r直接關(guān)系到經(jīng)濟的健康發(fā)展和社會的穩(wěn)定。輿情分析在幫助中小企業(yè)提升對市場動態(tài)的敏感度以及評估客戶還款風(fēng)險方面發(fā)揮著至關(guān)重要的作用。通過對互聯(lián)網(wǎng)上的海量信息進行收集、分類和情感傾向分析,以幫助企業(yè)監(jiān)測和評估客戶的信用狀況,通過分析客戶的網(wǎng)絡(luò)行為和言論,預(yù)測其還款能力和風(fēng)險,為信貸決策提供支持。因此,輿情分析對于中小企業(yè)來說,不僅是了解市場和客戶的工具,更是提升競爭力和抗風(fēng)險能力的有效手段。
2、公開號為cn118193815a公開了《一種基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法的網(wǎng)絡(luò)輿情安全監(jiān)測方法》中提到采集輿情數(shù)據(jù)并構(gòu)建深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,通過構(gòu)建的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型對實時采集的輿情數(shù)據(jù)進行預(yù)測;這種構(gòu)建深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型方式在需要大量高質(zhì)量訓(xùn)練數(shù)據(jù)的同時還需要不斷通過反向傳播來調(diào)整權(quán)重,因此導(dǎo)致訓(xùn)練效率低、訓(xùn)練周期長;此外,神經(jīng)網(wǎng)絡(luò)模型在預(yù)測過程中的復(fù)雜性和不透明性,不利于調(diào)試和改進。
技術(shù)實現(xiàn)思路
1、基于此,針對上述技術(shù)問題,提供一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法和系統(tǒng),用以解決現(xiàn)有技術(shù)現(xiàn)有技術(shù)模型開發(fā)周期長、不利于調(diào)試和改進問題。
2、第一方面,一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,所述方法包括:
3、通過爬蟲技術(shù)從新聞網(wǎng)站上收集大量歷史輿情數(shù)據(jù);
4、針對每一條歷史輿情數(shù)據(jù)進行預(yù)處理,對預(yù)處理后的
5、利用詞庫獲取每條歷史輿情數(shù)據(jù)的詞袋表示,并標(biāo)記每條輿情數(shù)據(jù)的標(biāo)簽向量,所述標(biāo)簽向量為正面資訊或者負面資訊;將一部分歷史輿情數(shù)據(jù)作為訓(xùn)練集,另一部分輿情數(shù)據(jù)作為驗證集;
6、利用訓(xùn)練集中對應(yīng)的輿情數(shù)據(jù)的詞袋表示以及對應(yīng)的標(biāo)簽向量計算貝耶斯分類器的參數(shù)πc和θjc,所述πc為正面資訊或負面資訊的先驗概率,所述θjc為詞庫中的詞語j出現(xiàn)在正面資訊或負面資訊里面的條件概率,其中,c為正面資訊或負面資訊;并利用驗證集對所述πc和θjc進行調(diào)優(yōu);
7、獲取目標(biāo)對象的實時的輿情數(shù)據(jù),對實時的輿情數(shù)據(jù)進行分詞,計算每個詞語為正面資訊和負面資訊的后驗概率,分別將所有詞語為正面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率,將所有詞語為負面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率,比較所述所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率和負面資訊的后驗概率,將數(shù)值大的作為所述實時的輿情數(shù)據(jù)的預(yù)測結(jié)果輸出。
8、上述方案中,可選地,獲取目標(biāo)對象的實時的輿情數(shù)據(jù)后還包括:獲取目標(biāo)對象的概況信息,將所述概況信息通過文本向量化模型a進行統(tǒng)一維度d的向量化;
9、將所述目標(biāo)對象的實時的輿情數(shù)據(jù)通過所述文本向量化模型a進行維度d的向量化;
10、計算目標(biāo)對象每一條實時輿情數(shù)據(jù)與概況信息的余弦相似度,將余弦相似度小于預(yù)設(shè)閾值的實時輿情數(shù)據(jù)進行過濾,去除無關(guān)輿情。
11、上述方案中,進一步可選地,所述概況信息包括:品牌信息、產(chǎn)品信息、總代信息、政策信息、經(jīng)濟信息以及技術(shù)信息。
12、上述方案中,可選地,所述將所有詞語為正面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率,將所有詞語為負面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率包括:
13、獲取所有詞語為正面資訊概率的對數(shù)相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率;
14、獲取所有詞語為負面資訊概率的對數(shù)相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率。
15、上述方案中,可選地,所述利用詞庫獲取每條歷史輿情數(shù)據(jù)的詞袋表示之后,還包括:
16、根據(jù)每條歷史輿情數(shù)據(jù)的詞袋表示獲取詞庫中每個詞語的出現(xiàn)次數(shù),構(gòu)建詞庫中每個詞語的詞頻分布,去除詞庫中詞頻率大于一定值的詞語。
17、上述方案中,可選地,所述計算貝耶斯分類器的參數(shù)πc和θjc時使用參數(shù)a=2和b=2的貝塔分布。
18、上述方案中,可選地,利用驗證集對所述πc和θjc進行調(diào)優(yōu)包括:
19、根據(jù)所述πc和θjc計算所述驗證集中的歷史輿情數(shù)據(jù)的預(yù)測結(jié)果,根據(jù)所述歷史輿情數(shù)據(jù)的預(yù)測結(jié)果和對應(yīng)的標(biāo)簽向量進行比較,得到預(yù)測準確度,根據(jù)預(yù)測準確對所述πc和θjc進行調(diào)優(yōu)。
20、第二方面,一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),所述系統(tǒng)包括:
21、歷史輿情數(shù)據(jù)獲取模塊:用于通過爬蟲技術(shù)從新聞網(wǎng)站上收集歷史輿情數(shù)據(jù);
22、詞庫構(gòu)建模塊:用于針對每一條歷史輿情數(shù)據(jù)進行預(yù)處理,對預(yù)處理后的輿情數(shù)據(jù)進行分詞,獲取所有歷史輿情數(shù)據(jù)中出現(xiàn)的所有的不同詞語的集合記為詞庫;
23、輿情數(shù)據(jù)處理模塊:用于利用詞庫獲取每條歷史輿情數(shù)據(jù)的詞袋表示,并標(biāo)記每條輿情數(shù)據(jù)的標(biāo)簽向量,所述標(biāo)簽向量為正面資訊或者負面資訊;將一部分歷史輿情數(shù)據(jù)作為訓(xùn)練集,另一部分輿情數(shù)據(jù)作為驗證集;
24、貝耶斯分類器的參數(shù)計算模塊:用于利用訓(xùn)練集中對應(yīng)的輿情數(shù)據(jù)的詞袋表示以及對應(yīng)的標(biāo)簽向量計算貝耶斯分類器的參數(shù)πc和θjc,所述πc為正面資訊或負面資訊的先驗概率,所述θjc為詞庫中的詞語j出現(xiàn)在正面資訊或負面資訊里面的條件概率,其中,c為正面資訊或負面資訊;并利用驗證集對所述πc和θjc進行調(diào)優(yōu);
25、預(yù)測結(jié)果輸出模塊:用于獲獲取目標(biāo)對象的實時的輿情數(shù)據(jù),對實時的輿情數(shù)據(jù)進行分詞,計算每個詞語為正面資訊和負面資訊的后驗概率,分別將所有詞語為正面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率,將所有詞語為負面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率,比較所述所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率和負面資訊的后驗概率,將數(shù)值大的作為所述實時的輿情數(shù)據(jù)的預(yù)測結(jié)果輸出。
26、第三方面,一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述第一方面所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法的步驟。
27、第四方面,一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)上述第一方面所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法的步驟。
28、本申請至少具有以下有益效果:
29、本申請通過采集大量歷史輿情,根據(jù)歷史輿情構(gòu)建詞庫,從而獲取每條歷史輿情數(shù)據(jù)的詞袋表示,并進行是正面資訊或者負面資訊的標(biāo)簽向量的標(biāo)注;根據(jù)輿情數(shù)據(jù)的詞袋表示以及對應(yīng)的標(biāo)簽向量計算貝耶斯分類器的參數(shù)先驗概率πc和條件概率θjc,以此計算實時收集的輿情數(shù)據(jù)的正面資訊和負面資訊的后驗概率并比較,數(shù)值大的為實時的輿情數(shù)據(jù)的預(yù)測結(jié)果。由此,基于概率分布實現(xiàn)的貝耶斯算法可以更直觀地理解模型的不確定性,為算法提供了較高的可解釋性,便于調(diào)試和改進。同時,耶斯算法模型在萬條以內(nèi)訓(xùn)練數(shù)據(jù)的訓(xùn)練效率本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,獲取目標(biāo)對象的實時的輿情數(shù)據(jù)后還包括:獲取目標(biāo)對象的概況信息,將所述概況信息通過文本向量化模型a進行統(tǒng)一維度d的向量化;
3.根據(jù)權(quán)利要求2所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述概況信息包括:品牌信息、產(chǎn)品信息、總代信息、政策信息、經(jīng)濟信息以及技術(shù)信息。
4.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述將所有詞語為正面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率,將所有詞語為負面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率包括:
5.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述利用詞庫獲取每條歷史輿情數(shù)據(jù)的詞袋表示之后,還包括:
6.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述計算貝耶斯分類器的參數(shù)πc和θjc時使用參數(shù)a=2和b=2的貝塔分布。
7.根據(jù)權(quán)利要求1所述
8.一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),其特征在于,所述系統(tǒng)包括:
9.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。
10.一種計算機程序產(chǎn)品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述方法的步驟。
...【技術(shù)特征摘要】
1.一種基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,獲取目標(biāo)對象的實時的輿情數(shù)據(jù)后還包括:獲取目標(biāo)對象的概況信息,將所述概況信息通過文本向量化模型a進行統(tǒng)一維度d的向量化;
3.根據(jù)權(quán)利要求2所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述概況信息包括:品牌信息、產(chǎn)品信息、總代信息、政策信息、經(jīng)濟信息以及技術(shù)信息。
4.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,所述將所有詞語為正面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的正面資訊的后驗概率,將所有詞語為負面資訊概率相乘得到所述實時的輿情數(shù)據(jù)的負面資訊的后驗概率包括:
5.根據(jù)權(quán)利要求1所述的基于大數(shù)據(jù)平臺網(wǎng)絡(luò)輿情監(jiān)控方法,其特征...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:邵其永,楊雪琳,顧喜德,張菁稞,
申請(專利權(quán))人:四川長虹佳華信息產(chǎn)品有限責(zé)任公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。