System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言處理,尤其涉及一種科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法。
技術(shù)介紹
1、科技熱點(diǎn)事件不僅會對公眾造成影響,也會對企業(yè)、政府機(jī)構(gòu)等各行各業(yè)產(chǎn)生直接或間接的影響。及時掌握并分析科技熱點(diǎn)事件的輿情,可以幫助企業(yè)、政府機(jī)構(gòu)等各行各業(yè)做出更加明智的決策,減少不必要的損失。因此,輿情監(jiān)控科技熱點(diǎn)話題是企業(yè)、政府機(jī)構(gòu)等各行各業(yè)必須要重視的工作。
2、大語言模型是一種基于深度學(xué)習(xí)的人工智能技術(shù),模型通過層疊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),學(xué)習(xí)并模擬人類語言的復(fù)雜規(guī)律,達(dá)到接近人類水平的文本生成能力。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務(wù),如文本摘要、問答、翻譯等。然而,如何將大語言模型用于網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn),特別是處理海量的科技文獻(xiàn),依然面臨嚴(yán)峻的挑戰(zhàn)。
3、首先,網(wǎng)絡(luò)及社交媒體中的數(shù)據(jù)數(shù)量龐大且更新迅速,如何從中篩選出細(xì)分領(lǐng)域的科技文章是面臨的問題之一。其次,如何利用科技細(xì)分領(lǐng)域的知識改進(jìn)話題聚類的效果有待進(jìn)一步研究。再次,一些傳統(tǒng)的聚類方法如kmeans、mean-shift、層次聚類等主流聚類模型需要一次性提供所有待聚類樣本,逐步進(jìn)行迭代,若輸入樣本稍有不同,聚類的結(jié)果也可能會發(fā)生翻天覆地的變化,這對熱點(diǎn)話題發(fā)現(xiàn)這種實(shí)時性要求高的場景并不事宜;其他一些聚類模型,如dbscan和single-pass聚類,雖然只需掃描一遍數(shù)據(jù)集即可完成聚類,但是需要提前指定密度參數(shù)和相似度閾值,人為設(shè)定的這些參數(shù)對聚類的質(zhì)量影響很大。這些原因都導(dǎo)致傳統(tǒng)的聚類模型并不適合熱點(diǎn)話題發(fā)現(xiàn)任務(wù)。另外,傳統(tǒng)的聚
4、因此,為了更加準(zhǔn)確地實(shí)現(xiàn)科技熱點(diǎn)話題的發(fā)現(xiàn),亟需尋找一種新方法,在能夠充分發(fā)揮大語言模型優(yōu)勢的同時,解決上述難題。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于提供一種科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,從而解決現(xiàn)有技術(shù)中存在的前述問題。
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)采用的技術(shù)方案如下:
3、一種科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,包括如下步驟,
4、s1、定義科技領(lǐng)域分類標(biāo)準(zhǔn),構(gòu)造few-shot提示;
5、s2、將多個媒體文章輸入到大模型中,大模型結(jié)合few-shot提示對輸入的文章進(jìn)行科技領(lǐng)域細(xì)分;
6、s3、基于科技領(lǐng)域細(xì)分結(jié)果,利用大模型抽取各科技文章的摘要,并將文章摘要向量化;
7、s4、將第一篇文章歸為領(lǐng)域的一個主題,并將其按細(xì)分的領(lǐng)域類別建立索引存入科技細(xì)分領(lǐng)域主題向量庫;對于第一篇文章之后的文章,利用大模型對多個文章摘要進(jìn)行改寫,并將多個改寫好的文章摘要利用rag技術(shù)進(jìn)行多級檢索、多路召回,以從科技細(xì)分領(lǐng)域主題向量庫中召回top?n個最相似的主題;
8、s5、利用大模型判斷新輸入的文章是否屬于top?n個最相似的主題之一,并根據(jù)判斷結(jié)果采用相應(yīng)的方式生成主題描述和主題名稱。
9、優(yōu)選的,步驟s1具體為,以《國家重點(diǎn)支持的高新
》為基礎(chǔ)進(jìn)行科技領(lǐng)域細(xì)分,將文中的一級、二級、三級領(lǐng)域內(nèi)容作為輸入給大模型的學(xué)習(xí)樣例,構(gòu)造few-shot提示,以引導(dǎo)大模型輸出合理的分類結(jié)果。
10、優(yōu)選的,步驟s3中,通過調(diào)用m3e-large模型,實(shí)現(xiàn)文章摘要向量化。
11、優(yōu)選的,步驟s4中,對于第一篇文章:
12、將第一篇文章自動歸為其領(lǐng)域的一個主題,并以該篇文章的文章摘要作為主題描述,提取文章中的關(guān)鍵短語作為主題名稱,按細(xì)分的領(lǐng)域類別建立索引存入科技細(xì)分領(lǐng)域主題向量庫。
13、優(yōu)選的,步驟s4中,對于第一篇文章之后的其他文章:
14、利用大模型生成并多次改寫文章摘要,輸入多個改寫好的文章摘要,利用向量余弦相似度依次檢索一級領(lǐng)域,再利用同樣的方式檢索對應(yīng)的子領(lǐng)域,最終查找到具體子領(lǐng)域的相似話題,進(jìn)而從科技細(xì)分領(lǐng)域主題向量庫中召回top?n個最相似的主題。
15、優(yōu)選的,所述多路召回為,輸入多個改寫好的文章摘要,同時進(jìn)行多級檢索。
16、優(yōu)選的,步驟s5具體為,大模型判斷新輸入的文章是否屬于top?n個最相似的主題之一,若是,大模型將該文章歸為相應(yīng)的主題,并根據(jù)該主題的最新m篇文章重新生成主題描述和主題名稱;否則,將該文章歸為細(xì)分領(lǐng)域的一個新主題,并將該文章的摘要作為該新主題的描述,抽取該文章的關(guān)鍵短語作為該主題的主題名稱。
17、本專利技術(shù)的有益效果是:1、利用大模型的涌現(xiàn)能力結(jié)合few-shot提示工程,大大減少了人工標(biāo)注的成本,提高了科技細(xì)分領(lǐng)域分類的準(zhǔn)確性。2、有效地應(yīng)用了檢索增強(qiáng)生成rag技術(shù),對網(wǎng)絡(luò)中實(shí)時發(fā)布的文章進(jìn)行聚類,實(shí)現(xiàn)了文章的單遍聚類,并避免了single-pass聚類中每篇文章與每個現(xiàn)有簇的一一對比,提高了聚類的速度和準(zhǔn)確性,并避免了人工干預(yù)帶來的偏見和不確定性。3、多級索引將龐大的數(shù)據(jù)和信息需求按類別劃分,并在不同層級中組織,以實(shí)現(xiàn)更有效的管理和檢索。多級路由機(jī)制確保每個查詢被高效引導(dǎo)至最合適的索引。不僅提升了處理效率,還優(yōu)化了資源分配和使用,確保了對各類查詢的精確匹配。4、摘要改寫多路召回提升了主題查詢的召回率,使得主題匹配更加精確。5、利用大模型生成主題名稱和主題描述,使生成的話題更易理解、更具可讀性;根據(jù)聚類簇中的多篇文章摘要生成主題描述,使描述更加適應(yīng)該主題、避免片面性。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:包括如下步驟,
2.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟S1具體為,以《國家重點(diǎn)支持的高新技術(shù)領(lǐng)域》為基礎(chǔ)進(jìn)行科技領(lǐng)域細(xì)分,將文中的一級、二級、三級領(lǐng)域內(nèi)容作為輸入給大模型的學(xué)習(xí)樣例,構(gòu)造few-shot提示,以引導(dǎo)大模型輸出合理的分類結(jié)果。
3.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟S3中,通過調(diào)用m3e-large模型,實(shí)現(xiàn)文章摘要向量化。
4.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟S4中,對于第一篇文章:
5.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟S4中,對于第一篇文章之后的其他文章:
6.根據(jù)權(quán)利要求5所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:所述多路召回為,輸入多個改寫好的文章摘要,同時進(jìn)行多級檢索。
7.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟S5具體為,大模型判斷新輸入的文章是否屬于Top
...【技術(shù)特征摘要】
1.一種科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:包括如下步驟,
2.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟s1具體為,以《國家重點(diǎn)支持的高新技術(shù)領(lǐng)域》為基礎(chǔ)進(jìn)行科技領(lǐng)域細(xì)分,將文中的一級、二級、三級領(lǐng)域內(nèi)容作為輸入給大模型的學(xué)習(xí)樣例,構(gòu)造few-shot提示,以引導(dǎo)大模型輸出合理的分類結(jié)果。
3.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟s3中,通過調(diào)用m3e-large模型,實(shí)現(xiàn)文章摘要向量化。
4.根據(jù)權(quán)利要求1所述的科技領(lǐng)域網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的方法,其特征在于:步驟s4中,對于第一篇文章:
5.根...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:江俊鵬,周山,包俊,
申請(專利權(quán))人:中國科學(xué)技術(shù)信息研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。