System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及計算機領域,更具體地講,涉及一種基于多特征融合的群組線索發現方法。
技術介紹
1、由于平臺數據復雜性、多樣性、實時性等特點導致的平臺中流媒體信息傳播媒介多樣化,關鍵信息數據分布稀疏、占比極低、離散隱蔽等特點,這增加了平臺中群組識別和獲取群組線索的難度。此外,平臺中的線索群組數據通常以多維度特征的形式出現,諸如文本、碼值、統計信息等,而現有的方法大部分是對各類特征進行交互表征,并根據統一的表征來抽取多維度特征數據中的關鍵線索,但不同類別特征數據之間存在語義上的差別,因此現有方法難以學習到具有強關聯屬性的多維度特征,并且無法利用不同類別特征之間的內在聯系和依賴關系輔助關鍵線索發現,從而導致模型抽取群組多維度特征的效果變差。
技術實現思路
1、本公開的實施例的目的在于提供一種基于多特征融合的群組線索發現方法,本專利技術的主要研究目標是更高效地識別和分析關鍵群體。
2、首先,本專利技術通過綜合分析文本、編碼值、統計信息等多種特征,識別出重點群組。這些特征包括但不限于文本語義特征、數值編碼特征,以及從歷史數據中提取的統計特征等。通過多維度的信息分析方法,避免了僅依賴單一特征的局限性,從而顯著提升了重點群組識別的準確性和可靠性。
3、在識別出重點群組后,本專利技術進一步結合大模型和時序信息,對群組中的數據進行深度挖掘,以發現隱藏的重要線索。大模型的應用使本專利技術能夠處理和理解復雜的模式和關系,而時序信息的分析則能夠捕捉數據在時間維度上的動態變化,從而識別在特
4、在一個總的方面,提供一種基于多特征融合的群組線索發現方法,包括兩部分:基于多特征融合的重點群組識別模塊和重點群組線索發現模塊;
5、所述基于多特征融合的重點群組識別模塊首先利用gpt模型對社交平臺上的群組文本數據進行提取,并對所述文本數據進行預處理,將文本數據轉化為詞嵌入表示;
6、接著,經過位置編碼后的詞嵌入序列被輸入到多層transformer網絡中利用自注意力機制進行深度特征提取,計算公式為:
7、
8、其中q表示查詢矩陣,表示當前詞對其他詞的關注程度。每個詞的位置都會生成一個查詢向量,用于尋找與其相關的詞。k表示鍵矩陣,表示詞的特征或內容。每個詞的位置都會生成一個鍵向量,用于與查詢向量(q)進行匹配,從而確定關聯性。v表示值矩陣,表示詞的值或輸出信息。每個詞的位置生成一個值向量,表示該詞的內容信息,將被加權匯總成輸出。dk表示鍵向量k的維度,是一個歸一化因子,用于縮小點積結果的值范圍,避免過大的數值導致softmax函數趨近于飽和,從而失去區分度。t表示矩陣的轉置鍵矩陣k的轉置矩陣;所述深度特征包括碼值特征、文本特征、統計特征;
9、所述多專家混合模型首先對文本特征、碼值特征和統計特征分別建立獨立的專家網絡處理,每個所述專家網絡都是一個多層感知機,對文本特征生成表征,對統計特征進行降維;之后設計多專家混合模型對碼值特征、文本特征的表征、降維后的統計特征進行特征融合與判別,具體而言,設計門控機制通過對輸入特征進行分析,生成每個專家網絡的加權系數,并根據輸入特征的重要性,動態地調整各個專家網絡的輸出權重;最終所有專家網絡的輸出通過加權求和的方式進行融合,生成綜合的特征表示,融合公式具體為:
10、
11、其中,n是專家網絡的數量,ffinal是融合后的最終特征表示;
12、所述重點群組線索發現模塊接收所述多專家混合模型的運算結果,通過基于大模型提示的文本線索發現和滑動窗口時序線索發現方法實現篩選重點組群,并得到組群篩選結果。
13、所述碼值特征的分析方法為:關注在多個群組中重復出現或具有明顯指向性的碼值;
14、所述統計特征的分析方法為:使用多層感知機模型將所有統計特征進行融合,生成最終的統計特征表示,計算公式如下:
15、fstat=σ(w×x+b)
16、其中,x為輸入的統計特征向量,w為權重矩陣,b為偏置,σ為激活函數。
17、所述基于大模型提示的文本線索發現通過利用預訓練的語言模型并設計合適的prompt,模型在處理prompt時,綜合考慮文本中的詞匯頻率、語義關聯以及情感表達,從而生成包含關鍵信息的輸出,從而挖掘出與群組行為密切相關的文本線索,線索包括群組的章程、情感傾向、常見主題、熱點關鍵詞及交流風格。
18、所述滑動窗口時序線索發現方法通過對社交平臺群組活動的時間維度進行動態分析,識別特定行為,具體而言,將數據分成相互重疊的時間段,每個時間段內獨立分析群組的發言頻率、關鍵詞使用情況和用戶活躍度指標,捕捉群組內的突發行為和熱點活動;
19、針對兩個群組在不同時間段的活動模式進行相似性判別,引入動態時間規方法衡量兩個群組的時間序列相似性,通過計算群組間活動模式的最小距離,識別在不同時間段內具有類似活動特征的群組,計算公式為:
20、
21、其中,x[i]和y[j]分別表示兩個時間序列x和y在第i和j個時間點的值,n是時間序列的長度
22、本專利技術實施例的創新之處在于:
23、本專利技術在多個維度上提升了群組識別的準確性和反應速度。通過結合文本、碼值和統計特征,實現了對群組的全方位分析,有效解決了現有技術中存在的單一特征分析帶來的局限性。此外,時序分析模塊能夠及時捕捉熱點事件中的群組活動,具有更高的熱點性和實時性。
本文檔來自技高網...【技術保護點】
1.一種基于多特征融合的群組線索發現方法,其特征在于,包括兩部分:基于多特征融合的重點群組識別模塊和重點群組線索發現模塊;
2.如權利要求1所述的一種基于多特征融合的群組線索發現方法,其特征在于,所述碼值特征的分析方法為:關注在多個群組中重復出現或具有明顯指向性的碼值;
3.如權利要求2所述的一種基于多特征融合的群組線索發現方法,其特征在于,所述基于大模型提示的文本線索發現通過利用預訓練的語言模型并設計合適的Prompt,模型在處理Prompt時,綜合考慮文本中的詞匯頻率、語義關聯以及情感表達,從而生成包含關鍵信息的輸出,從而挖掘出與群組行為密切相關的文本線索,線索包括群組的章程、情感傾向、常見主題、熱點關鍵詞及交流風格。
4.如權利要求3所述的一種基于多特征融合的群組線索發現方法,其特征在于,所述滑動窗口時序線索發現方法通過對社交平臺群組活動的時間維度進行動態分析,識別特定行為,具體而言,將數據分成相互重疊的時間段,每個時間段內獨立分析群組的發言頻率、關鍵詞使用情況和用戶活躍度指標,捕捉群組內的突發行為和熱點活動;
【技術特征摘要】
1.一種基于多特征融合的群組線索發現方法,其特征在于,包括兩部分:基于多特征融合的重點群組識別模塊和重點群組線索發現模塊;
2.如權利要求1所述的一種基于多特征融合的群組線索發現方法,其特征在于,所述碼值特征的分析方法為:關注在多個群組中重復出現或具有明顯指向性的碼值;
3.如權利要求2所述的一種基于多特征融合的群組線索發現方法,其特征在于,所述基于大模型提示的文本線索發現通過利用預訓練的語言模型并設計合適的prompt,模型在處理prompt時,綜合考慮...
【專利技術屬性】
技術研發人員:湯星,詹嘉措,景堃,
申請(專利權)人:國家計算機網絡與信息安全管理中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。