System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于電子數據取證的,特別是涉及一種基于多模態的電子數據取證分析方法、系統、介質及設備。
技術介紹
1、隨著信息技術的快速發展,電子數據在法律訴訟中的作用日益凸顯。聊天內容作為電子數據的一種形式,其真實性、完整性和有效性對于案件的判決具有重要影響。傳統的聊天內容數據分析取證分析方法主要依賴于文本信息,無法有效利用音頻和圖像等數據,忽略了音頻和圖像數據在分析中的價值,導致分析分析結果不完整、不準確。
2、鑒于現有技術的局限性,如何開發一種能夠綜合分析文本、音頻和圖像數據的電子數據取證分析方法成為本領域技術人員亟需解決的技術問題。
技術實現思路
1、鑒于以上所述現有技術的缺點,本專利技術的目的在于提供一種基于多模態的電子數據取證分析方法、系統、介質及設備,能夠更全面地理解聊天內容的上下文,全面還原案件事實,提高證據的準確性和可靠性,滿足司法需求。
2、第一方面,本專利技術提供一種基于多模態的電子數據取證分析方法,所述方法包括以下步驟:
3、獲取電子數據,所述電子數據包括音頻數據、文本數據以及圖像數據;
4、基于語種分類器對所述音頻數據進行分類,獲取所述音頻數據的語種類別;
5、基于所述語種類別選取對應的自動語音識別模型獲取所述音頻數據的文本內容;
6、基于視覺語言模型獲取所述圖像數據的文本內容;
7、將所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容輸入多模態大語言模型中,獲取所述
8、在第一方面的一種實現方式中,所述語種分類器的訓練包括以下步驟:
9、對不同語種類別對應的音頻數據進行標注,并針對不同的語種類別構建對應的語音數據庫;
10、選取cam++模型作為所述語種分類器的基礎架構;
11、通過對應的語音數據庫對所述語種分類器進行訓練。
12、在第一方面的一種實現方式中,基于所述語種類別選取對應的自動語音識別模型獲取所述音頻數據的文本內容包括以下步驟:
13、將所述音頻數據進行預處理,獲取預處理后的音頻數據;
14、選取paraformer模型作為自動語音識別模型的基礎架構;
15、將預處理后的音頻數據輸入自動語音識別模型,通過端到端的訓練方法訓練所述自動語音識別模型,以獲取所述音頻數據對應的文本內容。
16、在第一方面的一種實現方式中,基于qwen-vl-chat模型獲取所述圖像數據的文本內容,具體包括以下步驟:
17、基于視覺編碼器對所述圖像數據進行分割與分辨率調整,獲取所述圖像數據的圖像特征;
18、基于視覺語言適配器將所述圖像特征壓縮為固定長度的序列,并結合大型語言模型獲取所述圖像數據對應的文本內容。
19、在第一方面的一種實現方式中,將所述文本數據、所述音頻數據對應的文本內容以及所述圖像數據的文本內容輸入多模態大語言模型中,獲取所述電子數據的取證分析結果包括以下步驟:
20、將所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容進行整合,獲取整合后的電子數據;
21、基于qwen-72b-chat模型對所述整合后的電子數據進行人物、時間、事件提取,獲取按照時間順序輸出的取證分析結果
22、在第一方面的一種實現方式中,所述方法還包括通過連續時間識別將所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容進行處理,獲取預設連續時間內的分析結果。
23、在第一方面的一種實現方式中,所述方法還包括對所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容進行語義相似度評估,獲取語義相似度高的對應內容。
24、第二方面,本專利技術提供一種基于多模態的電子數據取證分析系統,所述系統包括第一獲取模塊、語種分類模塊、第二獲取模塊、第三獲取模塊和數據分析模塊;
25、所述第一獲取模塊用于獲取電子數據,所述電子數據包括音頻數據、文本數據以及圖像數據;
26、所述語種分類模塊用于基于語種分類器對所述音頻數據進行分類,獲取所述音頻數據的語種類別;
27、所述第二獲取模塊用于基于所述語種類別選取對應的自動語音識別模型獲取所述音頻數據的文本內容;
28、所述第三獲取模塊用于基于視覺語言模型獲取所述圖像數據的文本內容;
29、所述數據分析模塊用于將所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容輸入多模態大語言模型中,獲取所述電子數據的取證分析結果。
30、第三方面,本專利技術提供一種電子設備,所述電子設備包括:處理器和存儲器;
31、所述存儲器用于存儲計算機程序;
32、所述處理器用于執行所述存儲器存儲的計算機程序,以使所述電子設備執行上述的基于多模態的電子數據取證分析方法。
33、第四方面,本專利技術提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被電子設備執行時實現上述的基于多模態的電子數據取證分析方法。
34、如上所述,本專利技術所述的基于多模態的電子數據取證分析方法、系統、介質及設備,具有以下有益效果:
35、本專利技術所述的基于多模態的電子數據取證分析方法、系統、介質及設備具有多模態數據處理和整合能力:本專利技術通過集成自動語音識別模型(如paraformer架構)、視覺語言模型(如qwen-vl-chat)處理音頻和圖像數據,并將其轉化為文本內容,再將這些文本與原始文本數據整合。這種多模態數據的整合為后續的分析提供了豐富而全面的材料。以及使用qwen-72b-chat模型對整合后的數據進行深度分析,能夠有效提取人物、時間、事件等關鍵信息,并按照時間順序輸出結果。這種方法不僅優化了信息的呈現方式,也提高了數據分析的維度和質量。
36、本專利技術能夠實現特定語種識別的優化能力:針對方言的特定處理,通過自訓練的paraformer自動語音識別模型,顯著提高了對特定區域或群體的聊天內容分析的準確性,對于具有語言多樣性的應用環境尤為重要。通過采用cam++模型架構訓練的語種分類器,為不同語種的自動化處理和分析提供了可靠保障。
37、本專利技術能夠實現高效的信息提取與分析:通過考慮消息的時間間隔和語義相似度來進行窗口劃分,確保了同一話題的消息能被正確歸類與分析。這種方法提高了處理長對話或復雜聊天線索的能力,避免了話題割裂。根據實際應用反饋動態調整時間間隔和語義相似度閾值,使得系統能夠適應不斷變化的用戶需求和行為模式。這種靈活性和適應性是本技術方案的重要特點之一。
本文檔來自技高網...【技術保護點】
1.一種基于多模態的電子數據取證分析方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:所述語種分類器的訓練包括以下步驟:
3.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:基于所述語種類別選取對應的自動語音識別模型獲取所述音頻數據的文本內容包括以下步驟:
4.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:基于視覺語言模型獲取所述圖像數據的文本內容,具體包括以下步驟:
5.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:將所述文本數據、所述音頻數據對應的文本內容以及所述圖像數據的文本內容輸入多模態大語言模型中,獲取所述電子數據的取證分析結果包括以下步驟:
6.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:所述方法還包括通過連續時間識別將所述文本數據、所述音頻數據的文本內容以及所述圖像數據的文本內容進行處理,獲取預設連續時間內的分析結果。
7.根據權利要求1所述的基于多模態的
8.一種基于多模態的電子數據取證分析系統,其特征在于,所述系統包括第一獲取模塊、語種分類模塊、第二獲取模塊、第三獲取模塊和數據分析模塊;
9.一種電子設備,其特征在于,所述電子設備包括:處理器和存儲器;
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被電子設備執行時實現權利要求1至7中任一項所述的基于多模態的電子數據取證分析方法。
...【技術特征摘要】
1.一種基于多模態的電子數據取證分析方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:所述語種分類器的訓練包括以下步驟:
3.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:基于所述語種類別選取對應的自動語音識別模型獲取所述音頻數據的文本內容包括以下步驟:
4.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:基于視覺語言模型獲取所述圖像數據的文本內容,具體包括以下步驟:
5.根據權利要求1所述的基于多模態的電子數據取證分析方法,其特征在于:將所述文本數據、所述音頻數據對應的文本內容以及所述圖像數據的文本內容輸入多模態大語言模型中,獲取所述電子數據的取證分析結果包括以下步驟:
6.根據權利要求1所述的基于多模態...
【專利技術屬性】
技術研發人員:張志晨,周萬春,李偉,胡順程,陳暉,劉海飛,師夢瑤,史路路,高超,鄭曉峰,沈永安,成宇,劉浩,郭賀,石安安,張恒,樊宏偉,
申請(專利權)人:上海弘連網絡科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。