System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機技術與數據處理,具體涉及一種基于a?i技術對海量非結構化數據融合處理的方法和系統。
技術介紹
1、近年來,隨著信息技術的快速發展和多元化的系統應用建設,媒體數據已成為信息表達、傳播的重要載體,如圖片、視頻、音頻,隨著互聯網普及率的增高,各類應用由于存在大量的用戶基礎,每日產生海量的非結構化數據,多媒體數據存在著非結構化特性和信息多樣性,增加了處理和分析過程的復雜度,也影響了數據信息處理的速率,如何對這類數據進行有效處理給我們帶來了進一步的挑戰。
2、多媒體數據處理技術已經成為信息時代的核心支柱之一,為科學信息化發展帶來了更加豐富和直觀的體驗,多媒體數據融合處理技術具有數據處理量大、流程編排能力強、計算資源利用率高的特點,對圖片、視頻、音頻等多種媒體信息進行融合處理和提供能力支撐。
3、然而,現有基于ai技術的多媒體數據處理方法往往側重于單一的非結構化數據類型,對于復雜的多媒體數據融合處理和算力資源的有效整合仍面臨挑戰和創新,因此,開發一種非結構化數據融合處理的方法及其系統具有重要的實際意義。
技術實現思路
1、本專利技術針對上述現有技術中一個或多個技術缺陷,提出了如下技術方案。
2、基于本專利技術的第一方面,提出了基于ai技術對海量非結構化數據融合處理的方法,包括:
3、s1:通過文件接收服務器接收壓縮后的多媒體數據文件,在文件存儲服務建立圖片文件夾、視頻文件夾、音頻文件夾和附件文件夾,通過分發程序將所述多媒體數據
4、所述多媒體數據文件的類型包括圖片、視頻、音頻和附件;
5、s2:對所述多媒體數據文件進行預處理并按照文件格式存放到不同的對象存儲服務器節點中提供下載服務;
6、s3:將經過預處理后得到的多媒體數據文件的文件地址發送到消息隊列并進行ai融合計算,對所述多媒體數據文件進行圖片分類、視頻抽幀、音頻轉寫,以及特征提取,根據所述特征對所述多媒體數據文件進行分類識別;
7、其中,所述視頻抽幀是將連續的視頻幀根據業務場景需求進行抽取,具體地,使用ffmpeg中的時間間隔抽幀程序,定義視頻抽幀的時間間隔后對輸入的視頻文件執行抽幀程序并將抽幀結果輸出到指定的服務器目錄中,再構建抽幀視頻與輸出結果的關系;
8、所述音頻轉寫是將輸入的音頻進行去除噪聲以及降低回聲,對所述音頻提取特征并將音頻轉換為特征向量,再通過語言識別將特征向量與語音模型進行匹配得到相應的文字;
9、s4:抽取所述多媒體數據文件的部分數據作為樣本數據,并進一步對所述樣本數據進行抽樣檢查和人工標注得到結果數據,將所述結果數據反饋給算法引擎進行算法訓練,并將經過算法引擎重新計算后的所述結果數據發送到大數據存儲組件進行結構化信息存儲;
10、具體地,通過人工收集不同種類的多媒體數據文件形成測試樣本集,并提交到算法引擎中進行處理并對比原始數據和處理后的結構化數據,若所述處理后的結構化數據與所述原始數據不一致則重新將所述原始數據中的特定信息或特征進行標注,生成可讀數據編碼,得到結果數據;
11、s5:根據不同的業務場景對所述結果數據構建應用服務。
12、視頻抽幀的目的在于減少數據處理數量,提高數據處理效率和減輕算力負擔。
13、對樣本數據進行標注的目的在于將原始數據中的特定信息或特征進行標記或注釋使得計算機程序或算法能夠理解和利用。
14、對樣本數據進行抽樣檢查和人工標注,能夠更好地輔助算法引擎進行計算。
15、更進一步地,所述預處理包括解壓文件包、解壓數據、格式轉換、噪聲消除、文件壓縮和推送到對象存儲服務器。
16、更進一步地,所述ai融合計算包括將多個算法引擎進行流程化編排,以及根據所述算法引擎的流程化編排對不同類型的數據進行下載處理。
17、流程化編排能使數據以遞減的方式進行傳輸,將不同的任務按照特定順序和規則進行組織,能更好地管理控制任務的執行,并提高數據處理的效率和質量,減少無效數據的傳輸頻率并進一步緩解帶寬傳輸壓力和ai引擎的處理壓力。
18、更進一步地,所述ai融合計算包括預先設置算法的算力卡,算力卡負載閾值和數據監測周期,在數據監測周期內獲取所述算法引擎的算力卡資源負載信息,在所述算力卡資源負載低于設定的閾值時解綁算力卡并將所述算力卡補充到負載較高的算法引擎中以調度算力。
19、所述算力卡能夠支持更復雜的人工智能應用,擁有更加出色的計算能力和計算效率。
20、更進一步地,使用svm支持向量機和隨機森林算法對所述多媒體數據文件進行分類識別,以及使用cnn卷積神經網絡和rnn循環神經網絡進行所述特征提取。
21、更進一步地,所述應用服務包括場景分析服務、ocr查詢服務、圖片檢索服務、音頻轉寫服務和視頻檢索服務;
22、所述場景分析服務根據上層業務識別出所述多媒體文件數據的不同場景類型并進行標簽定義以進行業務應用的查詢檢索;
23、ocr查詢服務將識別出的多媒體文件數據內容持久化到分布式文檔數據庫中,上層應用再通過全文檢索進行查詢分析;
24、圖片檢索服務提取圖片的特征構建圖片特征庫,上層應用通過卷積神經網絡算法cnn進行圖像分析比對并找到與待搜索圖像相似的圖像;
25、音頻轉寫服務利用機器學習和自然語言處理算法對音頻信號中的語音內容進行音頻轉換;具體地,將進行去除噪音和增益處理后的音頻分割成10-30毫秒的短時窗口,再使用頻率倒譜系數特征提取算法mfcc對每個窗口的音頻進行特征提取,使用聲學模型和語言模型識別每個窗口內的語音內容并將識別結果拼接成完整的文本進行輸出;
26、視頻檢索服務利用視頻數據提取關鍵幀并結合圖片檢索功能找到相似圖片再進行視頻文件溯源;具體地,通過提取關鍵幀建立圖片與視頻之間的關聯關系,根據輸入的圖片信息提取特征并檢索相似特征數據,將命中結果使用相似度進行降序并返回上層進行邏輯處理,通過構建的圖片與視頻關聯關系查詢到圖片在視頻中出現的位置和時間。
27、更進一步地,所述預處理還包括對超大文件進行等比例壓縮,對超小文件進行文件過濾。
28、基于本專利技術的第二方面,還提出了基于ai技術對海量非結構化數據融合處理的系統,包括:
29、接收模塊:通過文件接收服務器接收壓縮后的多媒體數據文件,在文件存儲服務建立圖片文件夾、視頻文件夾、音頻文件夾和附件文件夾,通過分發程序將所述多媒體數據文件分發至不同類型的文件夾中,并按照所述多媒體數據文件的類型將所述多媒體數據文件分配到對應的文件存儲服務器中;
30、所述多媒體數據文件的類型包括圖片、視頻、音頻和附件;
31、預處理模塊:對所述多媒體數據文件進行預處理并按照文件格式存放到不同的服務器節點中提供下載本文檔來自技高網...
【技術保護點】
1.基于AI技術對海量非結構化數據融合處理的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述預處理包括解壓文件包、解壓數據、格式轉換、噪聲消除、文件壓縮和推送到對象存儲服務器。
3.根據權利要求1所述的方法,其特征在于,所述AI融合計算包括將多個算法引擎進行流程化編排,以及根據所述算法引擎的流程化編排對不同類型的數據進行下載處理。
4.根據權利要求1所述的方法,其特征在于,所述AI融合計算包括預先設置算法的算力卡,算力卡負載閾值和數據監測周期,在數據監測周期內獲取所述算法引擎的算力卡資源負載信息,在所述算力卡資源負載低于設定的閾值時解綁算力卡并將所述算力卡補充到負載較高的算法引擎中以調度算力。
5.根據權利要求1所述的方法,其特征在于,使用SVM支持向量機和隨機森林算法對所述多媒體數據文件進行分類識別,以及使用CNN卷積神經網絡和RNN循環神經網絡進行所述特征提取。
6.根據權利要求1所述的方法,其特征在于,所述應用服務包括場景分析服務、OCR查詢服務、圖片檢索服務、音頻轉寫服務和視頻檢索服務;<
...【技術特征摘要】
1.基于ai技術對海量非結構化數據融合處理的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述預處理包括解壓文件包、解壓數據、格式轉換、噪聲消除、文件壓縮和推送到對象存儲服務器。
3.根據權利要求1所述的方法,其特征在于,所述ai融合計算包括將多個算法引擎進行流程化編排,以及根據所述算法引擎的流程化編排對不同類型的數據進行下載處理。
4.根據權利要求1所述的方法,其特征在于,所述ai融合計算包括預先設置算法的算力卡,算力卡負載閾值和數據監測周期,在數據監測周期內獲取所述算法引擎的算力卡資源負載信息,在所述算力卡資源負載低于設定的閾值時解綁算力卡并將所述算力卡補充到負載較高的算法引擎中以調度算力。
<...【專利技術屬性】
技術研發人員:樊國祥,刁薪予,鄭維剛,彭佳琛,馮明明,朱金玉,邢皓,
申請(專利權)人:廈門市美亞柏科信息安全研究所有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。