一種智能語義分析與指令解析方法和系統(tǒng)技術(shù)方案

技術(shù)編號：44451017 閱讀：3 留言：0更新日期：2025-02-28 18:55

本申請公開一種智能語義分析與指令解析方法和系統(tǒng)，所述方法包括：多個客戶端分別與RTC連接，并均訂閱第一音視頻通道；多個客戶端分別與業(yè)務服務器建立連接，用于實現(xiàn)實時的數(shù)據(jù)交互和業(yè)務邏輯的處理；通過RTC獲取音視屏流數(shù)據(jù)，并將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息；獲取所述文本信息以及所述文本信息的上下文信息，并對文本信息進行指令識別；基于識別到的指令調(diào)用相應的服務接口，完成所述指令的操作或任務。本申請可顯著提高語音交互的準確率、實時性、靈活性，擴展了智能語音技術(shù)在多人協(xié)同場景下的應用空間，為智能會議、在線教育等垂直領(lǐng)域帶來創(chuàng)新的交互模式。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及音視頻，具體涉及一種智能語義分析與指令解析方法和系統(tǒng)。

技術(shù)介紹

1、在當前的音視頻會議和在線教育等其他場景中，用戶通常需要通過語音與系統(tǒng)進行交互，實現(xiàn)信息查詢、內(nèi)容控制等操作。傳統(tǒng)的語音交互方式主要依賴于預定義的關(guān)鍵詞匹配或簡單的語法分析，難以準確理解用戶的真實意圖，且靈活性和擴展性較差，多人語音交互中的角色識別難題、跨場景指令遷移的靈活性不足等。

2、目前常見的語音交互系統(tǒng)，如智能音箱、語音助手等，雖然能夠?qū)崿F(xiàn)一定程度的語義理解和任務執(zhí)行，但仍然存在以下不足:離線語音識別的準確率和實時性無法滿足流式處理的需求；語義理解模型缺乏上下文感知和多輪交互能力，難以處理復雜指令；指令映射規(guī)則依賴于領(lǐng)域知識，可擴展性差，無法靈活適應新的應用場景；缺乏面向多人協(xié)同的指令解析和權(quán)限管控機制。

3、因此，亟需一種新的智能語義分析與指令解析方法，能夠?qū)崿F(xiàn)面向音視頻場景的流式語義理解，并支持自然語言形式的多輪交互和動態(tài)指令擴展，以提升用戶體驗和應用范圍。

技術(shù)實現(xiàn)思路

1、針對上述技術(shù)問題，本專利技術(shù)提供一種智能語義分析與指令解析方法和系統(tǒng)，以解決現(xiàn)有語音交互系統(tǒng)在多人協(xié)同、流式處理、自然語言理解等方面的不足。

2、本專利技術(shù)的第一實施例提供一種智能語義分析與指令解析方法，所述方法包括：多個客戶端分別與rtc連接，并均訂閱第一音視頻通道；多個客戶端分別與業(yè)務服務器建立連接，用于實現(xiàn)實時的數(shù)據(jù)交互和業(yè)務邏輯的處理；通過rtc獲取音視屏流數(shù)據(jù)，并將音視頻

3、可選地，所述并將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息的步驟包括：將音頻信號實時轉(zhuǎn)換為增量文本信息，并通過語義分析和信息提取形成結(jié)構(gòu)化的會議記錄數(shù)據(jù)進行存儲。

4、可選地，所述并將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息的步驟包括：采用流式分段識別，語音識別模塊內(nèi)部的識別通道會對接收到的音頻信號進行參數(shù)解析，并基于解析出的參數(shù)對音頻信號進行動態(tài)分段，分段粒度可根據(jù)語音活動檢測或固定時間窗口進行調(diào)整。

5、可選地，所述獲取所述文本信息以及所述文本信息的上下文信息，并對文本信息進行指令識別的步驟包括：從存儲的文件中實時讀取所述增量文本信息，并對所述增量文本信息進行分詞處理，將連續(xù)的字符串切分為獨立的詞匯單元，并與關(guān)鍵詞進行匹配分析增量文本信息的上下語義，識別文本信息的語義結(jié)構(gòu)和表達意圖；將識別后的文本信息與預定義的指令庫進行匹配，判斷當前文本信息是否包含可執(zhí)行的指令以及指令的參數(shù)。

6、可選地，所述客戶端包括第一客戶端和第二客戶端，所述并對文本信息進行指令識別的步驟包括：識別所述文本信息來源于第一客戶端或者第二客戶端；根據(jù)識別后的指令以及指令的參數(shù)調(diào)用相應的服務接口，完成所述指令的操作或任務。

7、本專利技術(shù)的第二實施例提供一種智能語義分析與指令解析系統(tǒng)，所述系統(tǒng)包括：多個客戶端，多個客戶端分別與rtc連接，并均訂閱第一音視頻通道，多個客戶端分別與業(yè)務服務器建立連接，用于實現(xiàn)實時的數(shù)據(jù)交互和業(yè)務邏輯的處理；語音監(jiān)聽模塊，用于連接所述第一音頻通道，并通過rtc獲取音視屏流數(shù)據(jù)；語音識別模塊，用于接收語音監(jiān)聽模塊傳輸?shù)囊粢暺亮鲾?shù)據(jù)，并用于將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息；智能解析模塊，用于獲取所述文本信息以及所述文本信息的上下文信息，并對文本信息進行指令識別；指令執(zhí)行模塊，用于基于識別到的指令調(diào)用相應的服務接口，完成所述指令的操作或任務。

8、可選地，所述語音識別模塊還用于將音視頻數(shù)據(jù)中的音頻信號實時轉(zhuǎn)換為增量文本信息，并通過語義分析和信息提取形成結(jié)構(gòu)化的會議記錄數(shù)據(jù)進行存儲。

9、可選地，所述語音識別模塊采用流式分段識別，語音識別模塊內(nèi)部的識別通道會對接收到的音頻信號進行參數(shù)解析，并基于解析出的參數(shù)對音頻信號進行動態(tài)分段，分段粒度可根據(jù)語音活動檢測或固定時間窗口進行調(diào)整。

10、可選地，所述智能解析模塊還用于從存儲的文件中實時讀取所述增量文本信息，并對所述增量文本信息進行分詞處理，將連續(xù)的字符串切分為獨立的詞匯單元，并與關(guān)鍵詞進行匹配分析增量文本信息的上下語義，識別文本信息的語義結(jié)構(gòu)和表達意圖；所述指令識別模塊用于將識別后的文本信息與預定義的指令庫進行匹配，判斷當前文本信息是否包含可執(zhí)行的指令以及指令的參數(shù)。

11、可選地，所述客戶端包括第一客戶端和第二客戶端，所述語音識別模塊用于識別所述文本信息來源于第一客戶端或者第二客戶端；所述指令執(zhí)行模塊用于根據(jù)識別后的指令以及指令的參數(shù)調(diào)用相應的服務接口，完成所述指令的操作或任務。

12、本專利技術(shù)實施例提供的技術(shù)方案中，將音視頻會議或其公共頻道中的實時語音轉(zhuǎn)換為文本形式，并對文本信息進行指令識別，基于識別到的指令調(diào)用相應的服務接口，完成所述指令的操作或任務，相比于現(xiàn)有技術(shù)，本專利技術(shù)可顯著提高語音交互的準確率、實時性、靈活性，擴展了智能語音技術(shù)在多人協(xié)同場景下的應用空間，為智能會議、在線教育等垂直領(lǐng)域帶來創(chuàng)新的交互模式。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種智能語義分析與指令解析方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的智能語義分析與指令解析方法，其特征在于，所述并將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息的步驟包括：

3.根據(jù)權(quán)利要求1所述的智能語義分析與指令解析方法，其特征在于，所述并將音視頻數(shù)據(jù)中的音頻信號轉(zhuǎn)換為文本信息的步驟包括：

4.根據(jù)權(quán)利要求2所述的智能語義分析與指令解析方法，其特征在于，所述獲取所述文本信息以及所述文本信息的上下文信息，并對文本信息進行指令識別的步驟包括：

5.根據(jù)權(quán)利要求4所述的智能語義分析與指令解析方法，其特征在于，所述客戶端包括第一客戶端和第二客戶端，所述并對文本信息進行指令識別的步驟包括：

6.一種智能語義分析與指令解析系統(tǒng)，其特征在于，所述系統(tǒng)包括：

7.根據(jù)權(quán)利要求6所述的智能語義分析與指令解析系統(tǒng)，其特征在于，所述語音識別模塊還用于將音視頻數(shù)據(jù)中的音頻信號實時轉(zhuǎn)換為增量文本信息，并通過語義分析和信息提取形成結(jié)構(gòu)化的會議記錄數(shù)據(jù)進行存儲。

8.根據(jù)權(quán)利要求6所述的智能語義分析與指令解析系

9.根據(jù)權(quán)利要求7所述的智能語義分析與指令解析系統(tǒng)，其特征在于，所述智能解析模塊還用于從存儲的文件中實時讀取所述增量文本信息，并對所述增量文本信息進行分詞處理，將連續(xù)的字符串切分為獨立的詞匯單元，并與關(guān)鍵詞進行匹配分析增量文本信息的上下語義，識別文本信息的語義結(jié)構(gòu)和表達意圖；

10.根據(jù)權(quán)利要求9所述的智能語義分析與指令解析系統(tǒng)，其特征在于，所述客戶端包括第一客戶端和第二客戶端，所述語音識別模塊用于識別所述文本信息來源于第一客戶端或者第二客戶端；所述指令執(zhí)行模塊用于根據(jù)識別后的指令以及指令的參數(shù)調(diào)用相應的服務接口，完成所述指令的操作或任務。

...

【技術(shù)特征摘要】

1.一種智能語義分析與指令解析方法，其特征在于，所述方法包括：

6.一種智能語義分析與指令解析系統(tǒng)，其特征在于，所述系統(tǒng)包括：

7.根據(jù)權(quán)利要求6所述的智能語義分析與指令解析系統(tǒng)，其特征在于，所述語音識別模塊還用于將音視頻數(shù)據(jù)中的音頻信號實時轉(zhuǎn)換為增量文本信息，并...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：董鑫鑫，陳碩，張邦禹，范小林，
申請(專利權(quán))人：深圳元想視界科技集團有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)