基于人工智能的語音交互方法及系統技術方案

技術編號：44141936 閱讀：20 留言：0更新日期：2025-01-29 10:18

本發明專利技術公開了基于人工智能的語音交互方法及系統，涉及語音交互領域，通過對語音交互系統所處環境的分析，智能化調節音量的大小，避免聲音過高或者過低帶來的不適體驗；通過對新指令語速和新指令與輸入對應指令之間的相似度進行分析，得到指令分析指數，對于不同的指令分析指數，采用不同的策略，能夠對指令進行合理的處置，提高了語音交互系統的智能化程度；通過對用戶年齡、地區、性別、職業和用戶行為數據的分析，得到各個語音包的推薦值，從而能夠智能化的為用戶推薦合適的語音包，增加了用戶的滿意度和黏性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及語音交互領域，特別涉及基于人工智能的語音交互方法及系統。

技術介紹

1、隨著智能設備的普及，如智能手機、智能音箱、智能汽車等，用戶對于便捷的交互方式的需求日益增長；語音交互作為一種自然、高效的交互方式，能夠使用戶在雙手忙碌或視線受限的情況下輕松操作設備；但現有的語音交互系統還存在以下缺陷：

2、當語音交互系統正在輸出內容時，用戶可能已經發出了新的指令，現有語音交互系統要么就是無視新的指令，要么就是直接執行新的指令，處理方式單一，不能夠根據用戶的語速和新的指令與當前輸出內容對應的指令之間的相似度綜合分析，從而給出多樣化的處理方案；不能夠根據當前所處的環境，智能地調節音量，可能造成在需要保持安靜的地方聲音過大，而在嘈雜的環境中，聲音又過小的問題；不能夠智能化的為用戶推薦合適的語音包；

3、為此，推出一種基于人工智能的語音交互方法及系統。

技術實現思路

1、有鑒于此，本專利技術提供基于人工智能的語音交互方法及系統，以解決上述
技術介紹
提出的問題。

2、本專利技術的目的可以通過以下技術方案實現：基于人工智能的語音交互方法，包括以下步驟：

3、a1：識別用戶的音色和喚醒指令，對語音交互系統進行喚醒操作；

4、a2：對周圍的環境進行檢測，智能化調整輸出語音的分貝值，具體過程為：

5、實時監測周圍環境的分貝值，預設一個分貝臨界值，若周圍環境的分貝值小于分貝臨界值，則判定當前環境為靜謐環境，對低于分貝臨界值的分貝值

6、s1：獲取當前環境各個聲源的分貝值fb、與設備的距離jl以及用戶與設備之間的距離yj；設備指的是當前部署語音交互系統的設備，與設備的距離jl指的是聲源與當前部署語音交互系統的設備的距離，利用公式：從而得到當前環境各個聲源的分貝影響值，其中a1和a2分別是當前環境各個聲源的分貝值fb和與設備的距離jl對應的權重影響因子，對當前環境所有人的分貝影響值取均值從而得到設備均貝值；

7、s2：預設用戶與設備之間的距離yj各組區間，設置用戶與設備之間的距離yj各組區間對應各組放大因子，匹配用戶與設備之間的距離yj對應的用戶與設備之間的距離yj區間，從而得到用戶與設備之間的距離yj對應的放大因子；

8、s3：用設備的均貝值乘以放大因子從而得到設備的綜合分貝值，預設綜合分貝值區間，設置不同綜合分貝值區間對應不同輸出語音分貝值，匹配綜合分貝值對應的綜合分貝值區間，從而得到當前環境的輸出語音分貝值；

9、a3：對用戶發出的指令進行識別，并執行指令；

10、a4：當語音交互系統正在進行輸出時，若檢測到用戶發出了新的指令，則對新的指令進行分析，得到指令分析指數，根據指令分析指數進行相應操作；

11、a5：計算各個語音包的推薦值，根據推薦值的大小給用戶推薦語音包。

12、進一步地，所述a4中得到指令分析指數的具體步驟如下：

13、對接收到的新的用戶指令，分解為獨立的漢字個體，通過時間戳標記法獲取每個漢字語音時長和相鄰兩個漢字之間的間隔時間；對用戶的歷史指令進行分析，得到相鄰兩個漢字之間間隔時間的標準值，將相鄰兩個漢字之間的間隔時間低于標準值的數據提取出來組成一個快值集合，將快值集合中的每一個數與間隔時間的標準值作差，用間隔時間的標準值減去快值集合中的數，從而得到快值差值集合，預設快值差值區間，設置不同快值差值區間對應不同間隔影響因子，匹配快值差值集合中的數所在的快值差值區間，從而得到快值差值集合中所有數對應的間隔影響因子，快值差值越大，則對應的間隔影響因子的值也越大，用快值差值集合中的數乘以對應的間隔影響因子再求和，從而得到間隔指示值f3；

14、提取所有漢字語音時長中的最大值和最小值，用漢字語音時長中的最大值減去最小值，從而得到時長差值f1，利用均值公式對所有漢字的語音時長進行計算，從而得到時均值f2，將得到的間隔指示值f3、時長差值f1和時均值f2歸一化處理后代入公式：從而得到語速指數值ys，其中w1、w2和w3分別是時長差值f1、時均值f2和間隔指示值f3對應的權重影響因子；

15、對接收到的新的指令和當前輸出內容對應的指令進行語義的轉換，提取經過轉換之后的句子的短語，新的指令對應的短語記為新式短語集合，當前輸出內容對應的短語記為老式短語集合，選擇詞向量模型將新式短語集合和老式短語集合中的短語轉換為向量；將新式短語集合中的短語作為矩陣的行表頭，將老式短語集合中的短語作為矩陣的列表頭，對于新式短語集合中的每一個短語，利用余弦相似度計算與老式短語集合中所有短語的相似度值，將得到的所有相似度值填充進矩陣中，預設相似度閾值，以行進行分類，統計每一行中相似度值高于相似度閾值的個數，記為行超值，用每一行的行超值除以所有行的行超值之和，從而得到每一行的重要性比率，利用均值公式對每一行的相似度值進行計算，從而得到每一行的行均值，用每一行的重要性比率乘以對應行的行均值，得到的結果再相加，最終的結果作為新的指令和當前輸出內容對應的指令的相似度指數xsd；

16、將得到的語速指數值ys和相似度指數xsd歸一化處理后代入公式：從而得到指令分析指數zlf，其中z1和z2分別是語速指數值ys和相似度指數xsd對應的權重影響因子。

17、進一步地，所述a4中語音交互系統對得到的指令分析指數處理操作如下：

18、預設指令分析指數區間，若指令分析指數大于指令分析指數區間的最大值，則立馬停止當前輸出，轉而執行新的指令；若指令分析指數位于指令分析指數區間中，則對用戶發出詢問：是否停止當前輸出，執行新的用戶指令，若用戶回答是，則執行新的指令，若用戶回答為否，則繼續當前輸出，輸出完成之后再執行新的指令；若指令分析指數小于指令分析指數區間的最小值，則將新的指令存入緩存區間，等待當前輸出完成之后，再向用戶詢問是否執行新的指令，若用戶回答是，則執行新的指令，若用戶回答否，則將新的指令移出緩存區間，不執行。

19、進一步地，所述a5中為用戶智能化推薦語音包的具體步驟為：

20、獲取用戶的年齡、性別、所在地區和職業，設置年齡區間，匹配用戶的年齡所在的區間，根據用戶所在地區、性別和用戶年齡所在的區間進行三重篩選，從網站后臺數據中獲取經過三重篩選之后的語音包受歡迎度排行榜1；同時根據用戶所在地區、性別和職業進行三重篩選，從網站后臺數據中獲取經過三重篩選之后的語音包受歡迎度排行榜2；

21、對排行榜1和排行榜2同時隨機截取十個語音包，對截取之后的排行榜1和排行榜2進行去重處理，對語音包進行編號表示，用榜重數表示一個語音包是否在排行榜1或者排行榜2中出現，若一個語音包同時在排行榜1和排行榜2中出現，則記榜重數為2，若一個語音包只在排行榜1或本文檔來自技高網...

【技術保護點】

1.基于人工智能的語音交互方法，其特征在于，包括：

2.根據權利要求1所述的基于人工智能的語音交互方法，其特征在于，所述A4中得到指令分析指數的具體步驟如下：

3.根據權利要求1所述的基于人工智能的語音交互方法，其特征在于，所述A4中語音交互系統對得到的指令分析指數處理操作如下：

4.根據權利要求1所述的基于人工智能的語音交互方法，其特征在于，所述A5中為用戶智能化推薦語音包的具體步驟為：

5.基于權利要求1-4任一項所述的基于人工智能的語音交互方法的控制系統，其特征在于，包含以下模塊：

【技術特征摘要】

1.基于人工智能的語音交互方法，其特征在于，包括：

2.根據權利要求1所述的基于人工智能的語音交互方法，其特征在于，所述a4中得到指令分析指數的具體步驟如下：

3.根據權利要求1所述的基于人工智能的語音交互方法，其特征在于，所述a4中語音交互系統...

【專利技術屬性】
技術研發人員：黃炳樂，林少丹，黃文健，卓奕含，
申請(專利權)人：福建船政交通職業學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術