本發明專利技術涉及信息處理技術領域,具體是一種基于AI的會議記錄方法及其存儲介質,該方法,包括如下步驟:步驟1):利用人工智能模型接收會議過程中的語音輸入;步驟2):將語音輸入轉化為文本;步驟3):通過語言模型處理和分析轉化后的文本;步驟4):根據識別和提取的重要信息生成會議記錄;本發明專利技術提供了一種基于AI的會議記錄方法,可對會議語音內容中的重要信息進行自動識別與提取,并自動生成相應的會議記錄,可以節約用戶會后大量的會議記錄整理時間,適宜進一步推廣應用。適宜進一步推廣應用。適宜進一步推廣應用。
【技術實現步驟摘要】
一種基于AI的會議記錄方法及其存儲介質
[0001]本專利技術涉及會議記錄生成
,具體是一種基于AI的會議記錄方法及其存儲介質。
技術介紹
[0002]會議記錄是用于記錄會議中參會人員商討的信息,為會議信息提供準確的依據,同時,也可以讓相應的人員對會議信息進行回顧,避免會議中商討的內容遺失或是忘記。以往,常見的會議記錄方式是人工會議記錄,即,通過書記人員利用文字對會議的信息進行記錄。盡管有人專門做會場記錄,會后還是要花費專門的人力來整理會議記錄,耗時耗力。
[0003]人工智能(AI)是計算機科學的一個分支,領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。隨著AI技術的日益推廣,利用經訓練的語義處理模型(例如GPT,BERT模型)進行會議內容的識別提取,并整理成會議記錄,可以節約用戶會后大量的會議記錄整理時間。
技術實現思路
[0004]為解決上述問題,本專利技術提供一種基于AI的會議記錄方法及其存儲介質。
[0005]為了實現上述的技術目的,本專利技術所采用的技術方案為:
[0006]一種基于AI的會議記錄方法,包括如下步驟:
[0007]步驟1):利用人工智能模型接收會議過程中的語音輸入;
[0008]步驟2):將語音輸入轉化為文本;
[0009]步驟3):通過語言模型處理和分析轉化后的文本;
[0010]步驟4):根據識別和提取的重要信息生成會議記錄。
[0011]作為一種較優的實施方式,優選的,步驟1)中接收的音頻數據進行降噪處理后再作為語音輸入。
[0012]作為一種較優的實施方式,優選的,降噪處理具體包括如下步驟:
[0013]分別獲取用戶端及背景端的音頻數據;
[0014]將背景端音頻波形乘以預設的調整系數α后,將調整后的背景端音頻波形轉換為反向波形;
[0015]將用戶端音頻波形與反向波形進行疊加,以實現背景噪音的剔除,然后再將降噪后的音頻數據作為語音輸入。
[0016]作為一種可能的實施方式,進一步,調整系數α的確定方式如下:
[0017]將用戶端的音頻數據根據預設的分貝閾值進行劃分,將低于預設分貝閾值的用戶端音頻數據定義為用戶端環境音頻數據,根據用戶端環境音頻波形調節背景端音頻波形的振幅,使兩波形的重合率至最高,計算出背景端音頻波形振幅的調節倍數,定義該調節倍數為調整系數α。
[0018]作為一種可能的實施方式,進一步,步驟2)具體步驟如下:
[0019]選取目標語言文本,通過Google Cloud Speech
?
to
?
Text進行語音的識別與轉換。
[0020]作為一種可能的實施方式,進一步,步驟3)中以BERT作為語言模型處理和分析轉化后的文本,具體步驟如下:
[0021]將語音轉化后的文本輸入到訓練好的BERT情感分析語言模型中,模型會輸出對應的情感傾向,然后根據輸出的情感傾向對會議文本進行標注和記錄。
[0022]作為一種可能的實施方式,進一步,所述BERT情感分析語言模型的訓練方法,包括如下步驟:
[0023]a):收集和預處理數據
[0024]從開源的IMDb影評數據集中獲取數據,使用nltk庫的英文停用詞列表刪除停用詞,使用nltk庫的PorterStemmer進行詞干提取,然后將處理后的文本通過BERT模型的預處理工具轉換為模型可接受的形式;
[0025]b):訓練情感分析模型
[0026]使用PyTorch庫,加載預訓練的BERT模型,并使用一個具有二元分類器的全連接層作為輸出層,設置學習率為2e
?
5,批次大小為32,訓練5個epoch;模型使用AdamW作為優化器,使用Binary Cross Entropy作為損失函數;
[0027]c):評估和優化模型
[0028]在每個epoch結束后,使用驗證集對模型進行評估,評估指標包括準確率、召回率和F1值;
[0029]當驗證集上的性能不再提升時,則停止訓練,得到訓練好的BERT情感分析語言模型。
[0030]作為一種可能的實施方式,進一步,步驟4)根據識別和提取的重要信息生成會議記錄;具體包括如下步驟:
[0031]提取滿足預設標注信息的文本內容為重要信息,將重要信息以時間順序進行排列生成會議記錄。
[0032]作為一種較優的實施方式,優選的,還包括步驟5)用戶可通過控制界面查看和/或修訂生成的會議記錄內容。
[0033]基于上述,本專利技術還提供一種計算機可讀的存儲介質,所述的存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述的至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執行實現上述基于AI的會議記錄方法。
[0034]采用上述的技術方案,本專利技術與現有技術相比,其具有的有益效果為:
[0035]本專利技術提供了一種基于AI的會議記錄方法,可對會議語音內容中的重要信息進行自動識別與提取,并自動生成相應的會議記錄,可以節約用戶會后大量的會議記錄整理時間,適宜進一步推廣應用。
附圖說明
[0036]為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0037]圖1為本專利技術的簡要流程示意圖。
具體實施方式
[0038]為使本專利技術實施方式的目的、技術方案和優點更加清楚,下面將結合本專利技術實施方式中的附圖,對本專利技術實施方式中的技術方案進行清楚、完整地描述,顯然,所描述的實施方式是本專利技術一部分實施方式,而不是全部的實施方式。基于本專利技術中的實施方式,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施方式,都屬于本專利技術保護的范圍。因此,以下對在附圖中提供的本專利技術的實施方式的詳細描述并非旨在限制要求保護的本專利技術的范圍,而是僅僅表示本專利技術的選定實施方式。基于本專利技術中的實施方式,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施方式,都屬于本專利技術保護的范圍。
[0039]參照附圖1所示,本實施例提供了一種基于AI的會議記錄方法,包括如下步驟:
[0040]步驟1):利用人工智能模型接收會議過程中的音頻數據,將音頻數據進行降噪處理后再作為語音輸入;其中,降噪處理具體包括如下步驟:
[0041]分別獲取用戶端及背景端的音頻數據;
[0042]將背景端音頻波形乘以預設的調整系數α后,將調整后的背景端音頻波形轉換為反向波形;
[0043]將用戶端音頻波形與反向波形進行疊加,以實現背景噪音的剔除,然后再將降噪后的音頻數據作為語音輸入。通過背景環境噪音的過濾以提升音頻輸入質量。
[0044]上述調整系數α的確定方式如下本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于AI的會議記錄方法,其特征在于,包括如下步驟:步驟1):利用人工智能模型接收會議過程中的語音輸入;步驟2):將語音輸入轉化為文本;步驟3):通過語言模型處理和分析轉化后的文本;步驟4):根據識別和提取的重要信息生成會議記錄。2.根據權利要求1所述的會議記錄方法,其特征在于,步驟1)中接收的音頻數據進行降噪處理后再作為語音輸入。3.根據權利要求2所述的會議記錄方法,其特征在于,降噪處理具體包括如下步驟:分別獲取用戶端及背景端的音頻數據;將背景端音頻波形乘以預設的調整系數α后,將調整后的背景端音頻波形轉換為反向波形;將用戶端音頻波形與反向波形進行疊加,以實現背景噪音的剔除,然后再將降噪后的音頻數據作為語音輸入。4.根據權利要求3所述的會議記錄方法,其特征在于,調整系數α的確定方式如下:將用戶端的音頻數據根據預設的分貝閾值進行劃分,將低于預設分貝閾值的用戶端音頻數據定義為用戶端環境音頻數據,根據用戶端環境音頻波形調節背景端音頻波形的振幅,使兩波形的重合率至最高,計算出背景端音頻波形振幅的調節倍數,定義該調節倍數為調整系數α。5.根據權利要求1所述的會議記錄方法,其特征在于,步驟2)具體步驟如下:選取目標語言文本,通過Google Cloud Speech
?
to
?
Text進行語音的識別與轉換。6.根據權利要求1所述的會議記錄方法,其特征在于,步驟3)中以BERT作為語言模型處理和分析轉化后的文本,具體步驟如下:將語音轉化后的文本輸入到訓練好的BERT情感分析語言模型中,模型會輸出對應的情感傾向,然后根據輸出的情感傾向對...
【專利技術屬性】
技術研發人員:熊鷹,燕學博,
申請(專利權)人:四川省農業科學院農業信息與農村經濟研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。