一種基于大模型的流式語音播報方法及系統(tǒng)技術方案

技術編號：44236876 閱讀：8 留言：0更新日期：2025-02-11 13:38

本公開提供了一種基于大模型的流式語音播報方法及系統(tǒng)，屬于語音處理技術領域，該方法包括：對第一文本進行異常檢測和校正得到目標文本，基于第一時間間隔將目標文本劃分為多個文本塊；第一文本為輸入至第一設備的原始文本；基于每個文本塊的內容類型為每個文本塊匹配語音處理庫，基于語音處理庫對每個文本塊進行文本?語音轉換得到多個語音塊；基于每個語音塊對應的時間點將多個語音塊進行拼接得到目標語音，對目標語音進行播報。本公開提供的一種基于大模型的流式語音播報方法及系統(tǒng)能夠提升文本的處理效率以及播報質量。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本公開屬于語音處理，更具體地說，是涉及一種基于大模型的流式語音播報方法及系統(tǒng)。

技術介紹

1、在語音處理
，隨著人工智能和大數(shù)據(jù)技術的不斷發(fā)展，流式語音播報方法及系統(tǒng)逐漸成為研究的熱點。傳統(tǒng)的語音播報方法往往依賴于小規(guī)模的模型或固定的算法，難以實現(xiàn)高效、準確的文本到語音的轉換。這些方法在處理長文本或連續(xù)文本流時，可能會遇到處理延遲、播報不連貫等問題，影響了用戶體驗。

技術實現(xiàn)思路

1、本公開的目的在于提供一種基于大模型的流式語音播報方法及系統(tǒng)，以提升文本的處理效率以及播報質量。

2、本公開實施例的第一方面，提供了一種基于大模型的流式語音播報方法，應用于第一設備，包括：

3、對第一文本進行異常檢測和校正得到目標文本，基于第一時間間隔將目標文本劃分為多個文本塊；所述第一文本為輸入至所述第一設備的原始文本；

4、基于每個文本塊的內容類型為所述每個文本塊匹配語音處理庫，基于所述語音處理庫對每個文本塊進行文本-語音轉換得到多個語音塊；

5、基于每個語音塊對應的時間點將多個語音塊進行拼接得到目標語音，對所述目標語音進行播報。

6、本公開實施例的第二方面，提供了一種基于大模型的流式語音播報系統(tǒng)，應用于第一設備，包括：

7、分割模塊，用于對第一文本進行異常檢測和校正得到目標文本，基于第一時間間隔將目標文本劃分為多個文本塊；所述第一文本為輸入至所述第一設備的原始文本；

8、處理模塊，用于基于每個文本塊的內容類型

9、播報模塊，用于基于每個語音塊對應的時間點將多個語音塊進行拼接得到目標語音，對所述目標語音進行播報。

10、本公開實施例的第三方面，提供了一種電子設備，包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述的一種基于大模型的流式語音播報方法的步驟。

11、本公開實施例的第四方面，提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的一種基于大模型的流式語音播報方法的步驟。

12、本公開實施例提供的一種基于大模型的流式語音播報方法及系統(tǒng)的有益效果在于：

13、本公開能夠顯著提升文本的處理效率以及播報質量，具體體現(xiàn)在：首先通過對輸入的第一文本進行異常檢測和校正得到目標文本，確保了目標文本的準確性和可讀性。其次，利用第一時間間隔將目標文本劃分為多個文本塊，根據(jù)每個文本塊的內容類型，為其匹配最合適的語音處理庫。這種個性化的匹配策略，使得文本-語音轉換過程更加精準高效，能夠生成更加自然流暢的語音塊。這些語音塊在基于各自對應的時間點進行拼接后，形成的目標語音不僅連貫性強，而且能夠準確傳達原始文本的信息和情感。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種基于大模型的流式語音播報方法，應用于第一設備，其特征在于，包括：

2.如權利要求1所述的一種基于大模型的流式語音播報方法，其特征在于，所述對第一文本進行異常檢測和校正得到目標文本，包括：

3.如權利要求2所述的一種基于大模型的流式語音播報方法，其特征在于，所述第一類異常檢測包括語法錯誤檢測、拼寫錯誤檢測和/或語義錯誤檢測。

4.如權利要求1所述的一種基于大模型的流式語音播報方法，其特征在于，所述語音處理庫包括音效庫和語言模型處理庫；

5.如權利要求4所述的一種基于大模型的流式語音播報方法，其特征在于，所述基于所述語音處理庫對每個文本塊進行文本-語音轉換得到多個語音塊，包括：

6.如權利要求5所述的一種基于大模型的流式語音播報方法，其特征在于，所述根據(jù)所述文本塊對應的信息量確定語言模型對應的損失函數(shù)，包括：

7.如權利要求1所述的一種基于大模型的流式語音播報方法，其特征在于，所述基于每個語音塊對應的時間點將多個語音塊進行拼接得到目標語音，包括：

8.一種基于大模型的流式語音播報系統(tǒng)，應用于第一設備，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權利要求1至7任一項所述方法的步驟。

10.一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述方法的步驟。

...

【技術特征摘要】

1.一種基于大模型的流式語音播報方法，應用于第一設備，其特征在于，包括：

2.如權利要求1所述的一種基于大模型的流式語音播報方法，其特征在于，所述對第一文本進行異常檢測和校正得到目標文本，包括：

3.如權利要求2所述的一種基于大模型的流式語音播報方法，其特征在于，所述第一類異常檢測包括語法錯誤檢測、拼寫錯誤檢測和/或語義錯誤檢測。

4.如權利要求1所述的一種基于大模型的流式語音播報方法，其特征在于，所述語音處理庫包括音效庫和語言模型處理庫；

6.如權利要求5所述的一種基于大模型的...

【專利技術屬性】
技術研發(fā)人員：張吉松，李政，劉威，安迪，夏勇峰，
申請(專利權)人：北京蜂巢世紀科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術