輔助閱讀方法、裝置、電子設備、存儲介質和計算機程序產品制造方法及圖紙

技術編號：44079259 閱讀：1 留言：0更新日期：2025-01-17 16:13

本發(fā)明專利技術提供一種輔助閱讀方法、裝置、電子設備、存儲介質和計算機程序產品，通過監(jiān)控模型監(jiān)控輔助閱讀指令所指向的輔助閱讀任務是否完成，并在任務未完成的情況下，將監(jiān)控模型切換為運行模型，并返回執(zhí)行文本生成步驟。由于監(jiān)控模型生成實時待讀圖片對應待讀文本的過程可以與運行模型生成待讀圖片對應待讀文本的過程并行，從而用戶不需要等待實時待讀圖片對應的待讀文本的生成。在運行模型生成待讀圖片對應待讀文本后，運行模型作為監(jiān)控模型，返回執(zhí)行任務監(jiān)控步驟，從而能夠繼續(xù)監(jiān)控是否完成輔助閱讀指令所指向的輔助閱讀任務，保證閱讀的連續(xù)性，減少了用戶等待時間，提升了互動的流暢性。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及計算機，尤其涉及一種輔助閱讀方法、裝置、電子設備、存儲介質和計算機程序產品。

技術介紹

1、隨著人工智能技術的快速發(fā)展，特別是大模型（如bert等）的廣泛應用，許多輔助閱讀產品已經(jīng)能夠實現(xiàn)基于文本的故事創(chuàng)作、對話生成以及繪本場景的輔助閱讀。

2、目前，大模型多是基于用戶指令和繪本當前頁對應的待讀圖片生成待讀文本，并語音播放待讀文本對應的音頻文件，以實現(xiàn)輔助閱讀。然而，在大模型播放待讀文本對應的音頻文件過程中，若用戶翻至繪本下一頁，且需要對下一頁進行輔助閱讀，則用戶需要針對下一頁發(fā)出新的用戶指令，以使大模型基于新的用戶指令和下一頁對應的待讀圖片重新生成對應的待讀文本。該方法在用戶發(fā)出新的用戶指令的過程中，閱讀的連續(xù)性會被打斷，影響閱讀沉浸感，降低用戶體驗。

技術實現(xiàn)思路

1、本專利技術提供一種輔助閱讀方法、裝置、電子設備、存儲介質和計算機程序產品，用以解決現(xiàn)有技術中存在的缺陷。

2、本專利技術提供一種輔助閱讀方法，包括如下步驟：

3、運行模型執(zhí)行文本生成步驟，所述文本生成步驟包括基于輔助閱讀指令以及待讀圖片，生成待讀文本，并將所述待讀文本存儲至緩存；

4、在所述運行模型執(zhí)行所述文本生成步驟的過程中，同時監(jiān)控模型執(zhí)行任務監(jiān)控步驟，所述任務監(jiān)控步驟包括基于所述輔助閱讀指令、實時待讀圖片以及所述緩存中的所有待讀文本，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務；

5、若否，則將所述實時待讀圖片作為所述

6、其中，在執(zhí)行所述文本生成步驟和所述任務監(jiān)控步驟的過程中，同步播放所述緩存中待讀文本對應的音頻文件，以進行輔助閱讀。

7、根據(jù)本專利技術提供的一種輔助閱讀方法，所述基于所述輔助閱讀指令、實時待讀圖片以及所述緩存中的所有待讀文本，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務，包括：

8、基于所述輔助閱讀指令，從所述緩存中的所有待讀文本中確定歷史待讀文本，所述歷史待讀文本對應的待讀圖片的時間戳早于所述實時待讀圖片的時間戳；

9、基于所述實時待讀圖片的語義信息，以及各歷史待讀文本的語義信息，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務。

10、根據(jù)本專利技術提供的一種輔助閱讀方法，所述基于所述實時待讀圖片的語義信息，以及各歷史待讀文本的語義信息，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務，包括：

11、基于所述實時待讀圖片的語義信息，以及各歷史待讀文本的語義信息，確定所述實時待讀圖片與各歷史待讀文本之間的語義相似度；

12、若所述實時待讀圖片與各歷史待讀文本之間的語義相似度均小于閾值，則確定所述運行模型未完成所述輔助閱讀指令所指向的輔助閱讀任務；

13、若所述實時待讀圖片與任一歷史待讀文本之間的語義相似度大于等于所述閾值，則確定所述運行模型完成所述輔助閱讀指令所指向的輔助閱讀任務。

14、根據(jù)本專利技術提供的一種輔助閱讀方法，所述基于輔助閱讀指令以及待讀圖片，生成待讀文本，包括：

15、對所述待讀圖片進行圖像識別，得到多個圖像要素；

16、對所述待讀圖片進行文本識別，得到多個文本要素；

17、基于所述輔助閱讀指令、所述多個圖像要素以及所述多個文本要素，生成所述待讀文本。

18、根據(jù)本專利技術提供的一種輔助閱讀方法，所述基于所述輔助閱讀指令、所述多個圖像要素以及所述多個文本要素，生成所述待讀文本，包括：

19、基于所述輔助閱讀指令，從所述多個圖像要素中確定目標圖像要素，以及從所述多個文本要素中確定目標文本要素；

20、基于所述目標圖像要素以及所述目標文本要素，生成所述待讀文本。

21、根據(jù)本專利技術提供的一種輔助閱讀方法，在確定所述運行模型完成所述輔助閱讀指令所指向的輔助閱讀任務，之后還包括：

22、檢測所述緩存中的所有待讀文本是否均已播放完畢，若否，則所述監(jiān)控模型每隔預設時間間隔返回執(zhí)行所述任務監(jiān)控步驟。

23、根據(jù)本專利技術提供的一種輔助閱讀方法，所述緩存中待讀文本對應的音頻文件的確定步驟包括：

24、實時將所述緩存中新增的待讀文本轉換為音素序列，并基于所述音素序列生成語音信號；

25、將所述語音信號轉換為所述緩存中待讀文本對應的音頻文件。

26、本專利技術還提供一種輔助閱讀裝置，包括如下模塊：

27、運行單元，用于運行模型執(zhí)行文本生成步驟，所述文本生成步驟包括基于輔助閱讀指令以及待讀圖片，生成待讀文本，并將所述待讀文本存儲至緩存；

28、監(jiān)控單元，用于在所述運行模型執(zhí)行所述文本生成步驟的過程中，同時監(jiān)控模型執(zhí)行任務監(jiān)控步驟，所述任務監(jiān)控步驟包括基于所述輔助閱讀指令、實時待讀圖片以及所述緩存中的所有待讀文本，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務；

29、若否，則將所述實時待讀圖片作為所述待讀圖片以及將所述監(jiān)控模型作為所述運行模型，返回執(zhí)行所述文本生成步驟，同時將所述運行模型作為所述監(jiān)控模型，返回執(zhí)行所述任務監(jiān)控步驟；

30、其中，在執(zhí)行所述文本生成步驟和所述任務監(jiān)控步驟的過程中，同步播放所述緩存中待讀文本對應的音頻文件，以進行輔助閱讀。

31、本專利技術還提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述輔助閱讀方法。

32、本專利技術還提供一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述輔助閱讀方法。

33、本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述輔助閱讀方法。

34、本專利技術提供的輔助閱讀方法、裝置、電子設備、存儲介質和計算機程序產品，通過監(jiān)控模型監(jiān)控輔助閱讀指令所指向的輔助閱讀任務是否完成，并在任務未完成的情況下，將監(jiān)控模型切換為運行模型，并返回執(zhí)行文本生成步驟。由于監(jiān)控模型生成實時待讀圖片對應待讀文本的過程可以與運行模型生成待讀圖片對應待讀文本的過程并行，從而用戶不需要等待實時待讀圖片對應的待讀文本的生成。在運行模型生成待讀圖片對應待讀文本后，運行模型作為監(jiān)控模型，返回執(zhí)行任務監(jiān)控步驟，從而能夠繼續(xù)監(jiān)控是否完成輔助閱讀指令所指向的輔助閱讀任務，直至完成輔助閱讀指令所指向的輔助閱讀任務。此外，在執(zhí)行文本生成步驟和任務監(jiān)控步驟的過程中，同步播放緩存中待讀文本對應的音頻文件，以進行輔助閱讀，無需等待完成輔助閱讀指令所指向的輔助閱讀任務后，再播放待讀文本對應的音頻文件，進而可以實現(xiàn)在生成待讀文本的過程中同步播放音頻文件，減少了用戶等待時間，提升了互動的流暢性本文檔來自技高網(wǎng)...

【技術保護點】

1.一種輔助閱讀方法，其特征在于，包括：

2.根據(jù)權利要求1所述的輔助閱讀方法，其特征在于，所述基于所述輔助閱讀指令、實時待讀圖片以及所述緩存中的所有待讀文本，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務，包括：

3.根據(jù)權利要求2所述的輔助閱讀方法，其特征在于，所述基于所述實時待讀圖片的語義信息，以及各歷史待讀文本的語義信息，監(jiān)控所述運行模型是否完成所述輔助閱讀指令所指向的輔助閱讀任務，包括：

4.根據(jù)權利要求1至3任一項所述的輔助閱讀方法，其特征在于，所述基于輔助閱讀指令以及待讀圖片，生成待讀文本，包括：

5.根據(jù)權利要求4所述的輔助閱讀方法，其特征在于，所述基于所述輔助閱讀指令、所述多個圖像要素以及所述多個文本要素，生成所述待讀文本，包括：

6.根據(jù)權利要求1至3任一項所述的輔助閱讀方法，其特征在于，在確定所述運行模型完成所述輔助閱讀指令所指向的輔助閱讀任務，之后還包括：

7.根據(jù)權利要求1至3任一項所述的輔助閱讀方法，其特征在于，所述緩存中待讀文本對應的音頻文件的確定步驟包括：

...

【技術特征摘要】

1.一種輔助閱讀方法，其特征在于，包括：

4.根據(jù)權利要求1至3任一項所述的輔助閱讀方法，其特征在于，所述基于輔助閱讀指令以及待讀圖片，生成待讀文本，包括：

6.根據(jù)權利要求1至3任一項所述...

【專利技術屬性】
技術研發(fā)人員：殷保才，潘吉材，盛典，甘文君，董健，劉文超，殷兵，
申請(專利權)人：科大訊飛股份有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術