當(dāng)前位置: 首頁(yè) > 專利查詢>上海幻電信息科技有限公司專利>正文

視頻剪輯方法和裝置制造方法及圖紙

技術(shù)編號(hào)：44498993 閱讀：4 留言：0更新日期：2025-03-04 18:07

本申請(qǐng)實(shí)施例提供了一種視頻剪輯方法，包括：獲取初始視頻；基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，所述初始臺(tái)詞集包括多個(gè)角色的臺(tái)詞；基于所述初始臺(tái)詞集和預(yù)設(shè)的語(yǔ)音特征庫(kù)，從所述多個(gè)角色的臺(tái)詞中獲取目標(biāo)角色的臺(tái)詞，得到增強(qiáng)臺(tái)詞集；將所述增強(qiáng)臺(tái)詞集輸入到預(yù)先訓(xùn)練好的語(yǔ)言模型，以獲取臺(tái)詞剪輯腳本，所述臺(tái)詞剪輯腳本通過(guò)對(duì)所述增強(qiáng)臺(tái)詞集的臺(tái)詞進(jìn)行重新組合得到；基于所述臺(tái)詞剪輯腳本，從所述多個(gè)臺(tái)詞片段中獲取多個(gè)目標(biāo)臺(tái)詞片段并進(jìn)行剪輯，得到目標(biāo)視頻。本申請(qǐng)實(shí)施例的技術(shù)方案可以基于角色臺(tái)詞進(jìn)行智能篩選和自動(dòng)組合，自動(dòng)生成高質(zhì)量的對(duì)話視頻，提升剪輯效率和質(zhì)量。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)，尤其涉及一種視頻剪輯方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品。

技術(shù)介紹

1、隨著社交媒體和在線視頻平臺(tái)的普及，用戶對(duì)高質(zhì)量視頻的需求不斷增加。視頻剪輯可以優(yōu)化視頻的內(nèi)容和結(jié)構(gòu)，生成高質(zhì)量視頻。視頻剪輯主要通過(guò)人工和ai（人工智能）實(shí)現(xiàn)。

2、然而，目前的視頻剪輯算法在多角色對(duì)話場(chǎng)景中仍存在以下缺陷：難以突出重點(diǎn)對(duì)話，需要人工干預(yù)，耗時(shí)長(zhǎng)且成本高，無(wú)法實(shí)現(xiàn)自動(dòng)化剪輯，從而導(dǎo)致剪輯效率低下、效果不理想。

3、需要說(shuō)明的是，上述內(nèi)容并不必然是現(xiàn)有技術(shù)，也不用于限制本申請(qǐng)的專利保護(hù)范圍。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施例提供一種視頻剪輯方法、裝置、計(jì)算機(jī)設(shè)備、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、計(jì)算機(jī)程序產(chǎn)品，以解決或緩解上面提出的一項(xiàng)或更多項(xiàng)技術(shù)問(wèn)題。

2、本申請(qǐng)實(shí)施例的一個(gè)方面提供了一種視頻剪輯方法，所述方法包括：

3、獲取初始視頻，所述初始視頻包括多個(gè)臺(tái)詞片段，一個(gè)臺(tái)詞片段對(duì)應(yīng)一句臺(tái)詞；

4、基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，所述初始臺(tái)詞集包括多個(gè)角色的臺(tái)詞；

5、基于所述初始臺(tái)詞集和預(yù)設(shè)的語(yǔ)音特征庫(kù)，從所述多個(gè)角色的臺(tái)詞中獲取目標(biāo)角色的臺(tái)詞，得到增強(qiáng)臺(tái)詞集；

6、將所述增強(qiáng)臺(tái)詞集輸入到預(yù)先訓(xùn)練好的語(yǔ)言模型，以獲取臺(tái)詞剪輯腳本，所述臺(tái)詞剪輯腳本通過(guò)對(duì)所述增強(qiáng)臺(tái)詞集的臺(tái)詞進(jìn)行重新組合得到；

7、基于所述臺(tái)詞剪輯腳本，從所述多個(gè)臺(tái)詞片段中獲取

8、可選地，基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，包括：

9、提取所述初始視頻的音頻；

10、將所述音頻輸入到所述語(yǔ)音識(shí)別模型，以通過(guò)所述語(yǔ)音識(shí)別模型獲取所述多個(gè)角色的臺(tái)詞，形成所述初始臺(tái)詞集；

11、其中，每個(gè)角色具有一句或多句臺(tái)詞，每句臺(tái)詞關(guān)聯(lián)有對(duì)應(yīng)的時(shí)間標(biāo)識(shí)。

12、可選地，基于所述初始臺(tái)詞集和預(yù)設(shè)的語(yǔ)音特征庫(kù)，從所述多個(gè)角色的臺(tái)詞中獲取目標(biāo)角色的臺(tái)詞，得到增強(qiáng)臺(tái)詞集，包括：

13、將所述初始臺(tái)詞集輸入到預(yù)先訓(xùn)練好的文本糾錯(cuò)模型，以通過(guò)所述文本糾錯(cuò)模型獲取修正臺(tái)詞集，所述修正臺(tái)詞集通過(guò)對(duì)所述初始臺(tái)詞集的誤差進(jìn)行修正得到；

14、基于所述修正臺(tái)詞集和所述語(yǔ)音特征庫(kù)，獲取所述增強(qiáng)臺(tái)詞集。

15、可選地，所述文本糾錯(cuò)模型通過(guò)以下操作獲取所述修正臺(tái)詞集：

16、獲取所述初始臺(tái)詞集的每句臺(tái)詞的語(yǔ)義信息；

17、基于每句臺(tái)詞的語(yǔ)義信息，將每句臺(tái)詞與預(yù)設(shè)的標(biāo)準(zhǔn)語(yǔ)料庫(kù)進(jìn)行匹配，所述標(biāo)準(zhǔn)語(yǔ)料庫(kù)包括多個(gè)標(biāo)準(zhǔn)語(yǔ)料；

18、在匹配到語(yǔ)義信息相似度大于預(yù)設(shè)閾值的標(biāo)準(zhǔn)語(yǔ)料的情況下，基于所述標(biāo)準(zhǔn)語(yǔ)料確定臺(tái)詞的誤差并進(jìn)行修正，以得到所述修正臺(tái)詞集。

19、可選地，所述語(yǔ)音特征庫(kù)包括所述目標(biāo)角色的聲學(xué)特征；

20、對(duì)應(yīng)地，基于所述修正臺(tái)詞集和所述語(yǔ)音特征庫(kù)，獲取所述增強(qiáng)臺(tái)詞集，包括：

21、獲取所述修正臺(tái)詞集的每句臺(tái)詞對(duì)應(yīng)的臺(tái)詞片段；

22、對(duì)每句臺(tái)詞對(duì)應(yīng)的臺(tái)詞片段進(jìn)行語(yǔ)音特征提取，得到每句臺(tái)詞的聲學(xué)特征；

23、將每句臺(tái)詞的聲學(xué)特征和所述目標(biāo)角色的聲學(xué)特征進(jìn)行匹配；

24、在匹配不成功的情況下，從所述修正臺(tái)詞集移除匹配不成功的臺(tái)詞，得到所述增強(qiáng)臺(tái)詞集。

25、可選地，所述語(yǔ)音特征庫(kù)通過(guò)以下操作得到：

26、根據(jù)所述初始視頻，確定所述目標(biāo)角色并獲取所述目標(biāo)角色的臺(tái)詞片段；

27、對(duì)所述目標(biāo)角色的臺(tái)詞片段進(jìn)行語(yǔ)音特征提取，得到所述目標(biāo)角色的聲學(xué)特征；

28、將所述目標(biāo)角色的聲學(xué)特征注冊(cè)到所述語(yǔ)音特征庫(kù)。

29、可選地，所述語(yǔ)言模型通過(guò)以下操作獲取所述臺(tái)詞剪輯腳本：

30、確定所述增強(qiáng)臺(tái)詞集的每句臺(tái)詞的語(yǔ)義信息和上下文關(guān)系；

31、基于每句臺(tái)詞的語(yǔ)義信息和上下文關(guān)系，確定每句臺(tái)詞的優(yōu)先級(jí)和組合方式；

32、基于每句臺(tái)詞的優(yōu)先級(jí)和組合方式，對(duì)所述增強(qiáng)臺(tái)詞集的臺(tái)詞進(jìn)行重新組合，得到所述臺(tái)詞剪輯腳本。

33、可選地，臺(tái)詞關(guān)聯(lián)有時(shí)間標(biāo)識(shí)，所述時(shí)間標(biāo)識(shí)用于定位對(duì)應(yīng)的臺(tái)詞片段；

34、對(duì)應(yīng)地，基于所述臺(tái)詞剪輯腳本，從所述多個(gè)臺(tái)詞片段中獲取多個(gè)目標(biāo)臺(tái)詞片段并進(jìn)行剪輯，得到目標(biāo)視頻，包括：

35、基于所述臺(tái)詞剪輯腳本的每句臺(tái)詞的時(shí)間標(biāo)識(shí)，獲取所述多個(gè)目標(biāo)臺(tái)詞片段；

36、對(duì)所述多個(gè)目標(biāo)臺(tái)詞片段進(jìn)行視覺(jué)分析，確定所述多個(gè)目標(biāo)臺(tái)詞片段是否包括視覺(jué)缺陷；

37、對(duì)于包括視覺(jué)缺陷的目標(biāo)臺(tái)詞片段：確定對(duì)應(yīng)的臺(tái)詞；獲取相鄰的多個(gè)臺(tái)詞片段的美學(xué)分?jǐn)?shù)；將美學(xué)分?jǐn)?shù)最高的臺(tái)詞片段作為所述對(duì)應(yīng)的臺(tái)詞新的目標(biāo)臺(tái)詞片段，以替換所述包括視覺(jué)缺陷的目標(biāo)臺(tái)詞片段；

38、基于所述臺(tái)詞剪輯腳本，對(duì)所述多個(gè)目標(biāo)臺(tái)詞片段進(jìn)行拼接，得到所述目標(biāo)視頻。

39、可選地，將所述增強(qiáng)臺(tái)詞集輸入到預(yù)先訓(xùn)練好的語(yǔ)言模型，以獲取臺(tái)詞剪輯腳本，包括：

40、確定提示詞，所述提示詞包括剪輯風(fēng)格；

41、將所述增強(qiáng)臺(tái)詞集和所述提示詞輸入到所述語(yǔ)言模型，以通過(guò)所述語(yǔ)言模型獲取與所述剪輯風(fēng)格適配的臺(tái)詞剪輯腳本。

42、本申請(qǐng)實(shí)施例的另一個(gè)方面提供了一種視頻剪輯裝置，所述裝置包括：

43、第一獲取模塊，用于獲取初始視頻，所述初始視頻包括多個(gè)臺(tái)詞片段，一個(gè)臺(tái)詞片段對(duì)應(yīng)一句臺(tái)詞；

44、第二獲取模塊，用于基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，所述初始臺(tái)詞集包括多個(gè)角色的臺(tái)詞；

45、第三獲取模塊，用于基于所述初始臺(tái)詞集和預(yù)設(shè)的語(yǔ)音特征庫(kù)，從所述多個(gè)角色的臺(tái)詞中獲取目標(biāo)角色的臺(tái)詞，得到增強(qiáng)臺(tái)詞集；

46、第四獲取模塊，用于將所述增強(qiáng)臺(tái)詞集輸入到預(yù)先訓(xùn)練好的語(yǔ)言模型，以獲取臺(tái)詞剪輯腳本，所述臺(tái)詞剪輯腳本通過(guò)對(duì)所述增強(qiáng)臺(tái)詞集的臺(tái)詞進(jìn)行重新組合得到；

47、剪輯模塊，用于基于所述臺(tái)詞剪輯腳本，從所述多個(gè)臺(tái)詞片段中獲取多個(gè)目標(biāo)臺(tái)詞片段并進(jìn)行剪輯，得到目標(biāo)視頻；其中，所述多個(gè)目標(biāo)臺(tái)詞片段與所述臺(tái)詞剪輯腳本的臺(tái)詞一一對(duì)應(yīng)。

48、本申請(qǐng)實(shí)施例的另一個(gè)方面提供了一種計(jì)算機(jī)設(shè)備，包括：

49、至少一個(gè)處理器；及

50、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；

51、其中：所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行如上所述的方法。

52、本申請(qǐng)實(shí)施例的另一個(gè)方面提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法。

53、本申請(qǐng)實(shí)施例的另一個(gè)方面提本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種視頻剪輯方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述初始臺(tái)詞集和預(yù)設(shè)的語(yǔ)音特征庫(kù)，從所述多個(gè)角色的臺(tái)詞中獲取目標(biāo)角色的臺(tái)詞，得到增強(qiáng)臺(tái)詞集，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述文本糾錯(cuò)模型通過(guò)以下操作獲取所述修正臺(tái)詞集：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述語(yǔ)音特征庫(kù)包括所述目標(biāo)角色的聲學(xué)特征；

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語(yǔ)音特征庫(kù)通過(guò)以下操作得到：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語(yǔ)言模型通過(guò)以下操作獲取所述臺(tái)詞剪輯腳本：

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，臺(tái)詞關(guān)聯(lián)有時(shí)間標(biāo)識(shí)，所述時(shí)間標(biāo)識(shí)用于定位對(duì)應(yīng)的臺(tái)詞片段；

9.根據(jù)權(quán)利要求1至8任一項(xiàng)所述的方法，其特征在于，將所述增強(qiáng)臺(tái)詞集輸入到預(yù)先訓(xùn)練好的語(yǔ)言模型，以獲取臺(tái)詞剪輯腳本，包括：

10.一種視

11.?一種計(jì)算機(jī)設(shè)備，其特征在于，包括：

12.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)內(nèi)存儲(chǔ)有計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至9中任一項(xiàng)所述的方法。

13.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，其特征在于，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至9所述方法的步驟。

...

【技術(shù)特征摘要】

1.一種視頻剪輯方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，基于所述初始視頻和預(yù)先訓(xùn)練好的語(yǔ)音識(shí)別模型，獲取初始臺(tái)詞集，包括：

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述文本糾錯(cuò)模型通過(guò)以下操作獲取所述修正臺(tái)詞集：

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述語(yǔ)音特征庫(kù)包括所述目標(biāo)角色的聲學(xué)特征；

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語(yǔ)音特征庫(kù)通過(guò)以下操作得到：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語(yǔ)言模型通過(guò)以...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：張雅君，
申請(qǐng)(專利權(quán))人：上海幻電信息科技有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)