• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>湘潭大學專利>正文

    一種基于Convformer的粵語句子級唇語識別方法技術

    技術編號:38135558 閱讀:25 留言:0更新日期:2023-07-08 09:46
    本發(fā)明專利技術公開了一種基于Convformer的粵語句子級唇語識別方法,包括以下步驟:(1)構建粵語句子級唇語識別數(shù)據(jù)集;(2)設計算法模型;(3)對數(shù)據(jù)進行預處理,將處理過的視頻信息和文本信息打包整合之后保存至可用于訓練的npz文件中,生成訓練文件;(4)使用設計的算法對預處理過的數(shù)據(jù)進行訓練,得到訓練模型;(5)用訓練模型構建演示系統(tǒng)進行演示。本發(fā)明專利技術通過上述一種基于Convformer的粵語句子級唇語識別方法,能夠捕獲唇部序列的全局時間信息和局部時間信息,提升了粵語句子級唇語識別的精度。提升了粵語句子級唇語識別的精度。提升了粵語句子級唇語識別的精度。

    【技術實現(xiàn)步驟摘要】
    一種基于Convformer的粵語句子級唇語識別方法


    [0001]本申請涉及唇語識別
    ,具體涉及一種基于Convformer的粵語句子級唇語識別方法。

    技術介紹

    [0002]唇語識別是一種僅通過視覺信息來識別說話內(nèi)容的技術。它不依賴于音頻信息,而是通過視覺信息(如嘴唇、舌頭、牙齒、下巴)來對說話內(nèi)容進行理解。由于其在人機交互、語音增強、活體檢測、自動字幕等方面具有廣泛的應用價值,而一躍成為近年來的研究熱門。隨著深度學習的發(fā)展,唇語識別研究進展取得了重大突破,基于深度學習的唇語識別方法層出不窮。
    [0003]粵語,又稱作廣東話,是一種漢藏語系漢語族的聲調(diào)語言,是中國漢語七大方言之一。粵語含完整的九聲六調(diào),較完美地保留古漢語特征,擁有完善的文字系統(tǒng),可以完全使用漢字表達(其他漢語方言很難做到),也是唯一除普通話外在外國大學有獨立研究的中國漢語。并且,全球?qū)⒔?.2億人口使用粵語。無論是粵語語言的獨特性,還是使用粵語人群的規(guī)模性,都表明了粵語唇語識別具有重要的研究意義以及廣闊的市場背景。
    [0004]由于粵語具有九聲六調(diào)的特點,因此,粵語唇語識別任務與中文唇讀任務存在著較大的差異。此外,一句話的唇部序列長度遠比一個詞的唇部序列長度要長,故句子級唇語識別任務和單詞級唇語識別任務相比,其不僅要對每一幀的唇部特征進行有效的提取,而且要對幀與幀之間的時間序列進行有效的建模。
    [0005]現(xiàn)有的唇語識別任務中對粵語句子級唇語識別的研究極少,并且沒有公司或者大型研究機構推出大規(guī)模粵語句子級唇讀的數(shù)據(jù)集。并且,現(xiàn)有的粵語句子級唇讀模型無法很好的提取唇部的動態(tài)視覺特征且無法同時對唇部特征序列的全局時間信息以及局部時間信息進行捕獲。

    技術實現(xiàn)思路

    [0006]本專利技術的目的是提供一種基于Convformer的粵語句子級唇語識別方法,填充了粵語句子級唇語識別領域的空白,能夠捕獲唇部序列的全局時間信息和局部時間信息,有效的提升了粵語句子級唇語識別的精度。
    [0007]為實現(xiàn)上述目的,本專利技術提供了一種基于Convformer的粵語句子級唇語識別方法,包括以下步驟:
    [0008]S1、構建粵語句子級唇語識別數(shù)據(jù)集
    [0009]通過Xtreme工具從互聯(lián)網(wǎng)上收集包含珠江臺、本港臺在內(nèi)的多個粵語節(jié)目。通過圖像的全局直方圖來判斷單個說話人與視頻中其他場景的切換,得到一個粗略的單個說話人視頻剪輯,同時,使用視頻剪輯軟件對視頻剪輯中的短句進行裁剪,最后放入自動化數(shù)據(jù)采集系統(tǒng)中進行自動的數(shù)據(jù)采集。這樣可以有效的過濾掉無效幀(沒有說話人、多個說話人、有人聲卻沒有說話人),還可以使數(shù)據(jù)集更加接近真實的場景分布。
    [0010]S2、設計算法模型
    [0011]一、前端模塊:使用視覺前端模塊提取視頻信息的時空特征。視覺前端模塊由Conv3d以及ResNet
    ?
    50組成,旨在提取唇部細粒度動態(tài)特征。
    [0012]二、后端模塊:通過12個Convformer
    ?
    Encoder塊來對唇部序列的局部時間信息和全局時間信息進行建模。
    [0013]每個Convformer
    ?
    Encoder塊由四個模塊構成:前饋模塊、自注意力模塊、卷積模塊以及第二個前饋模塊構成。其中,前饋模塊有助于網(wǎng)絡模型的正則化。自注意力模塊用來對唇部序列的全局交互性進行建模,捕獲唇部序列的全局時間信息。卷積模塊則能對唇部序列的局部相關性進行學習,捕獲唇部序列的局部時間信息。
    [0014]三、使用Transformer
    ?
    Decoder模塊對后端模塊輸出的視覺特征進行解碼。
    [0015]四、設計損失函數(shù)。
    [0016]五、設計訓練策略。構建粵語句子級唇語識別模型。
    [0017]S3、對數(shù)據(jù)進行預處理,將處理過的視頻信息和文本信息打包整合之后保存至可用于訓練的npz文件中。
    [0018]S4、使用設計的算法對預處理過的數(shù)據(jù)進行訓練,得到訓練模型。
    [0019]S5、利用訓練模型構建演示系統(tǒng)進行演示。
    [0020]因此,本專利技術采用上述一種基于Convformer的粵語句子級唇語識別方法,通過收集粵語句子級唇語識別數(shù)據(jù)集彌補了粵語句子級唇語識別領域沒有大規(guī)模數(shù)據(jù)集的空白。本專利技術的識別方法能夠捕獲唇部序列的全局時間信息和局部時間信息,有效的提升了粵語句子級唇語識別的精度。
    [0021]下面通過附圖和實施例,對本專利技術的技術方案做進一步的詳細描述。
    附圖說明
    [0022]圖1是本專利技術一種基于Convformer的粵語句子級唇語識別方法的流程圖。
    [0023]圖2是本專利技術中粵語句子級唇語識別數(shù)據(jù)集采集的流程圖。
    [0024]圖3是本專利技術一種基于Convformer的粵語句子級唇語識別方法實施例的流程圖。
    [0025]圖4是本專利技術中Convformer塊的模塊示意圖。
    具體實施方式
    [0026]以下通過附圖和實施例對本專利技術的技術方案作進一步說明。
    [0027]除非另外定義,本專利技術使用的技術術語或者科學術語應當為本專利技術所屬領域內(nèi)具有一般技能的人士所理解的通常意義。
    [0028]如圖1,本專利技術一種基于Convformer的粵語句子級唇語識別方法,該方法具體如下:(1)構建粵語句子級唇語識別數(shù)據(jù)集,(2)設計算法模型,(3)對數(shù)據(jù)進行預處理,將處理過的視頻信息和文本信息打包整合之后保存至可用于訓練的npz文件中,生成訓練文件,(4)使用設計的算法對預處理過的數(shù)據(jù)進行訓練,得到訓練模型,(5)用訓練模型構建演示系統(tǒng)進行演示。
    [0029]在構建數(shù)據(jù)集中,如圖2所示,采集并構造粵語句子級唇語識別數(shù)據(jù)集CLRS的方法如下:
    [0030]S1、利用Xtreme工具從互聯(lián)網(wǎng)上獲取粵語節(jié)目,如粵語新聞聯(lián)播、粵語的綜藝節(jié)目、粵語的人物訪談以及脫口秀節(jié)目等;
    [0031]S2、通過圖像的全局直方圖來判斷單個說話人與視頻中其他場景的切換,得到一個粗略的單個說話人視頻剪輯以此來過濾無效幀(沒有說話人、多個說話人、有人聲卻沒有說話人);
    [0032]S3、將采集到的音視頻進行同步對齊。
    [0033]首先,手動過濾掉音頻和視頻明顯不同步的視頻樣本。但是對于問題不那么明顯的視頻樣本,直接通過SyncNet模型進行處理。即,計算每個視頻樣本的偏移量,并平均這些視頻樣本之間的距離作為同步的基礎。如果偏移量大于
    ±
    7幀,則丟棄這些視頻樣本;
    [0034]S4、使用科大訊飛商用級粵語語音轉錄服務,獲取有效視頻樣本的文本內(nèi)容、分詞結果和時間戳;
    [0035]S5、按照視頻序列名、文本內(nèi)容、分詞時間戳、分詞拼音、分詞的順序生成標注文本,在自動生成注釋文本之后,必須手動驗證注釋文本。在驗證過程中,標注必須嚴格按照語音內(nèi)容進行。如果環(huán)境聲音太大從而影響文本的驗證,樣本將被直接丟棄;
    [0036]S6、使用mediapipe本文檔來自技高網(wǎng)
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于Convformer的粵語句子級唇語識別方法,其特征在于:包括以下步驟:S1、構建粵語句子級唇語識別數(shù)據(jù)集;S2、設計算法模型;S3、對數(shù)據(jù)進行預處理,將處理過的視頻信息和文本信息打包整合之后保存至可用于訓練的npz文件中,生成訓練文件;S4、使用設計的算法對預處理過的數(shù)據(jù)進行訓練,得到訓練模型;S5、用訓練模型構建演示系統(tǒng)進行演示。2.根據(jù)權利要求1所述的一種基于Convformer的粵語句子級唇語識別方法,其特征在于:在步驟S1中,粵語句子級唇語識別數(shù)據(jù)集構建方法如下:S11、利用Xtreme工具從互聯(lián)網(wǎng)上獲取粵語節(jié)目的內(nèi)容;S12、將步驟S11中獲得的粵語節(jié)目內(nèi)容通過圖像的全局直方圖來判斷單個說話人與視頻中其他場景的切換,得到一個粗略的單個說話人視頻剪輯以此來過濾無效幀;S13、將步驟S12采集到的音視頻進行同步對齊;S14、使用粵語語音轉錄服務獲取有效視頻樣本的文本內(nèi)容、分詞結果和時間戳,按照視頻序列名、文本內(nèi)容、分詞時間戳、分詞拼音、分詞的順序生成標注文本,在自動生成注釋文本之后,手動驗證注釋文本;S15、使用mediapipe工具得到人臉圖像序列和相應的人臉標志。3.根據(jù)權利要求2所述的一種基于Convformer的粵語句子級唇語識別方法,其特征在于:在步驟S12中,過濾無效幀過程中,首先,手動過濾掉音頻和視頻明顯不同步的視頻樣本;對于剩余視頻樣本,直接通過SyncNet模型進行處理。4.根據(jù)權利要求3所述的一種基于Convformer的粵語句子級唇語識別方法,其特征在于:SyncNet模型的處理時,首先計算每個視頻樣本的偏移量,并平均視頻樣本之間的距離作為同步的基礎,若偏移量大于
    ±
    7幀,則丟棄。5.根據(jù)權利要求1所述的一種基于Convformer的粵語句子級唇語識別方法,其特征在于:在步驟S2中,設計算法模型包括前端模塊、后端模塊以及Transformer
    ?
    Decoder模塊組成,前端模塊使用視覺前端模塊提取視頻信息的時空特征,視覺前端模塊由Conv3d以及ResNet
    ?
    50組成,旨在提取唇部細粒度動態(tài)特征;后端模塊由12個Convformer
    ?
    Encoder塊組成,來對唇部序列的局部時間信息和全局時間信息進行建模;Transformer
    ?
    Decoder模塊則是對后端模塊輸出的視覺特征進行解碼。6.根據(jù)權利要求5所述的一種基于Convformer的粵語句子級唇語識別方法,其特征在于:步驟S2中,具體的操作如下:S21、使用視覺前端模塊提取視頻信息的時空特征;S22、通過12個Convformer
    ?
    Encoder塊來對唇部序列的局部時間信息和全局時間信息進行建模;S23、使用Transformer
    ?
    Decoder...

    【專利技術屬性】
    技術研發(fā)人員:肖業(yè)偉劉烜銘滕連偉朱澳蘇田丕承黃健
    申請(專利權)人:湘潭大學
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av成人无码久久精品| 亚洲AV无码欧洲AV无码网站| AV无码久久久久不卡蜜桃| 精品三级AV无码一区| 国产在线精品无码二区二区| 亚洲Av综合色区无码专区桃色| 免费无码毛片一区二区APP| 天天看高清无码一区二区三区| 日韩乱码人妻无码系列中文字幕| 人妻无码久久精品人妻| 少妇人妻无码精品视频| 亚洲人成国产精品无码| 久久久久久99av无码免费网站| 大桥久未无码吹潮在线观看| 国产精品午夜无码av体验区| 中文无码热在线视频| 曰韩精品无码一区二区三区| 无码av无码天堂资源网| 亚洲heyzo专区无码综合| 无码精品人妻一区二区三区中| 国产精品无码素人福利不卡| 精品久久久久久无码中文字幕漫画| 亚洲av成人无码久久精品| 国产成人精品无码片区在线观看| 精品久久久久久中文字幕无码 | 99热门精品一区二区三区无码| 精品无码久久久久久久动漫| 无码不卡亚洲成?人片| 无码熟妇αⅴ人妻又粗又大| 无码av人妻一区二区三区四区| 无码人妻AV一二区二区三区| 伊人久久综合无码成人网| 免费无码又爽又刺激网站| 国产成人无码专区| 国产精品亚洲αv天堂无码| 中文字幕无码毛片免费看| 中文字幕人妻三级中文无码视频| 国产成人无码精品久久久露脸 | yy111111少妇影院无码| 亚洲成A人片在线观看无码3D| 亚洲精品无码激情AV|