System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩少妇无码一区二区三区,精品久久久无码中文字幕天天,波多野42部无码喷潮在线
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>武漢紡織大學(xué)專利>正文

    基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法和系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):44424150 閱讀:3 留言:0更新日期:2025-02-28 18:38
    本發(fā)明專利技術(shù)涉及計(jì)算機(jī)視覺、深度學(xué)習(xí)、多模態(tài)行為分析領(lǐng)域,特別涉及一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法和系統(tǒng),該方法包括:對(duì)輸入視頻進(jìn)行抽幀獲取圖像序列;對(duì)圖像進(jìn)行身體部位分割并結(jié)合文本描述輸入CLIP模型,獲取各部位的多模態(tài)特征;通過部位級(jí)別融合網(wǎng)絡(luò)整合特征信息;結(jié)合可學(xué)習(xí)提示構(gòu)建學(xué)生模型并進(jìn)行知識(shí)蒸餾;對(duì)模型進(jìn)行優(yōu)化訓(xùn)練并輸出動(dòng)作識(shí)別結(jié)果。本發(fā)明專利技術(shù)很好地融合了細(xì)粒度視覺特征和語義信息,有效挖掘了動(dòng)作中的關(guān)鍵模式,從而提升了動(dòng)作識(shí)別的準(zhǔn)確率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)屬于計(jì)算機(jī)視覺和人工智能領(lǐng)域,特別涉及一種利用細(xì)粒度特征分析、多模態(tài)信息融合以及教師-學(xué)生知識(shí)蒸餾框架的動(dòng)作識(shí)別方法及系統(tǒng)。


    技術(shù)介紹

    1、隨著人工智能和計(jì)算機(jī)視覺技術(shù)的迅速進(jìn)步,動(dòng)作識(shí)別作為一項(xiàng)關(guān)鍵技術(shù)正逐漸成為研究與應(yīng)用的重點(diǎn)。在當(dāng)今這個(gè)高度數(shù)字化的時(shí)代,視頻數(shù)據(jù)量呈現(xiàn)出爆炸性的增長態(tài)勢(shì),這些數(shù)據(jù)覆蓋了從社交媒體、安防監(jiān)控到醫(yī)療診斷等多個(gè)領(lǐng)域。海量的視頻資料中蘊(yùn)含著豐富的人類行為信息,而準(zhǔn)確地識(shí)別和理解這些行為對(duì)于眾多應(yīng)用場(chǎng)景來說至關(guān)重要。例如,在智能安防系統(tǒng)中,快速且準(zhǔn)確地檢測(cè)異常行為能夠有效預(yù)防犯罪事件的發(fā)生;在醫(yī)療保健領(lǐng)域,通過精確捕捉患者的動(dòng)作可以輔助醫(yī)生進(jìn)行更準(zhǔn)確的診斷以及康復(fù)效果評(píng)估;而在人機(jī)交互的場(chǎng)景下,通過對(duì)用戶肢體語言的理解,可以使機(jī)器與人的交流變得更加自然流暢,提升用戶體驗(yàn)。然而,人類行為本身具備極高的復(fù)雜性和多樣性,加上實(shí)際環(huán)境中存在的各種不確定因素,這使得實(shí)現(xiàn)高精度的動(dòng)作識(shí)別面臨巨大挑戰(zhàn)。傳統(tǒng)基于規(guī)則或特征提取的計(jì)算機(jī)視覺方法,在面對(duì)那些外觀相似但意義不同的復(fù)雜動(dòng)作時(shí)往往顯得力不從心,難以達(dá)到實(shí)際需求的標(biāo)準(zhǔn)。幸運(yùn)的是,隨著深度學(xué)習(xí)算法特別是像clip這樣的視覺-語言預(yù)訓(xùn)練模型的發(fā)展,為解決這一難題帶來了新的希望。這類先進(jìn)的工具不僅能夠更深層次地理解和解釋圖像內(nèi)容背后的語義含義,還能夠在處理動(dòng)態(tài)場(chǎng)景下的細(xì)微變化方面表現(xiàn)出色。因此,借助這些前沿的技術(shù)手段來進(jìn)行動(dòng)作識(shí)別,不僅可以大幅度提高識(shí)別精度,還能在多個(gè)行業(yè)領(lǐng)域內(nèi)推動(dòng)效率提升與體驗(yàn)優(yōu)化,從而開啟了一個(gè)充滿無限可能的新時(shí)代。

    2、當(dāng)前,動(dòng)作識(shí)別領(lǐng)域面臨的一個(gè)主要挑戰(zhàn)是如何有效地捕捉復(fù)雜動(dòng)作中的細(xì)微差別。許多動(dòng)作在外觀上極為相似,特別是在動(dòng)態(tài)場(chǎng)景下,這種相似性更加明顯。以體育賽事中的“抓舉”和“挺舉”這兩種經(jīng)典的舉重動(dòng)作為例,盡管它們?cè)谧罱K效果上都是將杠鈴舉過頭頂,但在具體的執(zhí)行過程中卻存在顯著的差異,尤其是在手臂的動(dòng)作表現(xiàn)上。這些差異體現(xiàn)在動(dòng)作的具體步驟、身體不同部位的發(fā)力點(diǎn)以及時(shí)間節(jié)奏等方面。對(duì)于“抓舉”來說,運(yùn)動(dòng)員需要快速地將杠鈴從地面拉起到肩部高度,然后迅速完成翻轉(zhuǎn)并鎖定位置;而“挺舉”則要求運(yùn)動(dòng)員先將杠鈴置于胸前,隨后通過腿部爆發(fā)力將其推舉至空中。因此,準(zhǔn)確地區(qū)分這兩種動(dòng)作不僅對(duì)運(yùn)動(dòng)員的技術(shù)分析至關(guān)重要,也對(duì)提升動(dòng)作識(shí)別算法的精度提出了更高的要求。遺憾的是,現(xiàn)有的大多數(shù)動(dòng)作識(shí)別方法傾向于采用全局圖像分析的方式,這種方式往往忽略了執(zhí)行特定動(dòng)作時(shí)身體各個(gè)部分(特別是手臂)的細(xì)微變化。這樣的粗粒度分析可能導(dǎo)致模型難以精確捕捉到那些細(xì)微但關(guān)鍵的動(dòng)作特征,從而造成分類上的混淆。


    技術(shù)實(shí)現(xiàn)思路

    1、為了克服上述現(xiàn)有為解決以上現(xiàn)有技術(shù)問題,本專利技術(shù)提出了一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,該方法步驟包括:

    2、s1:接收動(dòng)作視頻作為原始輸入數(shù)據(jù),對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列,將抽取的圖像序列作為后續(xù)處理的輸入數(shù)據(jù);

    3、s2:教師模型首先對(duì)輸入圖像進(jìn)行身體部位分割,將分割后的圖像和自動(dòng)生成的對(duì)應(yīng)文本描述輸入clip模型,獲取每個(gè)身體部位的圖像特征、文本特征和類別得分;

    4、s3:教師模型接著通過部位級(jí)別融合網(wǎng)絡(luò)將s2中獲得的各個(gè)身體部位的特征和得分進(jìn)行整合,得到最終的教師圖像特征、教師文本特征和教師類別得分;

    5、s4:學(xué)生模型將輸入圖像與可學(xué)習(xí)視覺提示連接,將自動(dòng)生成的文本描述與可學(xué)習(xí)文本提示連接,輸入clip模型獲取學(xué)生圖像特征、學(xué)生文本特征和學(xué)生類別得分;

    6、s5:利用知識(shí)蒸餾將教師特征與學(xué)生特征對(duì)齊以及教師類別得分與學(xué)生類別得分對(duì)齊,使學(xué)生模型學(xué)習(xí)教師模型的知識(shí)表示和分類能力;

    7、s6:結(jié)合知識(shí)蒸餾損失和分類任務(wù)損失,對(duì)學(xué)生模型進(jìn)行聯(lián)合優(yōu)化;

    8、s7:利用優(yōu)化后的學(xué)生模型對(duì)輸入的動(dòng)作視頻進(jìn)行分類,計(jì)算動(dòng)作類別概率分布,根據(jù)計(jì)算得到的概率分布,確定并輸出最可能的動(dòng)作類別作為識(shí)別結(jié)果。

    9、進(jìn)一步的,步驟s1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。

    10、進(jìn)一步的,步驟s2的具體實(shí)現(xiàn)包括:

    11、s21:根據(jù)數(shù)據(jù)集標(biāo)注獲取輸入圖像的每個(gè)主要身體部位的邊界框坐標(biāo),主要身體部位包括頭部、左右胳膊、左右手臂、軀干、左右腿部、左右腳部,根據(jù)這些邊界框坐標(biāo)對(duì)原始圖像進(jìn)行裁剪,得到這十個(gè)身體部位子圖像;將每個(gè)子圖像進(jìn)行大小調(diào)整,并保持3個(gè)顏色通道;

    12、s22:基于輸入圖像自動(dòng)生成對(duì)應(yīng)的文本描述,這個(gè)文本描述概括了圖像中的動(dòng)作內(nèi)容,生成的文本描述遵循以下模板:{人物的[身體部位名稱]在[動(dòng)作名稱]中[部位動(dòng)作]};

    13、s23:將預(yù)處理后的身體部位子圖像和生成的文本描述分別輸入到預(yù)訓(xùn)練的clip模型中得到每個(gè)身體部位的圖像特征vpart、文本特征tpart和類別得分logitspart。

    14、進(jìn)一步的,所述clip模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的vision?transformer(vit)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一個(gè)基于transformer的文本處理模型,用于生成豐富的文本特征表示。

    15、進(jìn)一步的,步驟s3的具體實(shí)現(xiàn)包括:

    16、s31:將步驟s2中獲得的各個(gè)身體部位的圖像特征vpart輸入到mlp網(wǎng)絡(luò)中進(jìn)行融合,這個(gè)mlp網(wǎng)絡(luò)學(xué)習(xí)不同身體部位特征之間的關(guān)系,并生成一個(gè)綜合的教師圖像特征vteacher;

    17、s32:將步驟s2中獲得各個(gè)身體部位的文本特征tpart也輸入到另一個(gè)mlp網(wǎng)絡(luò)中進(jìn)行處理,最終得到一個(gè)全面的教師文本特征tteacher;

    18、s33:對(duì)于類別得分,采用加權(quán)平均的方法進(jìn)行融合,這個(gè)過程為每個(gè)身體部位的類別得分logitspart分配一個(gè)權(quán)重,得到最終的教師類別得分logitsteacher。

    19、進(jìn)一步的,步驟s4的具體實(shí)現(xiàn)包括:

    20、s41:將輸入的原始圖像與預(yù)先設(shè)計(jì)的可學(xué)習(xí)視覺提示進(jìn)行拼接,拼接后的圖像包含了原始信息和額外的視覺線索,得到增強(qiáng)后的圖像;

    21、s42:基于輸入圖像,生成對(duì)應(yīng)的簡潔文本描述,遵循模板:一張{動(dòng)作}的照片;然后,將這個(gè)生成的文本與可學(xué)習(xí)的文本提示進(jìn)行連接,得到增強(qiáng)后的文本;

    22、s43:將增強(qiáng)后的圖像和文本分別輸入到與教師模型共享權(quán)重的clip模型中,clip模型使用其圖像編碼器處理增強(qiáng)后的圖像,使用文本編碼器處理增強(qiáng)后的文本,得到學(xué)生圖像特征vstudent,學(xué)生文本特征tstudent,學(xué)生類別得分logitsstudent。

    23、進(jìn)一步的,步驟s5中的知識(shí)蒸餾包括:

    24、s51:通過最小化教師圖像特征vteacher和學(xué)生圖像特征vstudent之間的l1損失來實(shí)現(xiàn)知識(shí)遷移;

    25、lossimage=‖vstudent-vteacher‖...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。

    3.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S2的具體實(shí)現(xiàn)包括:

    4.根據(jù)權(quán)利要求3所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:所述CLIP模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的Vision?Transformer(ViT)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一個(gè)基于Transformer的文本處理模型,用于生成豐富的文本特征表示。

    5.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S3的具體實(shí)現(xiàn)包括:

    6.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S4的具體實(shí)現(xiàn)包括:

    7.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S5中的知識(shí)蒸餾包括:

    8.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S6的具體實(shí)現(xiàn)包括:

    9.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別系統(tǒng),其特征在于,包括:

    ...

    【技術(shù)特征摘要】

    1.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟s1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。

    3.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟s2的具體實(shí)現(xiàn)包括:

    4.根據(jù)權(quán)利要求3所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:所述clip模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的vision?transformer(vit)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:歐陽君,施霄,張自力
    申請(qǐng)(專利權(quán))人:武漢紡織大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩中文无码久久| 成人无码视频97免费| 亚洲精品无码久久久久牙蜜区| 无码国产精品一区二区免费I6 | 影音先锋无码a∨男人资源站| 国产又爽又黄无码无遮挡在线观看 | 久青草无码视频在线观看| 免费无码又爽又刺激高潮视频| 无码国模国产在线无码精品国产自在久国产| 亚洲精品无码AV中文字幕电影网站| 无码人妻精品一区二区三区东京热 | 久久中文字幕无码一区二区| 亚洲AV无码成人精品区在线观看| 一级毛片中出无码| 精品久久久无码人妻字幂| 无码粉嫩小泬无套在线观看| 国产AV无码专区亚洲A∨毛片| 五十路熟妇高熟无码视频| 亚洲av永久无码天堂网| 亚洲av永久无码嘿嘿嘿| 亚洲av无码一区二区三区乱子伦| 亚洲成av人片不卡无码久久| 无码任你躁久久久久久| 亚洲精品久久无码| 综合无码一区二区三区四区五区| 亚洲A∨无码一区二区三区| 国产精品无码无卡在线播放| 国产成年无码AV片在线韩国| r级无码视频在线观看| 国产午夜无码片免费| 日韩精品无码免费专区午夜 | 本道天堂成在人线av无码免费| 国产在线无码视频一区| 亚洲AV无码乱码在线观看牲色| 自慰系列无码专区| 亚洲韩国精品无码一区二区三区| 国产激情无码一区二区app| 无码一区二区三区视频| 久久精品无码专区免费青青| 99国产精品无码| 精品无码久久久久久久久 |