System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于計(jì)算機(jī)視覺和人工智能領(lǐng)域,特別涉及一種利用細(xì)粒度特征分析、多模態(tài)信息融合以及教師-學(xué)生知識(shí)蒸餾框架的動(dòng)作識(shí)別方法及系統(tǒng)。
技術(shù)介紹
1、隨著人工智能和計(jì)算機(jī)視覺技術(shù)的迅速進(jìn)步,動(dòng)作識(shí)別作為一項(xiàng)關(guān)鍵技術(shù)正逐漸成為研究與應(yīng)用的重點(diǎn)。在當(dāng)今這個(gè)高度數(shù)字化的時(shí)代,視頻數(shù)據(jù)量呈現(xiàn)出爆炸性的增長態(tài)勢(shì),這些數(shù)據(jù)覆蓋了從社交媒體、安防監(jiān)控到醫(yī)療診斷等多個(gè)領(lǐng)域。海量的視頻資料中蘊(yùn)含著豐富的人類行為信息,而準(zhǔn)確地識(shí)別和理解這些行為對(duì)于眾多應(yīng)用場(chǎng)景來說至關(guān)重要。例如,在智能安防系統(tǒng)中,快速且準(zhǔn)確地檢測(cè)異常行為能夠有效預(yù)防犯罪事件的發(fā)生;在醫(yī)療保健領(lǐng)域,通過精確捕捉患者的動(dòng)作可以輔助醫(yī)生進(jìn)行更準(zhǔn)確的診斷以及康復(fù)效果評(píng)估;而在人機(jī)交互的場(chǎng)景下,通過對(duì)用戶肢體語言的理解,可以使機(jī)器與人的交流變得更加自然流暢,提升用戶體驗(yàn)。然而,人類行為本身具備極高的復(fù)雜性和多樣性,加上實(shí)際環(huán)境中存在的各種不確定因素,這使得實(shí)現(xiàn)高精度的動(dòng)作識(shí)別面臨巨大挑戰(zhàn)。傳統(tǒng)基于規(guī)則或特征提取的計(jì)算機(jī)視覺方法,在面對(duì)那些外觀相似但意義不同的復(fù)雜動(dòng)作時(shí)往往顯得力不從心,難以達(dá)到實(shí)際需求的標(biāo)準(zhǔn)。幸運(yùn)的是,隨著深度學(xué)習(xí)算法特別是像clip這樣的視覺-語言預(yù)訓(xùn)練模型的發(fā)展,為解決這一難題帶來了新的希望。這類先進(jìn)的工具不僅能夠更深層次地理解和解釋圖像內(nèi)容背后的語義含義,還能夠在處理動(dòng)態(tài)場(chǎng)景下的細(xì)微變化方面表現(xiàn)出色。因此,借助這些前沿的技術(shù)手段來進(jìn)行動(dòng)作識(shí)別,不僅可以大幅度提高識(shí)別精度,還能在多個(gè)行業(yè)領(lǐng)域內(nèi)推動(dòng)效率提升與體驗(yàn)優(yōu)化,從而開啟了一個(gè)充滿無限可能的新時(shí)代。
2、當(dāng)
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述現(xiàn)有為解決以上現(xiàn)有技術(shù)問題,本專利技術(shù)提出了一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,該方法步驟包括:
2、s1:接收動(dòng)作視頻作為原始輸入數(shù)據(jù),對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列,將抽取的圖像序列作為后續(xù)處理的輸入數(shù)據(jù);
3、s2:教師模型首先對(duì)輸入圖像進(jìn)行身體部位分割,將分割后的圖像和自動(dòng)生成的對(duì)應(yīng)文本描述輸入clip模型,獲取每個(gè)身體部位的圖像特征、文本特征和類別得分;
4、s3:教師模型接著通過部位級(jí)別融合網(wǎng)絡(luò)將s2中獲得的各個(gè)身體部位的特征和得分進(jìn)行整合,得到最終的教師圖像特征、教師文本特征和教師類別得分;
5、s4:學(xué)生模型將輸入圖像與可學(xué)習(xí)視覺提示連接,將自動(dòng)生成的文本描述與可學(xué)習(xí)文本提示連接,輸入clip模型獲取學(xué)生圖像特征、學(xué)生文本特征和學(xué)生類別得分;
6、s5:利用知識(shí)蒸餾將教師特征與學(xué)生特征對(duì)齊以及教師類別得分與學(xué)生類別得分對(duì)齊,使學(xué)生模型學(xué)習(xí)教師模型的知識(shí)表示和分類能力;
7、s6:結(jié)合知識(shí)蒸餾損失和分類任務(wù)損失,對(duì)學(xué)生模型進(jìn)行聯(lián)合優(yōu)化;
8、s7:利用優(yōu)化后的學(xué)生模型對(duì)輸入的動(dòng)作視頻進(jìn)行分類,計(jì)算動(dòng)作類別概率分布,根據(jù)計(jì)算得到的概率分布,確定并輸出最可能的動(dòng)作類別作為識(shí)別結(jié)果。
9、進(jìn)一步的,步驟s1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。
10、進(jìn)一步的,步驟s2的具體實(shí)現(xiàn)包括:
11、s21:根據(jù)數(shù)據(jù)集標(biāo)注獲取輸入圖像的每個(gè)主要身體部位的邊界框坐標(biāo),主要身體部位包括頭部、左右胳膊、左右手臂、軀干、左右腿部、左右腳部,根據(jù)這些邊界框坐標(biāo)對(duì)原始圖像進(jìn)行裁剪,得到這十個(gè)身體部位子圖像;將每個(gè)子圖像進(jìn)行大小調(diào)整,并保持3個(gè)顏色通道;
12、s22:基于輸入圖像自動(dòng)生成對(duì)應(yīng)的文本描述,這個(gè)文本描述概括了圖像中的動(dòng)作內(nèi)容,生成的文本描述遵循以下模板:{人物的[身體部位名稱]在[動(dòng)作名稱]中[部位動(dòng)作]};
13、s23:將預(yù)處理后的身體部位子圖像和生成的文本描述分別輸入到預(yù)訓(xùn)練的clip模型中得到每個(gè)身體部位的圖像特征vpart、文本特征tpart和類別得分logitspart。
14、進(jìn)一步的,所述clip模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的vision?transformer(vit)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一個(gè)基于transformer的文本處理模型,用于生成豐富的文本特征表示。
15、進(jìn)一步的,步驟s3的具體實(shí)現(xiàn)包括:
16、s31:將步驟s2中獲得的各個(gè)身體部位的圖像特征vpart輸入到mlp網(wǎng)絡(luò)中進(jìn)行融合,這個(gè)mlp網(wǎng)絡(luò)學(xué)習(xí)不同身體部位特征之間的關(guān)系,并生成一個(gè)綜合的教師圖像特征vteacher;
17、s32:將步驟s2中獲得各個(gè)身體部位的文本特征tpart也輸入到另一個(gè)mlp網(wǎng)絡(luò)中進(jìn)行處理,最終得到一個(gè)全面的教師文本特征tteacher;
18、s33:對(duì)于類別得分,采用加權(quán)平均的方法進(jìn)行融合,這個(gè)過程為每個(gè)身體部位的類別得分logitspart分配一個(gè)權(quán)重,得到最終的教師類別得分logitsteacher。
19、進(jìn)一步的,步驟s4的具體實(shí)現(xiàn)包括:
20、s41:將輸入的原始圖像與預(yù)先設(shè)計(jì)的可學(xué)習(xí)視覺提示進(jìn)行拼接,拼接后的圖像包含了原始信息和額外的視覺線索,得到增強(qiáng)后的圖像;
21、s42:基于輸入圖像,生成對(duì)應(yīng)的簡潔文本描述,遵循模板:一張{動(dòng)作}的照片;然后,將這個(gè)生成的文本與可學(xué)習(xí)的文本提示進(jìn)行連接,得到增強(qiáng)后的文本;
22、s43:將增強(qiáng)后的圖像和文本分別輸入到與教師模型共享權(quán)重的clip模型中,clip模型使用其圖像編碼器處理增強(qiáng)后的圖像,使用文本編碼器處理增強(qiáng)后的文本,得到學(xué)生圖像特征vstudent,學(xué)生文本特征tstudent,學(xué)生類別得分logitsstudent。
23、進(jìn)一步的,步驟s5中的知識(shí)蒸餾包括:
24、s51:通過最小化教師圖像特征vteacher和學(xué)生圖像特征vstudent之間的l1損失來實(shí)現(xiàn)知識(shí)遷移;
25、lossimage=‖vstudent-vteacher‖本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。
3.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S2的具體實(shí)現(xiàn)包括:
4.根據(jù)權(quán)利要求3所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:所述CLIP模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的Vision?Transformer(ViT)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一個(gè)基于Transformer的文本處理模型,用于生成豐富的文本特征表示。
5.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S3的具體實(shí)現(xiàn)包括:
6.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S4的具體實(shí)現(xiàn)包括:
7.
8.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟S6的具體實(shí)現(xiàn)包括:
9.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別系統(tǒng),其特征在于,包括:
...【技術(shù)特征摘要】
1.一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟s1中通過固定間隔的動(dòng)態(tài)抽幀策略對(duì)輸入視頻進(jìn)行抽幀處理獲取關(guān)鍵幀圖像序列。
3.根據(jù)權(quán)利要求1所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:步驟s2的具體實(shí)現(xiàn)包括:
4.根據(jù)權(quán)利要求3所述的一種基于細(xì)粒度分析和知識(shí)蒸餾的多模態(tài)動(dòng)作識(shí)別方法,其特征在于:所述clip模型包括圖像編碼器和文本編碼器兩個(gè)核心組件,圖像編碼器采用改進(jìn)的vision?transformer(vit)架構(gòu),從而提取出高級(jí)的視覺特征表示;文本編碼器則是一...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:歐陽君,施霄,張自力,
申請(qǐng)(專利權(quán))人:武漢紡織大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。