一種行為識別方法、電子設備及存儲介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202210284756.8 | 申請日 | - |
| 公開(公告)號 | CN114724240A | 公開(公告)日 | 2022-07-08 |
| 申請公布號 | CN114724240A | 申請公布日 | 2022-07-08 |
| 分類號 | G06V40/20(2022.01)I;G06V20/40(2022.01)I;G06V20/62(2022.01)I;G06V10/774(2022.01)I;G06V10/764(2022.01)I;G06V10/82(2022.01)I;G06K9/62(2022.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 楊帆;馮帥;白立群;胡建國 | 申請(專利權(quán))人 | 小視科技(江蘇)股份有限公司 |
| 代理機構(gòu) | 北京德崇智捷知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
| 地址 | 210000江蘇省南京市江寧區(qū)高新園龍眠大道568號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種行為識別方法、電子設備及存儲介質(zhì),其中行為識別方法包括:獲取已標注和未標注數(shù)據(jù),并分別對獲取的已標注和未標注數(shù)據(jù)進行預處理;構(gòu)建大模型和小模型,使用大模型對小模型進行蒸餾訓練;大模型采用第一編碼器和解碼器結(jié)構(gòu),包含五個分支,分別為文本特征分支、音頻特征分支、視頻幀預測分支、分類器分支以及視頻序列對比學習分支;小模型蒸餾部分僅由第二編碼器構(gòu)成,通過大模型蒸餾訓練第二編碼器的參數(shù);采用訓練獲得的大模型和/或小模型,對行為進行識別。使用音頻、文本及視頻幀等多模態(tài)信息產(chǎn)生優(yōu)化目標,為模型做監(jiān)督,使得預訓練網(wǎng)絡具有更加均衡的特征提取能力,可以高效的應用于下游的子任務中。 |





