融合表情信息的密集視頻描述方法及系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202210257432.5 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN114694062A | 公開(公告)日 | 2022-07-01 |
| 申請(qǐng)公布號(hào) | CN114694062A | 申請(qǐng)公布日 | 2022-07-01 |
| 分類號(hào) | G06V20/40(2022.01)I;G06V40/20(2022.01)I;G06V10/764(2022.01)I;G06V10/80(2022.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 劉波;王陶然;汪銘;胡明芮;曹玖新 | 申請(qǐng)(專利權(quán))人 | 東南大學(xué) |
| 代理機(jī)構(gòu) | 南京眾聯(lián)專利代理有限公司 | 代理人 | - |
| 地址 | 210096江蘇省南京市玄武區(qū)四牌樓2號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種融合表情信息的密集視頻描述方法及系統(tǒng),本發(fā)明的方法步驟如下:首先利用預(yù)訓(xùn)練好的I3D模型和InceptionV3模型分別提取視頻的動(dòng)態(tài)特征和行為類別特征;再基于視頻上下文截取若干可能存在行為的視頻片段,并為其各生成描述性文本;之后根據(jù)視頻片段的視覺和文本信息,對(duì)候選人物的行為進(jìn)行識(shí)別和跟蹤;根據(jù)視覺和音頻信息,預(yù)測(cè)行為主體表情類別;根據(jù)文本和表情信息,構(gòu)建模型,生成融合表情信息的密集視頻描述。系統(tǒng)采用web交互技術(shù)實(shí)現(xiàn)描述生成結(jié)果的可視化展示。本發(fā)明可以有效提高生成描述的準(zhǔn)確性及豐富性,魯棒性強(qiáng)。此外,結(jié)合語音合成等技術(shù),本發(fā)明還能幫助視障人士較好的理解視頻。 |





