融合表情信息的密集視頻描述方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202210257432.5 申請(qǐng)日 -
公開(公告)號(hào) CN114694062A 公開(公告)日 2022-07-01
申請(qǐng)公布號(hào) CN114694062A 申請(qǐng)公布日 2022-07-01
分類號(hào) G06V20/40(2022.01)I;G06V40/20(2022.01)I;G06V10/764(2022.01)I;G06V10/80(2022.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 劉波;王陶然;汪銘;胡明芮;曹玖新 申請(qǐng)(專利權(quán))人 東南大學(xué)
代理機(jī)構(gòu) 南京眾聯(lián)專利代理有限公司 代理人 -
地址 210096江蘇省南京市玄武區(qū)四牌樓2號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種融合表情信息的密集視頻描述方法及系統(tǒng),本發(fā)明的方法步驟如下:首先利用預(yù)訓(xùn)練好的I3D模型和InceptionV3模型分別提取視頻的動(dòng)態(tài)特征和行為類別特征;再基于視頻上下文截取若干可能存在行為的視頻片段,并為其各生成描述性文本;之后根據(jù)視頻片段的視覺和文本信息,對(duì)候選人物的行為進(jìn)行識(shí)別和跟蹤;根據(jù)視覺和音頻信息,預(yù)測(cè)行為主體表情類別;根據(jù)文本和表情信息,構(gòu)建模型,生成融合表情信息的密集視頻描述。系統(tǒng)采用web交互技術(shù)實(shí)現(xiàn)描述生成結(jié)果的可視化展示。本發(fā)明可以有效提高生成描述的準(zhǔn)確性及豐富性,魯棒性強(qiáng)。此外,結(jié)合語音合成等技術(shù),本發(fā)明還能幫助視障人士較好的理解視頻。