利用幀-字幕自監(jiān)督進(jìn)行多模態(tài)視頻問(wèn)答的方法

基本信息

申請(qǐng)?zhí)?/td> CN202110017595.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112860945B 公開(kāi)(公告)日 2022-07-08
申請(qǐng)公布號(hào) CN112860945B 申請(qǐng)公布日 2022-07-08
分類號(hào) G06F16/783(2019.01)I;G06V10/80(2022.01)I;G06V10/82(2022.01)I;G06V10/771(2022.01)I;G06K9/62(2022.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張宏達(dá);胡若云;沈然;葉上維;丁麒;王慶娟;陳金威;熊劍峰;丁瑩;趙洲;陳哲乾;李一夫;丁丹翔;姜偉昊 申請(qǐng)(專利權(quán))人 國(guó)網(wǎng)浙江省電力有限公司
代理機(jī)構(gòu) 杭州華鼎知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 310000浙江省杭州市黃龍路8號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于視頻問(wèn)答領(lǐng)域,具體涉及利用幀?字幕自監(jiān)督進(jìn)行多模態(tài)視頻問(wèn)答的方法。包括以下步驟:提取視頻幀特征、問(wèn)答特征、字幕特征、字幕建議特征;得到帶注意力幀特征、帶注意力字幕特征,得到融合特征;基于融合特征計(jì)算得到時(shí)間注意力得分;利用時(shí)間注意力得分計(jì)算得到問(wèn)題的時(shí)間邊界;利用融合特征與時(shí)間注意力得分計(jì)算得到問(wèn)題答案;利用問(wèn)題的時(shí)間邊界和問(wèn)題答案訓(xùn)練神經(jīng)網(wǎng)絡(luò);優(yōu)化神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),利用最優(yōu)神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻問(wèn)答并劃定時(shí)間邊界。本發(fā)明沒(méi)有使用標(biāo)注代價(jià)昂貴的時(shí)間標(biāo)注,而是根據(jù)自行設(shè)計(jì)的時(shí)間注意分?jǐn)?shù)生成問(wèn)題相關(guān)的時(shí)間邊界。另外本發(fā)明通過(guò)挖掘字幕與對(duì)應(yīng)視頻內(nèi)容之間的聯(lián)系,得到更為精準(zhǔn)的答案。