人聲激活檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110425564.X 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113113001A 公開(kāi)(公告)日 2021-07-13
申請(qǐng)公布號(hào) CN113113001A 申請(qǐng)公布日 2021-07-13
分類(lèi)號(hào) G10L15/16(2006.01)I;G10L21/0272(2013.01)I 分類(lèi) 樂(lè)器;聲學(xué);
發(fā)明人 徐泓洋;王廣新;楊漢丹 申請(qǐng)(專(zhuān)利權(quán))人 深圳市友杰智新科技有限公司
代理機(jī)構(gòu) 深圳市明日今典知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 王杰輝;曹勇
地址 518000廣東省深圳市南山區(qū)招商街道蛇口南海大道1079號(hào)花園城數(shù)碼大廈A座402
法律狀態(tài) -

摘要

摘要 本申請(qǐng)?zhí)峁┮环N人聲激活檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),其中方法包括:實(shí)時(shí)采集語(yǔ)音數(shù)據(jù);提取所述語(yǔ)音數(shù)據(jù)中每一幀音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征向量;依序?qū)㈩A(yù)設(shè)幀音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征向量輸入至預(yù)設(shè)的人聲激活檢測(cè)模型中;其中,所述預(yù)設(shè)的人聲激活檢測(cè)模型基于時(shí)延神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,輸入的所述預(yù)設(shè)幀音頻數(shù)據(jù)對(duì)應(yīng)的語(yǔ)音特征向量包括當(dāng)前幀及其上下文的多幀音頻數(shù)據(jù)分別對(duì)應(yīng)的語(yǔ)音特征向量;基于所述人聲激活檢測(cè)模型,檢測(cè)所述預(yù)設(shè)幀音頻數(shù)據(jù)中是否包括人聲。本申請(qǐng)基于時(shí)延神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的人聲激活檢測(cè)模型檢測(cè)人聲,不僅檢測(cè)速度快,且模型結(jié)合了當(dāng)前幀及其上下文的語(yǔ)音,檢測(cè)效果好。