語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202011609527.6 申請(qǐng)日 -
公開(公告)號(hào) CN112750446A 公開(公告)日 2021-05-04
申請(qǐng)公布號(hào) CN112750446A 申請(qǐng)公布日 2021-05-04
分類號(hào) G10L21/013;G10L25/27 分類 樂器;聲學(xué);
發(fā)明人 武劍桃;李秀林 申請(qǐng)(專利權(quán))人 標(biāo)貝(北京)科技有限公司
代理機(jī)構(gòu) 北京睿邦知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 徐丁峰;戴亞南
地址 100192 北京市海淀區(qū)西小口路66號(hào)中關(guān)村東升科技園·北領(lǐng)地B-2號(hào)樓2層A203A(東升地區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種語音轉(zhuǎn)換方法、裝置和系統(tǒng)及存儲(chǔ)介質(zhì)。方法包括:獲取源說話者的源語音;對(duì)源語音進(jìn)行特征提取;將源識(shí)別聲學(xué)特征輸入語音識(shí)別模型,以獲得源說話者的語音后驗(yàn)概率;將多個(gè)時(shí)間幀中的至少部分時(shí)間幀所對(duì)應(yīng)的后驗(yàn)概率向量輸入特征轉(zhuǎn)換模型,以獲得目標(biāo)合成聲學(xué)特征,目標(biāo)合成聲學(xué)特征包括與至少部分時(shí)間幀一一對(duì)應(yīng)的合成聲學(xué)特征向量,至少部分時(shí)間幀包括多個(gè)時(shí)間幀中的所有有效時(shí)間幀;基于有效聲學(xué)特征進(jìn)行語音合成,以獲得目標(biāo)說話者的有效語音;語音識(shí)別模型或特征轉(zhuǎn)換模型還輸出源音頻狀態(tài)信息,多個(gè)時(shí)間幀中的每個(gè)時(shí)間幀屬于有效時(shí)間幀還是無效時(shí)間幀基于源音頻狀態(tài)信息確定。這種聯(lián)合建模的方式可有效提升語音轉(zhuǎn)換的實(shí)時(shí)性。