一種基于音素的中文語(yǔ)音合成系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201810938392.4 申請(qǐng)日 -
公開(公告)號(hào) CN108899009B 公開(公告)日 2020-07-03
申請(qǐng)公布號(hào) CN108899009B 申請(qǐng)公布日 2020-07-03
分類號(hào) G10L13/08;G10L13/10;G10L13/047 分類 -
發(fā)明人 陳宏;房鵬展 申請(qǐng)(專利權(quán))人 百卓網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 代理人 百卓網(wǎng)絡(luò)科技有限公司
地址 210000 江蘇省南京市江北新區(qū)惠達(dá)路6號(hào)北斗大廈2號(hào)樓70室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于音素的中文語(yǔ)音合成方法,其特征在于,包括如下步驟:步驟1,對(duì)文本與音頻進(jìn)行預(yù)處理;步驟2,構(gòu)造音素集;步驟3,利用one?hot將音素序列轉(zhuǎn)化為字ID,訓(xùn)練生成轉(zhuǎn)詞向量,通過(guò)基于encoder?decoder的Seq2Seq的結(jié)構(gòu)生成頻譜序列特征;步驟4,結(jié)合頻譜序列與音頻的語(yǔ)音信息,由聲碼器合成語(yǔ)音;步驟5,合成的音頻分別去除尾部靜音,按一定順序?qū)⒁纛l進(jìn)行拼接。本方法合成的語(yǔ)音更加貼近于真人發(fā)音,以及在區(qū)分多音字與確定停頓位置上較傳統(tǒng)的都有很大提升,最主要的是合成的準(zhǔn)確率可以達(dá)到95%以上。