一種語音轉換方法、裝置、電子設備和存儲介質
基本信息

| 申請?zhí)?/td> | CN202110693848.7 | 申請日 | - |
| 公開(公告)號 | CN113421571A | 公開(公告)日 | 2021-09-21 |
| 申請公布號 | CN113421571A | 申請公布日 | 2021-09-21 |
| 分類號 | G10L15/26(2006.01)I;G10L13/08(2013.01)I;G10L13/04(2013.01)I;G10L13/02(2013.01)I | 分類 | 樂器;聲學; |
| 發(fā)明人 | 賀來朋;孫見青;梁家恩 | 申請(專利權)人 | 云知聲智能科技股份有限公司 |
| 代理機構 | - | 代理人 | - |
| 地址 | 100096北京市海淀區(qū)西三旗建材城內1幢一層101號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及一種語音轉換方法、裝置、電子設備和存儲介質,該方法應用于將源發(fā)音人的語音轉換為目標發(fā)音人的語音,包括:獲取源發(fā)音人的語音,根據(jù)源發(fā)音人的語音確定源發(fā)音人的文本;將源發(fā)音人的文本輸入至目標發(fā)音人的語音合成模型和時長強制對齊模型中合成目標發(fā)音人的語音;其中,譜特征預測模塊中包括時長模型以及聲學特征模塊。本申請通過時長強制對齊模型對源發(fā)音人的語音做強制對齊,得到源發(fā)音人的強制對齊時長信息,使用強制對齊的時長信息對時長模型預測的時長做調整,得到調整后的時長信息,并根據(jù)調整后的時長信息合成目標發(fā)音人的語音,使得轉換后語音的語速與輸入語音保持一致,從而使得轉換后語音的發(fā)音風格與源發(fā)音人保持一致。 |





