一種將文本轉(zhuǎn)換成語音的方法、系統(tǒng)、裝置和存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202010079855.3 申請日 -
公開(公告)號 CN111145720B 公開(公告)日 2022-06-21
申請公布號 CN111145720B 申請公布日 2022-06-21
分類號 G10L13/02;G10L13/033;G10L25/24;G10L25/03;G10L25/30;G10L25/60 分類 樂器;聲學;
發(fā)明人 葉俊杰;李權(quán);王倫基;黃桂芳;任勇;韓藍青 申請(專利權(quán))人 清華珠三角研究院
代理機構(gòu) 廣州嘉權(quán)專利商標事務所有限公司 代理人 何文聰
地址 510530 廣東省廣州市黃埔區(qū)香雪八路98號香雪國際公寓F棟
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種將文本轉(zhuǎn)換成語音的方法、系統(tǒng)、裝置和存儲介質(zhì),所述方法包括獲取測試文本和待遷移語音,獲取所述測試文本的發(fā)音編碼,使用經(jīng)過訓練的語音風格編碼器,獲取所述待遷移語音的風格編碼,將所述發(fā)音編碼和風格編碼進行拼接,以及使用語音解碼器對所述拼接的結(jié)果進行解碼從而獲得語音等步驟。通過使用語音風格編碼器,可以提取待遷移語音的風格,然后將其融入到測試文本的發(fā)音中,使得最終獲得的語音具有與測試文本相同的內(nèi)容,以及與待遷移語音相同的風格,實現(xiàn)從文本到具有一定風格的語音的轉(zhuǎn)換。并且,本發(fā)明可以較低成本取得訓練集,用于對所述語音風格編碼器進行訓練,從而降低使用成本。本發(fā)明廣泛應用于語音數(shù)據(jù)技術(shù)領(lǐng)域。