語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202011451192.X | 申請日 | - |
| 公開(公告)號 | CN112397048A | 公開(公告)日 | 2021-02-23 |
| 申請公布號 | CN112397048A | 申請公布日 | 2021-02-23 |
| 分類號 | G10L13/02(2013.01)I; | 分類 | 樂器;聲學; |
| 發(fā)明人 | 黃志強;李秀林 | 申請(專利權)人 | 標貝(北京)科技有限公司 |
| 代理機構 | 北京睿邦知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 徐丁峰;戴亞南 |
| 地址 | 100192北京市海淀區(qū)西小口路66號中關村東升科技園·北領地B-2號樓2層A203A(東升地區(qū)) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 提供一種語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)。方法包括:獲取待合成文本的音子序列;將音子序列輸入語音合成模型進行語音合成,以獲得注意力矩陣和用于表示合成語音的聲學參數(shù)序列,語音合成模型是基于注意力機制的序列到序列模型,聲學參數(shù)序列包括與合成語音所包括的n個語音幀集一一對應相關的聲學參數(shù),n個語音幀集中的每個語音幀集包括多個語音幀,注意力矩陣用于表示音子序列與聲學參數(shù)序列之間的相關度,n是大于或等于1的整數(shù);基于注意力矩陣中的元素計算穩(wěn)定性評分,穩(wěn)定性評分用于反映音子序列與聲學參數(shù)序列之間的相關度相對于正常注意力矩陣中的相關度的偏離情況;基于穩(wěn)定性評分確定合成語音的發(fā)音穩(wěn)定性。?? |





