語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011451192.X 申請日 -
公開(公告)號 CN112397048A 公開(公告)日 2021-02-23
申請公布號 CN112397048A 申請公布日 2021-02-23
分類號 G10L13/02(2013.01)I; 分類 樂器;聲學;
發(fā)明人 黃志強;李秀林 申請(專利權)人 標貝(北京)科技有限公司
代理機構 北京睿邦知識產(chǎn)權代理事務所(普通合伙) 代理人 徐丁峰;戴亞南
地址 100192北京市海淀區(qū)西小口路66號中關村東升科技園·北領地B-2號樓2層A203A(東升地區(qū))
法律狀態(tài) -

摘要

摘要 提供一種語音合成的發(fā)音穩(wěn)定性評價方法、裝置和系統(tǒng)及存儲介質(zhì)。方法包括:獲取待合成文本的音子序列;將音子序列輸入語音合成模型進行語音合成,以獲得注意力矩陣和用于表示合成語音的聲學參數(shù)序列,語音合成模型是基于注意力機制的序列到序列模型,聲學參數(shù)序列包括與合成語音所包括的n個語音幀集一一對應相關的聲學參數(shù),n個語音幀集中的每個語音幀集包括多個語音幀,注意力矩陣用于表示音子序列與聲學參數(shù)序列之間的相關度,n是大于或等于1的整數(shù);基于注意力矩陣中的元素計算穩(wěn)定性評分,穩(wěn)定性評分用于反映音子序列與聲學參數(shù)序列之間的相關度相對于正常注意力矩陣中的相關度的偏離情況;基于穩(wěn)定性評分確定合成語音的發(fā)音穩(wěn)定性。??