語音合成數(shù)據(jù)的質(zhì)檢方法以及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202110562516.5 申請(qǐng)日 -
公開(公告)號(hào) CN113035236B 公開(公告)日 2021-08-27
申請(qǐng)公布號(hào) CN113035236B 申請(qǐng)公布日 2021-08-27
分類號(hào) G10L25/51;G10L15/26;G10L15/16;G10L13/02 分類 樂器;聲學(xué);
發(fā)明人 張晴晴;朱冬;張雪璐;賈艷明 申請(qǐng)(專利權(quán))人 北京愛數(shù)智慧科技有限公司
代理機(jī)構(gòu) 北京智沃律師事務(wù)所 代理人 吳志宏
地址 100088 北京市海淀區(qū)北三環(huán)中路44號(hào)4號(hào)樓4層411
法律狀態(tài) -

摘要

摘要 本申請(qǐng)公開了一種語音合成數(shù)據(jù)的質(zhì)檢方法以及裝置,屬于語音合成領(lǐng)域,質(zhì)檢方法包括:根據(jù)原始文本,使用不同的語音合成方式合成多條目標(biāo)音頻;通過ASR模型對(duì)多條目標(biāo)音頻進(jìn)行識(shí)別,得到各自的識(shí)別文本;在識(shí)別文本與原始文本不一致的情況下,判斷識(shí)別文本對(duì)應(yīng)的目標(biāo)音頻不合格;在識(shí)別文本與原始文本一致的情況下,判斷識(shí)別文本對(duì)應(yīng)的目標(biāo)音頻初步合格;通過端到端的判別模型輸出每個(gè)初步合格的目標(biāo)音頻的對(duì)齊后的音素的概率值;根據(jù)音素的概率值進(jìn)行音素的發(fā)音打分;通過回歸模型將音素的得分轉(zhuǎn)化為相應(yīng)的句子的得分;在句子的得分高于閾值的情況下,判斷句子對(duì)應(yīng)的目標(biāo)音頻合格,并將得分最高的句子對(duì)應(yīng)的目標(biāo)音頻判斷為最佳音頻。