一種基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)語音識(shí)別方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110599305.9 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN113327585A | 公開(公告)日 | 2021-08-31 |
| 申請(qǐng)公布號(hào) | CN113327585A | 申請(qǐng)公布日 | 2021-08-31 |
| 分類號(hào) | G10L15/02(2006.01)I;G10L15/16(2006.01)I;G10L15/26(2006.01)I;G10L15/00(2013.01)I | 分類 | 樂器;聲學(xué); |
| 發(fā)明人 | 王蒙;付志勇;胡奎;姜黎;潘艾婷 | 申請(qǐng)(專利權(quán))人 | 杭州芯聲智能科技有限公司 |
| 代理機(jī)構(gòu) | 成都知都云專利代理事務(wù)所(普通合伙) | 代理人 | 趙正寅 |
| 地址 | 310000浙江省杭州市杭州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)白楊街道科技園路20號(hào)14幢3層02室-15 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供的一種基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)語音識(shí)別方法,涉及自動(dòng)語音識(shí)別領(lǐng)域。本發(fā)明通過采用Log Fbank作為聲學(xué)特征,只需要40維特征就足夠表達(dá)聲學(xué)信號(hào)的特征,極大的簡化的信號(hào)的處理過程和神經(jīng)網(wǎng)絡(luò)模型的大??;采用VGG加雙向GRU結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,加上GRU可以充分的利用語音前后幀的信息,從而得到最佳的識(shí)別效果。明通過CTC解碼是將連續(xù)的相同結(jié)果合并,去除多余結(jié)果,并通過預(yù)先定義好的拼音列表映射得到識(shí)別出的拼音序列,無需對(duì)齊,免除人工對(duì)齊操作;通過采用隱馬爾科夫語言模型,將拼音序列作為模型輸入,并得到對(duì)應(yīng)的文字識(shí)別結(jié)果;能給出同一個(gè)拼音對(duì)應(yīng)不同文字的最佳識(shí)別結(jié)果,使自動(dòng)語音識(shí)別的準(zhǔn)確性大大提升。 |





