聯(lián)結(jié)主義時間分類和截斷式注意力聯(lián)合在線語音識別技術(shù)
基本信息

| 申請?zhí)?/td> | CN202010106791.1 | 申請日 | - |
| 公開(公告)號 | CN111179918A | 公開(公告)日 | 2020-05-19 |
| 申請公布號 | CN111179918A | 申請公布日 | 2020-05-19 |
| 分類號 | G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30 | 分類 | 樂器;聲學; |
| 發(fā)明人 | 張鵬遠;繆浩然;程高峰;顏永紅 | 申請(專利權(quán))人 | 中科信利(廣州)技術(shù)有限公司 |
| 代理機構(gòu) | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 中國科學院聲學研究所;中科信利(廣州)技術(shù)有限公司 |
| 地址 | 100190 北京市海淀區(qū)北四環(huán)西路21號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明實施例提供了一種聯(lián)結(jié)主義時間分類和截斷式注意力聯(lián)合在線語音識別技術(shù)。構(gòu)建了基于編碼器、解碼器、截斷式注意力和聯(lián)結(jié)主義時間分類器的語音識別神經(jīng)網(wǎng)絡(luò)模型,采用交叉熵準則和聯(lián)結(jié)主義時間分類準則訓練該神經(jīng)網(wǎng)絡(luò)模型;將語音流輸入解碼器,將存留的漢字序列輸入編碼器,利用截斷式注意力機制截取有效的語音片段;根據(jù)截取的語音片段,對每條存留的漢字序列預測多個漢字,并于之構(gòu)成一個新的漢字序列,并評分;聯(lián)結(jié)主義時間分類器將解碼拓展的多組漢字序列和已接收的語音對齊,并評分;對兩種評分取平均,對各漢字序列進行剪枝;當滿足終止條件時輸出識別結(jié)果。該方法很大程度提升在線語音識別的性能。 |





