聯(lián)結(jié)主義時間分類和截斷式注意力聯(lián)合在線語音識別技術(shù)

基本信息

申請?zhí)?/td> CN202010106791.1 申請日 -
公開(公告)號 CN111179918A 公開(公告)日 2020-05-19
申請公布號 CN111179918A 申請公布日 2020-05-19
分類號 G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30 分類 樂器;聲學;
發(fā)明人 張鵬遠;繆浩然;程高峰;顏永紅 申請(專利權(quán))人 中科信利(廣州)技術(shù)有限公司
代理機構(gòu) 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 中國科學院聲學研究所;中科信利(廣州)技術(shù)有限公司
地址 100190 北京市海淀區(qū)北四環(huán)西路21號
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例提供了一種聯(lián)結(jié)主義時間分類和截斷式注意力聯(lián)合在線語音識別技術(shù)。構(gòu)建了基于編碼器、解碼器、截斷式注意力和聯(lián)結(jié)主義時間分類器的語音識別神經(jīng)網(wǎng)絡(luò)模型,采用交叉熵準則和聯(lián)結(jié)主義時間分類準則訓練該神經(jīng)網(wǎng)絡(luò)模型;將語音流輸入解碼器,將存留的漢字序列輸入編碼器,利用截斷式注意力機制截取有效的語音片段;根據(jù)截取的語音片段,對每條存留的漢字序列預測多個漢字,并于之構(gòu)成一個新的漢字序列,并評分;聯(lián)結(jié)主義時間分類器將解碼拓展的多組漢字序列和已接收的語音對齊,并評分;對兩種評分取平均,對各漢字序列進行剪枝;當滿足終止條件時輸出識別結(jié)果。該方法很大程度提升在線語音識別的性能。