基于端到端模型的混合語音識別系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN202111041405.6 申請日 -
公開(公告)號 CN113763939A 公開(公告)日 2021-12-07
申請公布號 CN113763939A 申請公布日 2021-12-07
分類號 G10L15/183(2013.01)I;G10L15/06(2013.01)I;G10L15/02(2006.01)I 分類 樂器;聲學;
發(fā)明人 司玉景;李全忠;何國濤;蒲瑤 申請(專利權(quán))人 普強時代(珠海橫琴)信息技術(shù)有限公司
代理機構(gòu) 北京科億知識產(chǎn)權(quán)代理事務所(普通合伙) 代理人 湯東鳳
地址 519000廣東省珠海市橫琴新區(qū)寶華路6號105室-58115(集中辦公區(qū))
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種基于端到端模型的混合語音識別系統(tǒng)及方法,包括特征提取模塊、語言模型、基于端到端模型的聲學模型、解碼器、詞圖重估模塊以及輸出模塊。本發(fā)明采用聲學語言端到端建模技術(shù),對海量語音數(shù)據(jù)進行建模,并將端到端模型的編碼網(wǎng)絡作為聲學模型,嵌入到混合語音識別系統(tǒng)中,不僅進一步提高了語音識別準確率,而且解決了純端到端語音識別系統(tǒng)在項目中難以做定制化的問題。另外,本發(fā)明在端到端模型的編碼網(wǎng)絡的基礎(chǔ)上,繼續(xù)做鑒別性聲學模型訓練(SMBR、MPE等),可以進一步提高識別準確率。