基于連接時序分類和自注意力機制的端到端語音識別方法

基本信息

申請?zhí)?/td> CN202011101902.6 申請日 -
公開(公告)號 CN112509564A 公開(公告)日 2021-03-16
申請公布號 CN112509564A 申請公布日 2021-03-16
分類號 G10L15/183(2013.01)I;G10L15/02(2006.01)I;G10L15/06(2013.01)I;G10L15/08(2006.01)I 分類 樂器;聲學;
發(fā)明人 龐偉;王亮;陸生禮;狄敏;姚志強 申請(專利權(quán))人 江蘇南大電子信息技術(shù)股份有限公司
代理機構(gòu) 南京瑞弘專利商標事務所(普通合伙) 代理人 彭雄
地址 210019江蘇省南京市建鄴區(qū)嘉陵江東街18號06棟7層
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于連接時序分類和自注意力機制的端到端語音識別方法,使用連接時序分類CTC和自注意力機制SA混合機制對英文單詞或漢字直接進行建模,無需前處理或后處理,輸出結(jié)果直接對應正確的英文序列或漢字序列。該方法共享同一個編碼器網(wǎng)絡,編碼器的輸出使用CTC訓練準則,同時編碼器的輸出也作為解碼器的輸入,實現(xiàn)編碼器與解碼器之間的注意力關系,解碼器使用交叉熵訓練準則進行訓練,最后以加權(quán)的方式賦予兩種訓練準則分配不同的權(quán)重。本發(fā)明不僅可以加快模型的收斂速度,獲得更加準確的對齊屬性,還可以獲取輸入之間的內(nèi)部聯(lián)系,提升語音識別系統(tǒng)的準確率及魯棒性。??