基于端到端深度學習模型的語音識別方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201810739424.8 申請日 -
公開(公告)號 CN109147766A 公開(公告)日 2019-01-04
申請公布號 CN109147766A 申請公布日 2019-01-04
分類號 G10L15/06;G06N20/00 分類 樂器;聲學;
發(fā)明人 趙明 申請(專利權)人 北京愛醫(yī)聲科技有限公司
代理機構 北京鴻元知識產權代理有限公司 代理人 北京愛醫(yī)聲科技有限公司
地址 100095 北京市海淀區(qū)北清路164號17-27號院154號
法律狀態(tài) -

摘要

摘要 一種基于端到端深度學習模型的語音識別方法,包括以下步驟:把發(fā)音相近的韻母映射到同一個編碼,把發(fā)音相近的聲母映射到同一個編碼,形成規(guī)則映射表;用規(guī)則映射表對語料進行數據編碼,把語料的漢字利用規(guī)則映射表中編碼進行表示;對編碼后的語料使用混合式端到端模型訓練,混合式端到端模型包括“拼音”端到端模型和“音素”端到端模型,得到“拼音”和“音素”聲學模型;用規(guī)則映射表對將要應用的多個詞匯進行編碼,形成詞匯庫;使用聲學模型識別語音;使用編輯距離對比聲學模型輸出的編碼和詞匯庫內詞匯的編碼,找到最小編輯距離,對應的詞匯就是識別結果。本方法提升了系統(tǒng)的識別效率。