一種基于空洞卷積神經網絡的端到端語種識別分類方法

基本信息

申請?zhí)?/td> CN202010247070.2 申請日 -
公開(公告)號 CN113539238A 公開(公告)日 2021-10-22
申請公布號 CN113539238A 申請公布日 2021-10-22
分類號 G10L15/00;G10L15/06;G10L15/16;G10L25/03;G10L25/24;G10L25/30 分類 樂器;聲學;
發(fā)明人 張鵬遠;苗曉曉;王文超;顏永紅 申請(專利權)人 北京中科信利技術有限公司
代理機構 北京億騰知識產權代理事務所(普通合伙) 代理人 陳霽
地址 100190 北京市海淀區(qū)北四環(huán)西路21號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于空洞卷積神經網絡的端到端語種識別分類方法,包括:待訓練語種識別網絡接收,并對訓練語音中提取的幀級別聲學底層特征進行至少一層空洞卷積后,輸出訓練語音后驗概率;將訓練語音后驗概率與真實類別標簽的最小均方誤差作為待訓練語種識別網絡的損失函數,通過減小優(yōu)化函數的值進行梯度回傳并更新待訓練語種識別網絡的參數,得到訓練后語種識別網絡;提取測試語音的幀級別聲學底層特征;訓練后語種識別網絡接收測試語音的幀級別聲學底層特征,輸出測試語音后驗概率;根據測試語音后驗概率判定測試語音中的至少一個語種類別。在輸出特征圖的分辨率不變的情況下,不降低單個神經元的感受野,弱化語音中的時間信息丟失問題。