一種提高語音命令詞識別性能的神經網絡訓練方法

基本信息

申請?zhí)?/td> CN202011042026.4 申請日 -
公開(公告)號 CN112233655A 公開(公告)日 2021-01-15
申請公布號 CN112233655A 申請公布日 2021-01-15
分類號 G10L15/02(2006.01)I 分類 樂器;聲學;
發(fā)明人 宋昱;蔡洪斌;黃樂凱;葉劍豪;何昕 申請(專利權)人 上海聲瀚信息科技有限公司
代理機構 北京化育知識產權代理有限公司 代理人 上海聲瀚信息科技有限公司
地址 200120上海市浦東新區(qū)中國(上海)自由貿易試驗區(qū)納賢路800號1幢A座608室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種提高語音命令詞識別性能的神經網絡訓練方法,本訓練方法的目標神經網絡采用的輸入為從原始音頻中提取的N維特征值,輸出為M維音素標簽,訓練采用CTC Loss作為最終優(yōu)化目標;本發(fā)明提供的一種提高語音命令詞識別性能的神經網絡訓練方法,訓練過程中,定期根據中間神經網絡模型在驗證集上測試結果,動態(tài)調整不同命令詞對權重的貢獻,從而使命令詞識別結果的相對均衡;通過在命令詞識別標簽中加入字邊界標簽,進一步提高命令詞的識別率,降低誤觸的發(fā)生。??