一種針對多說話人的單通道語音分離方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202110173700.0 | 申請日 | - |
| 公開(公告)號 | CN113053407A | 公開(公告)日 | 2021-06-29 |
| 申請公布號 | CN113053407A | 申請公布日 | 2021-06-29 |
| 分類號 | G10L21/0272;G10L21/0308;G10L25/30 | 分類 | 樂器;聲學; |
| 發(fā)明人 | 史慧宇;歐陽鵬 | 申請(專利權)人 | 南京蘊智科技有限公司 |
| 代理機構 | 北京索睿邦知識產(chǎn)權代理有限公司 | 代理人 | 李根 |
| 地址 | 211100 江蘇省南京市江寧區(qū)麒麟科技創(chuàng)新園創(chuàng)研路266號人工智能產(chǎn)業(yè)園8號樓4樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供針對多說話人的單通道語音分離方法,其包括:構建語音分離深度神經(jīng)網(wǎng)絡;獲取第一編碼、第二編碼和第三編碼;通過解卷積層解碼第一編碼及第三編碼獲取多個輸出通道的語音分離信號;對語音分離深度神經(jīng)網(wǎng)絡有監(jiān)督的訓練,以獲得訓練后的語音分離深度神經(jīng)網(wǎng)絡;將待測試語音樣本輸入到訓練后的語音分離深度神經(jīng)網(wǎng)絡中,獲取待測試語音樣本中多個語音分離信號。本發(fā)明通過分離網(wǎng)絡的音素附加輸入和注意力機制可增加網(wǎng)絡對語音信號分離的依據(jù),相比原有方法可有效提高語音輸出的準確性,降低語音的失真率,提高可懂度。同時,本發(fā)明還提供了針對多說話人的單通道語音分離系統(tǒng)。 |





