一種實現(xiàn)跨領域的中文文本糾錯方法和系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202110383985.0 | 申請日 | - |
| 公開(公告)號 | CN113076739A | 公開(公告)日 | 2021-07-06 |
| 申請公布號 | CN113076739A | 申請公布日 | 2021-07-06 |
| 分類號 | G06F40/232(2020.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 宋正博;肖龍源;李稀敏;李威 | 申請(專利權)人 | 廈門快商通科技股份有限公司 |
| 代理機構 | 廈門市首創(chuàng)君合專利事務所有限公司 | 代理人 | 連耀忠;王婷婷 |
| 地址 | 361000福建省廈門市軟件園三期誠毅北大街63號1301單元 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供一種實現(xiàn)跨領域的中文文本糾錯方法,包括如下步驟:采用序列標注的檢錯模型結合通用領域的監(jiān)督數(shù)據(jù)訓練模型進行錯誤檢測;通過編輯距離或者Jaccard距離在詞表的拼音庫中進行錯誤找回,獲得錯誤替換集合;將錯誤替換集合中的詞語依次替換錯誤,采用rnnlm語言模型來對替換錯誤后的句子進行困惑度計算,根據(jù)計算的句子困惑度確定錯誤替換集合中正確的詞語,完成中文文本糾錯;本發(fā)明提出一種實現(xiàn)跨領域的中文文本糾錯方法,即一套錯誤檢測→候選召回→糾錯排序的模型,能夠更通用地處理跨領域文本的糾錯問題,通過深度學習訓練的語言模型來召回文本,能夠提升召回文本的困惑度,并且模型相互解耦合,提升了效率。 |





