一種基于拼音特征表征的中文糾錯(cuò)方法及系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110544990.5 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN112966496A | 公開(公告)日 | 2021-06-15 |
| 申請(qǐng)公布號(hào) | CN112966496A | 申請(qǐng)公布日 | 2021-06-15 |
| 分類號(hào) | G06F40/232(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 許振興;曾慶斌;龐洵;朱留鋒 | 申請(qǐng)(專利權(quán))人 | 燈塔財(cái)經(jīng)信息有限公司 |
| 代理機(jī)構(gòu) | 北京集智東方知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 吳倩;龔建蓉 |
| 地址 | 430040湖北省武漢市東西湖區(qū)臺(tái)商投資區(qū)高橋產(chǎn)業(yè)園臺(tái)中大道特1號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出了一種基于拼音特征表征的中文糾錯(cuò)方法及系統(tǒng),其包括如下步驟:S1、構(gòu)建漢字的拼音模糊集以及構(gòu)造含有漢字錯(cuò)別字的中文語句訓(xùn)練樣本;S2、利用上述訓(xùn)練樣本進(jìn)行模型訓(xùn)練;以及S3、提取目標(biāo)中文語句中漢字的漢字字符嵌入序列和拼音字符嵌入序列,并輸入到訓(xùn)練模型中,以得到目標(biāo)中文語句中每個(gè)位置的漢字預(yù)測(cè)結(jié)果,最終獲得糾錯(cuò)后的中文語句。本發(fā)明通過正確漢字和錯(cuò)別字之間以拼音作為媒介的映射關(guān)系來獲得拼音模糊集,并基于混合注意力模塊建立訓(xùn)練模型,以此提高錯(cuò)別字的學(xué)習(xí)效率和預(yù)測(cè)的準(zhǔn)確度。 |





