一種基于CNN與BERT模型的英文語法糾錯方法
基本信息

| 申請?zhí)?/td> | CN201910085507.4 | 申請日 | - |
| 公開(公告)號 | CN111507092A | 公開(公告)日 | 2020-08-07 |
| 申請公布號 | CN111507092A | 申請公布日 | 2020-08-07 |
| 分類號 | G06F40/232;G06N3/04;G06N3/08 | 分類 | - |
| 發(fā)明人 | 馬士成;賈艷明 | 申請(專利權)人 | 北京博智天下信息技術有限公司 |
| 代理機構 | - | 代理人 | - |
| 地址 | 100085 北京市海淀區(qū)信息路甲28號D座05A502號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 英文語法糾錯是自然語言處理領域中的一個重要研究方向。傳統(tǒng)的語法糾錯系統(tǒng)多基于規(guī)則判斷,能夠檢測出的錯誤種類有限,擴展能力差?,F(xiàn)有的基于循環(huán)神經網絡的語法糾錯系統(tǒng)在面對長句子時,容易丟失頭尾的信息,且由于無法并行提取特征,致使訓練周期長。本發(fā)明提供了一種基于CNN與BERT模型的英文語法糾錯方法。模型采用了CNN+Attention+BERT結構,實現(xiàn)方式采用了Encoder?Decoder框架。通過卷積,能夠高效并準確地提取上下文的特征;Attention層為不同的單詞增加的權重,使得模型可以學到更重要的特征;BERT采用了Masked Language Model的方式來訓練語言模型,通過fine?tuning可以為其添加(0,1)分類任務,用于為糾錯系統(tǒng)輸出的句子評分,提高系統(tǒng)準確度。 |





