一種錯(cuò)別字符處理方法和系統(tǒng)
基本信息

| 申請(qǐng)?zhí)?/td> | CN200910080812.0 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN101847140A | 公開(kāi)(公告)日 | 2010-09-29 |
| 申請(qǐng)公布號(hào) | CN101847140A | 申請(qǐng)公布日 | 2010-09-29 |
| 分類(lèi)號(hào) | G06F17/27(2006.01)I;G06F17/28(2006.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 汪平仄;曹存根;王東升;曹亞男 | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京中科力量智能技術(shù)有限公司 |
| 代理機(jī)構(gòu) | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 地址 | 100190 北京市海淀區(qū)中關(guān)村科學(xué)院南路6號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種錯(cuò)別字符處理方法和系統(tǒng)。該方法包括:步驟A1,根據(jù)錯(cuò)別字符訓(xùn)練集庫(kù),為訓(xùn)練集中每個(gè)正確字符建立其對(duì)應(yīng)的錯(cuò)別字符集合;步驟B1,在含錯(cuò)別字符的大規(guī)模語(yǔ)料庫(kù)中,分別找出包含所述正確字符和錯(cuò)別字符的短語(yǔ)或詞組;步驟C1,找出正確字符和錯(cuò)別字符的對(duì)應(yīng)關(guān)系,建立詞組對(duì)或者短語(yǔ)對(duì);步驟D1,優(yōu)化所述詞組對(duì)或者短語(yǔ)對(duì),將所述詞組對(duì)或者短語(yǔ)對(duì)中重復(fù)表述的詞組對(duì)或者短語(yǔ)對(duì)篩選掉,得到所述正確字符相應(yīng)的錯(cuò)別字符的詞組對(duì)或者短語(yǔ)對(duì);步驟E1,將所述正確字符相應(yīng)的錯(cuò)別字符的詞組對(duì)或者短語(yǔ)對(duì)加入到所述正確字符的錯(cuò)別字符詞典。其能夠識(shí)別錯(cuò)別字符詞組或者短語(yǔ),并建立錯(cuò)別字符詞典,從而提高錯(cuò)別字符詞典的生成效率。 |





