一種錯(cuò)別字符處理方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN200910080812.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN101847140A 公開(kāi)(公告)日 2010-09-29
申請(qǐng)公布號(hào) CN101847140A 申請(qǐng)公布日 2010-09-29
分類(lèi)號(hào) G06F17/27(2006.01)I;G06F17/28(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 汪平仄;曹存根;王東升;曹亞男 申請(qǐng)(專(zhuān)利權(quán))人 北京中科力量智能技術(shù)有限公司
代理機(jī)構(gòu) 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 中國(guó)科學(xué)院計(jì)算技術(shù)研究所
地址 100190 北京市海淀區(qū)中關(guān)村科學(xué)院南路6號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種錯(cuò)別字符處理方法和系統(tǒng)。該方法包括:步驟A1,根據(jù)錯(cuò)別字符訓(xùn)練集庫(kù),為訓(xùn)練集中每個(gè)正確字符建立其對(duì)應(yīng)的錯(cuò)別字符集合;步驟B1,在含錯(cuò)別字符的大規(guī)模語(yǔ)料庫(kù)中,分別找出包含所述正確字符和錯(cuò)別字符的短語(yǔ)或詞組;步驟C1,找出正確字符和錯(cuò)別字符的對(duì)應(yīng)關(guān)系,建立詞組對(duì)或者短語(yǔ)對(duì);步驟D1,優(yōu)化所述詞組對(duì)或者短語(yǔ)對(duì),將所述詞組對(duì)或者短語(yǔ)對(duì)中重復(fù)表述的詞組對(duì)或者短語(yǔ)對(duì)篩選掉,得到所述正確字符相應(yīng)的錯(cuò)別字符的詞組對(duì)或者短語(yǔ)對(duì);步驟E1,將所述正確字符相應(yīng)的錯(cuò)別字符的詞組對(duì)或者短語(yǔ)對(duì)加入到所述正確字符的錯(cuò)別字符詞典。其能夠識(shí)別錯(cuò)別字符詞組或者短語(yǔ),并建立錯(cuò)別字符詞典,從而提高錯(cuò)別字符詞典的生成效率。