一種未登錄詞的識(shí)別方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN200910265839.7 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN101751386A | 公開(kāi)(公告)日 | 2010-06-23 |
| 申請(qǐng)公布號(hào) | CN101751386A | 申請(qǐng)公布日 | 2010-06-23 |
| 分類號(hào) | G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 黃河燕;史樹(shù)敏;張海軍 | 申請(qǐng)(專利權(quán))人 | 華建機(jī)器翻譯有限公司 |
| 代理機(jī)構(gòu) | 北京理工大學(xué)專利中心 | 代理人 | 華建機(jī)器翻譯有限公司;北京理工大學(xué) |
| 地址 | 100097 北京市海淀區(qū)北四環(huán)中路257號(hào)科群大廈 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種未登錄詞的識(shí)別方法,屬于計(jì)算機(jī)科學(xué)中的自然語(yǔ)言處理技術(shù)領(lǐng)域。在未登錄詞的檢測(cè)階段,先用多重規(guī)則過(guò)濾重復(fù)串集合,然后使用統(tǒng)計(jì)模型作為主體統(tǒng)計(jì)框架,將盡可能多的特征融入到框架內(nèi),確保未登錄詞檢測(cè)具有較高的準(zhǔn)確率和召回率;在未登錄詞詞性猜測(cè)階段,基于統(tǒng)計(jì)模型框架,在通用特征的基礎(chǔ)上,通過(guò)引入有效的新特征,來(lái)提高未登錄詞詞性猜測(cè)的準(zhǔn)確率。本方法對(duì)比現(xiàn)有技術(shù),不受內(nèi)存規(guī)模的限制,擴(kuò)大了未登錄詞的檢測(cè)范圍,有效減少了未登錄詞檢測(cè)過(guò)程中的漏召問(wèn)題,尤其適合用于大規(guī)模語(yǔ)料的未登錄詞的識(shí)別。 |





