一種未登錄詞的識(shí)別方法

基本信息

申請(qǐng)?zhí)?/td> CN200910265839.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN101751386A 公開(kāi)(公告)日 2010-06-23
申請(qǐng)公布號(hào) CN101751386A 申請(qǐng)公布日 2010-06-23
分類號(hào) G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 黃河燕;史樹(shù)敏;張海軍 申請(qǐng)(專利權(quán))人 華建機(jī)器翻譯有限公司
代理機(jī)構(gòu) 北京理工大學(xué)專利中心 代理人 華建機(jī)器翻譯有限公司;北京理工大學(xué)
地址 100097 北京市海淀區(qū)北四環(huán)中路257號(hào)科群大廈
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種未登錄詞的識(shí)別方法,屬于計(jì)算機(jī)科學(xué)中的自然語(yǔ)言處理技術(shù)領(lǐng)域。在未登錄詞的檢測(cè)階段,先用多重規(guī)則過(guò)濾重復(fù)串集合,然后使用統(tǒng)計(jì)模型作為主體統(tǒng)計(jì)框架,將盡可能多的特征融入到框架內(nèi),確保未登錄詞檢測(cè)具有較高的準(zhǔn)確率和召回率;在未登錄詞詞性猜測(cè)階段,基于統(tǒng)計(jì)模型框架,在通用特征的基礎(chǔ)上,通過(guò)引入有效的新特征,來(lái)提高未登錄詞詞性猜測(cè)的準(zhǔn)確率。本方法對(duì)比現(xiàn)有技術(shù),不受內(nèi)存規(guī)模的限制,擴(kuò)大了未登錄詞的檢測(cè)范圍,有效減少了未登錄詞檢測(cè)過(guò)程中的漏召問(wèn)題,尤其適合用于大規(guī)模語(yǔ)料的未登錄詞的識(shí)別。