一種漢語新動詞識別系統(tǒng)和方法

基本信息

申請?zhí)?/td> CN201510846963.8 申請日 -
公開(公告)號 CN106815189A 公開(公告)日 2017-06-09
申請公布號 CN106815189A 申請公布日 2017-06-09
分類號 G06F17/27(2006.01)I;G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王衛(wèi)明;符建輝 申請(專利權(quán))人 中科國力(鎮(zhèn)江)智能技術(shù)有限公司
代理機(jī)構(gòu) 南京知識律師事務(wù)所 代理人 鎮(zhèn)江諾尼基智能技術(shù)有限公司;中科國力(鎮(zhèn)江)智能技術(shù)有限公司
地址 212009 江蘇省鎮(zhèn)江市丁卯經(jīng)十二路468號雙子研發(fā)樓北樓18樓
法律狀態(tài) -

摘要

摘要 本發(fā)明一種漢語新動詞識別系統(tǒng)和方法,包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb;驗(yàn)證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult;輸出新動詞集合VerbResult.本發(fā)明提出了一種利用漢語種子詞典中的詞語的信息,對從漢語語料中獲得新動詞進(jìn)行識別。在經(jīng)過160GB的純文本語料的測試驗(yàn)證后,本發(fā)明的系統(tǒng)獲得了41012個(gè)新的漢語動詞。經(jīng)過準(zhǔn)確性分析,結(jié)果顯示96.9%的新動詞為正確的漢語動詞。