一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法

基本信息

申請?zhí)?/td> CN202010068095.6 申請日 -
公開(公告)號 CN111325018A 公開(公告)日 2020-06-23
申請公布號 CN111325018A 申請公布日 2020-06-23
分類號 G06F40/242(2020.01)I 分類 -
發(fā)明人 杜夢豪;趙琨;劉杰鵬;丁健;梁棟彬;袁顯峰 申請(專利權(quán))人 上海恒企教育培訓(xùn)有限公司
代理機構(gòu) 深圳紫晴專利代理事務(wù)所(普通合伙) 代理人 程玉紅
地址 上海市楊浦區(qū)國賓路18號701B-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法,針對文本數(shù)據(jù)的多樣性和豐富性(包含網(wǎng)絡(luò)數(shù)據(jù)和文獻數(shù)據(jù)),以及新詞中也存在領(lǐng)域詞等特點,提出一種基于web檢索和新詞發(fā)現(xiàn)的領(lǐng)域詞典構(gòu)建方法。該方法由以下兩部分組成:基于種子詞典爬取網(wǎng)絡(luò)數(shù)據(jù),然后基于自定義的抽取模式抽取領(lǐng)域詞;基于互信息和左右熵學(xué)習(xí)字與字之間的自由度和粘合度,然后基于BiLstm?CRF實現(xiàn)新詞發(fā)現(xiàn)。本發(fā)明與現(xiàn)有的技術(shù)相比的優(yōu)點在于:本發(fā)明基于互信息和左右熵學(xué)習(xí)字與字之間的粘合度和自由度,然后基于BiLstm?CRF模型學(xué)習(xí)文本的上下文信息,整體提升低頻詞的識別率,基于檢索和統(tǒng)計的方法,對抽取的新詞和發(fā)現(xiàn)的詞進行校驗,省去人工校驗,能夠高抽取的領(lǐng)域詞的質(zhì)量。??