一種基于遠(yuǎn)程監(jiān)督的同義詞提取方法

基本信息

申請(qǐng)?zhí)?/td> CN201811554878.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN109740149A 公開(kāi)(公告)日 2019-05-10
申請(qǐng)公布號(hào) CN109740149A 申請(qǐng)公布日 2019-05-10
分類號(hào) G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張濤; 劉前衛(wèi); 盛興; 聶慶; 謝秋學(xué); 賀芳; 雍志娟; 孫金; 吳培培; 常秀; 張楠; 商瑩楠; 滕家雨; 趙生傳; 張婷婷; 田書(shū)然 申請(qǐng)(專利權(quán))人 英大傳媒投資集團(tuán)有限公司
代理機(jī)構(gòu) 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 代理人 英大傳媒投資集團(tuán)有限公司; 國(guó)家電網(wǎng)有限公司; 南瑞集團(tuán)有限公司; 國(guó)網(wǎng)山東省電力公司煙臺(tái)供電公司
地址 100005 北京市東城區(qū)北京站西街19號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于遠(yuǎn)程監(jiān)督的同義詞提取方法,屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。該方法包括:建立領(lǐng)域中同義詞的詞匯句法模式模型;構(gòu)建基于LSTM和CRF的遠(yuǎn)程監(jiān)督神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,并使用領(lǐng)域詞條進(jìn)行訓(xùn)練,得到同義詞發(fā)現(xiàn)的句子序列標(biāo)注集;根據(jù)標(biāo)注集,將語(yǔ)料庫(kù)中的語(yǔ)句中的候選實(shí)體進(jìn)行標(biāo)注及配對(duì),抽取實(shí)體后得到同義詞。本發(fā)明通過(guò)利用基于百科知識(shí)庫(kù)詞條特性、結(jié)合領(lǐng)域同義詞的相應(yīng)詞匯?句法模式、通過(guò)遠(yuǎn)程監(jiān)督學(xué)習(xí)和機(jī)器自主學(xué)習(xí),獲取領(lǐng)域同義詞,該方法以機(jī)器處理為主,人工處理為輔,提高同義詞獲取的效率,在不降低精度的情況下,大幅降低人工成本。通過(guò)定期對(duì)在線百科的詞條學(xué)習(xí)和對(duì)隱藏同義詞的分析可以發(fā)現(xiàn)新詞。