一種基于深度學(xué)習(xí)的非監(jiān)督命名實(shí)體語(yǔ)義消歧方法

基本信息

申請(qǐng)?zhí)?/td> CN201410488048.1 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104268200A 公開(kāi)(公告)日 2015-01-07
申請(qǐng)公布號(hào) CN104268200A 申請(qǐng)公布日 2015-01-07
分類(lèi)號(hào) G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 余雷;鄧攀;閆碧瑩;袁偉;李玉成;萬(wàn)安格 申請(qǐng)(專(zhuān)利權(quán))人 中科明遠(yuǎn)(北京)并行軟件有限公司
代理機(jī)構(gòu) 北京永創(chuàng)新實(shí)專(zhuān)利事務(wù)所 代理人 祗志潔
地址 100190 北京市海淀區(qū)中關(guān)村南四街4號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于深度學(xué)習(xí)的非監(jiān)督命名實(shí)體語(yǔ)義消歧方法,針對(duì)某一特定領(lǐng)域,在垂直網(wǎng)站上抓取評(píng)論數(shù)據(jù)并進(jìn)行預(yù)處理;對(duì)評(píng)論數(shù)據(jù)中文分詞;利用主題模型對(duì)詞進(jìn)行主題聚類(lèi),生成包含主題信息的文檔主題詞分布;對(duì)詞集合中的所有詞,使用基于深度學(xué)習(xí)的詞聚類(lèi)方法word2vec進(jìn)行關(guān)鍵詞聚類(lèi),提取和關(guān)鍵詞語(yǔ)義接近的詞;使用條件隨機(jī)場(chǎng)該模型識(shí)別評(píng)論數(shù)據(jù)中的命名實(shí)體;根據(jù)步驟4主題聚類(lèi)的聚類(lèi)結(jié)果,構(gòu)建不同主題下的詞集合,計(jì)算文檔和詞集合的相似度,選取文檔主題,得出文檔中命名實(shí)體的語(yǔ)境含義,從而消除語(yǔ)義岐義。本發(fā)明實(shí)現(xiàn)了以比較高的可解釋度和精確度來(lái)進(jìn)行命名實(shí)體消歧,滿(mǎn)足了特定領(lǐng)域且需要大量的知識(shí)庫(kù)的要求。