一種基于深度學(xué)習(xí)的命名實(shí)體關(guān)系抽取與構(gòu)建方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201410488047.7 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN104199972B | 公開(公告)日 | 2018-08-03 |
| 申請(qǐng)公布號(hào) | CN104199972B | 申請(qǐng)公布日 | 2018-08-03 |
| 分類號(hào) | G06F17/30 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 袁偉;鄧攀;閆碧瑩;趙鑫;李玉成;余雷 | 申請(qǐng)(專利權(quán))人 | 中科明遠(yuǎn)(北京)并行軟件有限公司 |
| 代理機(jī)構(gòu) | 北京永創(chuàng)新實(shí)專利事務(wù)所 | 代理人 | 中科嘉速(北京)信息技術(shù)有限公司 |
| 地址 | 100190 北京市海淀區(qū)中關(guān)村南四街4號(hào)5號(hào)樓502室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種基于深度學(xué)習(xí)的命名實(shí)體關(guān)系抽取與構(gòu)建方法,用于互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域。本方法針對(duì)某一特定領(lǐng)域,在垂直網(wǎng)站上抓取領(lǐng)域內(nèi)的新聞數(shù)據(jù),對(duì)獲取的新聞數(shù)據(jù)進(jìn)行預(yù)處理;新聞數(shù)據(jù)分詞,抽取關(guān)鍵詞,生成行業(yè)詞庫,利用行業(yè)詞庫對(duì)新聞數(shù)據(jù)重新分詞;抽取種子詞庫;無監(jiān)督構(gòu)建實(shí)體關(guān)系網(wǎng)絡(luò),從新聞數(shù)據(jù)中抽取包含兩個(gè)以上實(shí)體的句子,抽取句子中的動(dòng)詞以及對(duì)應(yīng)的文檔,對(duì)抽取的文檔建立基于深度學(xué)習(xí)的詞聚類模型,根據(jù)動(dòng)詞描述的詞之間的關(guān)系,構(gòu)建實(shí)體關(guān)系網(wǎng)絡(luò);定義實(shí)體關(guān)系類別,對(duì)實(shí)體關(guān)系網(wǎng)絡(luò)中的每個(gè)實(shí)體對(duì),進(jìn)行關(guān)系分類。本發(fā)明不需投入大規(guī)模人力對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)記,語料庫的依賴性低,抽取實(shí)體關(guān)系的性能高。 |





