一種文本實(shí)體抽取方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201910472799.7 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN110188359A | 公開(公告)日 | 2019-08-30 |
| 申請(qǐng)公布號(hào) | CN110188359A | 申請(qǐng)公布日 | 2019-08-30 |
| 分類號(hào) | G06F17/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 金霞 | 申請(qǐng)(專利權(quán))人 | 成都火石創(chuàng)造科技有限公司 |
| 代理機(jī)構(gòu) | 杭州求是專利事務(wù)所有限公司 | 代理人 | 劉靜;邱啟旺 |
| 地址 | 610200 四川省成都市成都天府國(guó)際生物城(雙流區(qū)生物城中路二段18號(hào)) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種文本實(shí)體抽取方法,本發(fā)明利用了大量語料中信息的冗余和重復(fù),先用短語分割和遠(yuǎn)程監(jiān)督的方式得到噪聲較多的實(shí)體,再挖掘?qū)嶓w的上下文序列模式(規(guī)則),自動(dòng)地得到了Snorkel的輸入規(guī)則,利用Snorkel對(duì)噪聲標(biāo)簽的容錯(cuò)能力,得到了質(zhì)量比遠(yuǎn)程監(jiān)督好的結(jié)果。循環(huán)地對(duì)模型和結(jié)果修正,逐漸去掉噪聲,并得到更可靠的序列模式。本發(fā)明沒有用標(biāo)簽樣本,節(jié)省了人工;Snorkel的輸入規(guī)則是自動(dòng)得到的;結(jié)合遠(yuǎn)程監(jiān)督、規(guī)則挖掘、snorkel,以及循環(huán)過程,遞進(jìn)式地改善結(jié)果、去除噪聲,提高抽取質(zhì)量。 |





