一種基于無標(biāo)注語料的實體匹配方法和系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202110887645.1 | 申請日 | - |
| 公開(公告)號 | CN113343702A | 公開(公告)日 | 2021-09-03 |
| 申請公布號 | CN113343702A | 申請公布日 | 2021-09-03 |
| 分類號 | G06F40/295(2020.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 韓瑞峰;楊紅飛;金霞 | 申請(專利權(quán))人 | 杭州費(fèi)爾斯通科技有限公司 |
| 代理機(jī)構(gòu) | 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張超 |
| 地址 | 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號B樓第七層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請涉及一種基于無標(biāo)注語料的實體匹配方法和系統(tǒng),其中,該方法包括:通過對目標(biāo)語料進(jìn)行分割,得到若干候選實體,并計算得出候選實體的統(tǒng)計信息,獲取種子實體集,根據(jù)種子實體集和候選實體的統(tǒng)計信息,從候選實體中判斷選取出與種子實體最接近的實體,得到若干最優(yōu)候選實體,將最優(yōu)候選實體加入種子實體集中,重復(fù)上述判斷選取,直到?jīng)]有最優(yōu)候選實體產(chǎn)生,基于產(chǎn)生的最優(yōu)候選實體和種子實體的詞向量,判斷最優(yōu)候選實體是否為實體,得到實體識別的結(jié)果。通過本申請,解決了實體識別中對標(biāo)注樣本依賴性強(qiáng)和識別準(zhǔn)確率低的問題,實現(xiàn)了利用領(lǐng)域?qū)嶓w詞列表,得到無標(biāo)簽的目標(biāo)語料的實體識別結(jié)果,同時也達(dá)到了對領(lǐng)域?qū)嶓w詞列表進(jìn)行擴(kuò)充的效果。 |





