一種基于無標(biāo)注語料的實體匹配方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110887645.1 申請日 -
公開(公告)號 CN113343702A 公開(公告)日 2021-09-03
申請公布號 CN113343702A 申請公布日 2021-09-03
分類號 G06F40/295(2020.01)I 分類 計算;推算;計數(shù);
發(fā)明人 韓瑞峰;楊紅飛;金霞 申請(專利權(quán))人 杭州費(fèi)爾斯通科技有限公司
代理機(jī)構(gòu) 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張超
地址 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號B樓第七層
法律狀態(tài) -

摘要

摘要 本申請涉及一種基于無標(biāo)注語料的實體匹配方法和系統(tǒng),其中,該方法包括:通過對目標(biāo)語料進(jìn)行分割,得到若干候選實體,并計算得出候選實體的統(tǒng)計信息,獲取種子實體集,根據(jù)種子實體集和候選實體的統(tǒng)計信息,從候選實體中判斷選取出與種子實體最接近的實體,得到若干最優(yōu)候選實體,將最優(yōu)候選實體加入種子實體集中,重復(fù)上述判斷選取,直到?jīng)]有最優(yōu)候選實體產(chǎn)生,基于產(chǎn)生的最優(yōu)候選實體和種子實體的詞向量,判斷最優(yōu)候選實體是否為實體,得到實體識別的結(jié)果。通過本申請,解決了實體識別中對標(biāo)注樣本依賴性強(qiáng)和識別準(zhǔn)確率低的問題,實現(xiàn)了利用領(lǐng)域?qū)嶓w詞列表,得到無標(biāo)簽的目標(biāo)語料的實體識別結(jié)果,同時也達(dá)到了對領(lǐng)域?qū)嶓w詞列表進(jìn)行擴(kuò)充的效果。