一種基于實體詞列表的實體識別方法和裝置

基本信息

申請?zhí)?/td> CN202110648321.2 申請日 -
公開(公告)號 CN113255356A 公開(公告)日 2021-08-13
申請公布號 CN113255356A 申請公布日 2021-08-13
分類號 G06F40/295(2020.01)I;G06F40/216(2019.01)I;G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 韓瑞峰;金霞;楊紅飛;程東 申請(專利權(quán))人 杭州費爾斯通科技有限公司
代理機構(gòu) 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張超
地址 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號B樓第七層
法律狀態(tài) -

摘要

摘要 本申請涉及一種基于實體詞列表的實體識別方法和裝置,其中,該方法包括:通過將預(yù)設(shè)語料中的所有句子分割得到若干子序列,記錄子序列在預(yù)設(shè)語料中的位置,統(tǒng)計子序列在預(yù)設(shè)語料中出現(xiàn)的次數(shù),根據(jù)實體詞列表設(shè)置子序列的標(biāo)簽,計算子序列的特征集合和先驗概率,最后得到子序列的置信度,基于置信度對句子進行重新分割,保存實體分割結(jié)果,實體分割結(jié)果用于對序列標(biāo)注模型預(yù)測的結(jié)果進行校正,識別出子序列的類型,通過本申請,解決了對標(biāo)注樣本依賴性強和識別準(zhǔn)確率低的問題,實現(xiàn)了基于實體詞列表進行遠(yuǎn)程監(jiān)督學(xué)習(xí),結(jié)合有監(jiān)督的序列標(biāo)注模型可得到準(zhǔn)確率更高的抽取模型,降低對標(biāo)注樣本的依賴性,可用于多場景下的實體抽取和新詞發(fā)現(xiàn)。