一種基于實體詞列表的實體識別方法和裝置
基本信息

| 申請?zhí)?/td> | CN202110648321.2 | 申請日 | - |
| 公開(公告)號 | CN113255356A | 公開(公告)日 | 2021-08-13 |
| 申請公布號 | CN113255356A | 申請公布日 | 2021-08-13 |
| 分類號 | G06F40/295(2020.01)I;G06F40/216(2019.01)I;G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 韓瑞峰;金霞;楊紅飛;程東 | 申請(專利權(quán))人 | 杭州費爾斯通科技有限公司 |
| 代理機構(gòu) | 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張超 |
| 地址 | 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號B樓第七層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請涉及一種基于實體詞列表的實體識別方法和裝置,其中,該方法包括:通過將預(yù)設(shè)語料中的所有句子分割得到若干子序列,記錄子序列在預(yù)設(shè)語料中的位置,統(tǒng)計子序列在預(yù)設(shè)語料中出現(xiàn)的次數(shù),根據(jù)實體詞列表設(shè)置子序列的標(biāo)簽,計算子序列的特征集合和先驗概率,最后得到子序列的置信度,基于置信度對句子進行重新分割,保存實體分割結(jié)果,實體分割結(jié)果用于對序列標(biāo)注模型預(yù)測的結(jié)果進行校正,識別出子序列的類型,通過本申請,解決了對標(biāo)注樣本依賴性強和識別準(zhǔn)確率低的問題,實現(xiàn)了基于實體詞列表進行遠(yuǎn)程監(jiān)督學(xué)習(xí),結(jié)合有監(jiān)督的序列標(biāo)注模型可得到準(zhǔn)確率更高的抽取模型,降低對標(biāo)注樣本的依賴性,可用于多場景下的實體抽取和新詞發(fā)現(xiàn)。 |





