一種基于實(shí)體詞列表的實(shí)體識(shí)別方法和裝置
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110648321.2 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN113255356B | 公開(kāi)(公告)日 | 2021-09-28 |
| 申請(qǐng)公布號(hào) | CN113255356B | 申請(qǐng)公布日 | 2021-09-28 |
| 分類號(hào) | G06F40/295(2020.01)I;G06F40/216(2019.01)I;G06F16/35(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 韓瑞峰;金霞;楊紅飛;程?hào)| | 申請(qǐng)(專利權(quán))人 | 杭州費(fèi)爾斯通科技有限公司 |
| 代理機(jī)構(gòu) | 杭州創(chuàng)智卓英知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 張超 |
| 地址 | 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號(hào)B樓第七層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請(qǐng)涉及一種基于實(shí)體詞列表的實(shí)體識(shí)別方法和裝置,其中,該方法包括:通過(guò)將預(yù)設(shè)語(yǔ)料中的所有句子分割得到若干子序列,記錄子序列在預(yù)設(shè)語(yǔ)料中的位置,統(tǒng)計(jì)子序列在預(yù)設(shè)語(yǔ)料中出現(xiàn)的次數(shù),根據(jù)實(shí)體詞列表設(shè)置子序列的標(biāo)簽,計(jì)算子序列的特征集合和先驗(yàn)概率,最后得到子序列的置信度,基于置信度對(duì)句子進(jìn)行重新分割,保存實(shí)體分割結(jié)果,實(shí)體分割結(jié)果用于對(duì)序列標(biāo)注模型預(yù)測(cè)的結(jié)果進(jìn)行校正,識(shí)別出子序列的類型,通過(guò)本申請(qǐng),解決了對(duì)標(biāo)注樣本依賴性強(qiáng)和識(shí)別準(zhǔn)確率低的問(wèn)題,實(shí)現(xiàn)了基于實(shí)體詞列表進(jìn)行遠(yuǎn)程監(jiān)督學(xué)習(xí),結(jié)合有監(jiān)督的序列標(biāo)注模型可得到準(zhǔn)確率更高的抽取模型,降低對(duì)標(biāo)注樣本的依賴性,可用于多場(chǎng)景下的實(shí)體抽取和新詞發(fā)現(xiàn)。 |





