一種基于實(shí)體詞列表的實(shí)體識(shí)別方法和裝置

基本信息

申請(qǐng)?zhí)?/td> CN202110648321.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN113255356B 公開(kāi)(公告)日 2021-09-28
申請(qǐng)公布號(hào) CN113255356B 申請(qǐng)公布日 2021-09-28
分類號(hào) G06F40/295(2020.01)I;G06F40/216(2019.01)I;G06F16/35(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 韓瑞峰;金霞;楊紅飛;程?hào)| 申請(qǐng)(專利權(quán))人 杭州費(fèi)爾斯通科技有限公司
代理機(jī)構(gòu) 杭州創(chuàng)智卓英知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 張超
地址 310000浙江省杭州市濱江區(qū)西興街道阡陌路482號(hào)B樓第七層
法律狀態(tài) -

摘要

摘要 本申請(qǐng)涉及一種基于實(shí)體詞列表的實(shí)體識(shí)別方法和裝置,其中,該方法包括:通過(guò)將預(yù)設(shè)語(yǔ)料中的所有句子分割得到若干子序列,記錄子序列在預(yù)設(shè)語(yǔ)料中的位置,統(tǒng)計(jì)子序列在預(yù)設(shè)語(yǔ)料中出現(xiàn)的次數(shù),根據(jù)實(shí)體詞列表設(shè)置子序列的標(biāo)簽,計(jì)算子序列的特征集合和先驗(yàn)概率,最后得到子序列的置信度,基于置信度對(duì)句子進(jìn)行重新分割,保存實(shí)體分割結(jié)果,實(shí)體分割結(jié)果用于對(duì)序列標(biāo)注模型預(yù)測(cè)的結(jié)果進(jìn)行校正,識(shí)別出子序列的類型,通過(guò)本申請(qǐng),解決了對(duì)標(biāo)注樣本依賴性強(qiáng)和識(shí)別準(zhǔn)確率低的問(wèn)題,實(shí)現(xiàn)了基于實(shí)體詞列表進(jìn)行遠(yuǎn)程監(jiān)督學(xué)習(xí),結(jié)合有監(jiān)督的序列標(biāo)注模型可得到準(zhǔn)確率更高的抽取模型,降低對(duì)標(biāo)注樣本的依賴性,可用于多場(chǎng)景下的實(shí)體抽取和新詞發(fā)現(xiàn)。