一種多特征融合的中文分詞方法

基本信息

申請?zhí)?/td> CN202011399750.2 申請日 -
公開(公告)號 CN112464663A 公開(公告)日 2021-03-09
申請公布號 CN112464663A 申請公布日 2021-03-09
分類號 G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王會珍;姜濤;張新新 申請(專利權(quán))人 小牛思拓(北京)科技有限公司
代理機(jī)構(gòu) 沈陽優(yōu)普達(dá)知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 李曉光
地址 110004遼寧省沈陽市和平區(qū)三好街東軟電腦城C座10樓
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種多特征融合的中文分詞方法,包括以下步驟:1)模型構(gòu)建,對輸入文本序列進(jìn)行分布式向量化,得到詞向量、位置向量以及偏旁部首向量表示,作為分詞模型的嵌入層;將BilSTM網(wǎng)絡(luò)層和CRF線性層結(jié)合訓(xùn)練,得到中文分詞模型;2)模型訓(xùn)練,使用已標(biāo)注結(jié)果的文本數(shù)據(jù)輸入到上述BiLSTM?CRF模型,以此訓(xùn)練模型;3)模型預(yù)測,使用訓(xùn)練得到的基于BilSTM?CRF的中文分詞模型,將待分詞句子序列輸入到模型中,從而得到分詞標(biāo)簽序列。本發(fā)明將標(biāo)注文本中的詞向量、位置向量和偏旁部首向量融合到基于BiLSTM?CRF的深度學(xué)習(xí)模型,用于提升自然語言處理領(lǐng)域中中文分詞任務(wù)的準(zhǔn)確性。??