一種多特征融合的中文分詞方法
基本信息

| 申請?zhí)?/td> | CN202011399750.2 | 申請日 | - |
| 公開(公告)號 | CN112464663A | 公開(公告)日 | 2021-03-09 |
| 申請公布號 | CN112464663A | 申請公布日 | 2021-03-09 |
| 分類號 | G06F40/289(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06K9/62(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 王會珍;姜濤;張新新 | 申請(專利權(quán))人 | 小牛思拓(北京)科技有限公司 |
| 代理機(jī)構(gòu) | 沈陽優(yōu)普達(dá)知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 李曉光 |
| 地址 | 110004遼寧省沈陽市和平區(qū)三好街東軟電腦城C座10樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開一種多特征融合的中文分詞方法,包括以下步驟:1)模型構(gòu)建,對輸入文本序列進(jìn)行分布式向量化,得到詞向量、位置向量以及偏旁部首向量表示,作為分詞模型的嵌入層;將BilSTM網(wǎng)絡(luò)層和CRF線性層結(jié)合訓(xùn)練,得到中文分詞模型;2)模型訓(xùn)練,使用已標(biāo)注結(jié)果的文本數(shù)據(jù)輸入到上述BiLSTM?CRF模型,以此訓(xùn)練模型;3)模型預(yù)測,使用訓(xùn)練得到的基于BilSTM?CRF的中文分詞模型,將待分詞句子序列輸入到模型中,從而得到分詞標(biāo)簽序列。本發(fā)明將標(biāo)注文本中的詞向量、位置向量和偏旁部首向量融合到基于BiLSTM?CRF的深度學(xué)習(xí)模型,用于提升自然語言處理領(lǐng)域中中文分詞任務(wù)的準(zhǔn)確性。?? |





