分詞處理方法、裝置、計算設備及存儲介質
基本信息

| 申請?zhí)?/td> | CN202010163540.7 | 申請日 | - |
| 公開(公告)號 | CN113378562A | 公開(公告)日 | 2021-09-10 |
| 申請公布號 | CN113378562A | 申請公布日 | 2021-09-10 |
| 分類號 | G06F40/289(2020.01)I;G06F40/216(2020.01)I;G06F16/33(2019.01)I;G06F16/387(2019.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 姜榮鑫 | 申請(專利權)人 | 中國移動通信集團遼寧有限公司 |
| 代理機構 | 北京市浩天知識產(chǎn)權代理事務所(普通合伙) | 代理人 | 梁倩 |
| 地址 | 110000遼寧省沈陽市渾南新區(qū)新隆街6號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種分詞處理方法、裝置、計算設備及存儲介質,方法包括:基于平均感知器算法對語料庫中的語料樣本進行訓練,得到第一分詞統(tǒng)計模型;其中,將每一次訓練后得到的參數(shù)權值求平均值,將平均值作為第一分詞統(tǒng)計模型中的參數(shù)權值;統(tǒng)計第一分詞統(tǒng)計模型中各個特征的權重,根據(jù)統(tǒng)計結果確定權重閾值,將權重小于權重閾值的特征從第一分詞統(tǒng)計模型中刪除,得到第二分詞統(tǒng)計模型;當接收到待分詞文件數(shù)據(jù)時,利用第二分詞統(tǒng)計模型對待分詞文件數(shù)據(jù)完成分詞匹配處理。通過上述方式,本發(fā)明能夠節(jié)省訓練模型的時間和資源,同時在不影響模型的性能的情況下減小了模型文件的大小。 |





