分詞處理方法、裝置、計算設備及存儲介質

基本信息

申請?zhí)?/td> CN202010163540.7 申請日 -
公開(公告)號 CN113378562A 公開(公告)日 2021-09-10
申請公布號 CN113378562A 申請公布日 2021-09-10
分類號 G06F40/289(2020.01)I;G06F40/216(2020.01)I;G06F16/33(2019.01)I;G06F16/387(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 姜榮鑫 申請(專利權)人 中國移動通信集團遼寧有限公司
代理機構 北京市浩天知識產(chǎn)權代理事務所(普通合伙) 代理人 梁倩
地址 110000遼寧省沈陽市渾南新區(qū)新隆街6號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種分詞處理方法、裝置、計算設備及存儲介質,方法包括:基于平均感知器算法對語料庫中的語料樣本進行訓練,得到第一分詞統(tǒng)計模型;其中,將每一次訓練后得到的參數(shù)權值求平均值,將平均值作為第一分詞統(tǒng)計模型中的參數(shù)權值;統(tǒng)計第一分詞統(tǒng)計模型中各個特征的權重,根據(jù)統(tǒng)計結果確定權重閾值,將權重小于權重閾值的特征從第一分詞統(tǒng)計模型中刪除,得到第二分詞統(tǒng)計模型;當接收到待分詞文件數(shù)據(jù)時,利用第二分詞統(tǒng)計模型對待分詞文件數(shù)據(jù)完成分詞匹配處理。通過上述方式,本發(fā)明能夠節(jié)省訓練模型的時間和資源,同時在不影響模型的性能的情況下減小了模型文件的大小。