無監(jiān)督分詞模型訓練方法及裝置

基本信息

申請?zhí)?/td> CN201710074389.8 申請日 -
公開(公告)號 CN106708807B 公開(公告)日 2019-11-15
申請公布號 CN106708807B 申請公布日 2019-11-15
分類號 G06F17/27 分類 計算;推算;計數(shù);
發(fā)明人 姚佳 申請(專利權(quán))人 廣東惠禾科技發(fā)展有限公司
代理機構(gòu) 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 廣東惠禾科技發(fā)展有限公司
地址 518054廣東省深圳市南山區(qū)粵海街道學府路2388號怡化金融科技大廈14樓01-02單元
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種無監(jiān)督分詞模型訓練方法及裝置,應(yīng)用于分詞模型,所述分詞模型包括一詞庫,所述方法包括:獲取目標訓練語句;確定一分詞最大字數(shù),將所述分詞最大字數(shù)作為分詞提取字數(shù);從所述目標訓練語句中提取文字個數(shù)為所述分詞提取字數(shù)的語句片段做為目標語句片段,將該目標語句片段與所述詞庫中已存的語句片段進行比對;當所述詞庫中存在與所述目標語句片段相同的語句片段時,更新所述詞庫中該語句片段的出現(xiàn)頻次,并將該目標語句片段從所述目標訓練語句中剔除;重復對目標語句片段的提取及比對的步驟。如此,高效地實現(xiàn)了在無監(jiān)督的方式下對分詞模型進行訓練,并且得到分析模型對歧義語句的辨析能力強。