無監(jiān)督分詞模型訓練方法及裝置
基本信息

| 申請?zhí)?/td> | CN201710074389.8 | 申請日 | - |
| 公開(公告)號 | CN106708807B | 公開(公告)日 | 2019-11-15 |
| 申請公布號 | CN106708807B | 申請公布日 | 2019-11-15 |
| 分類號 | G06F17/27 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 姚佳 | 申請(專利權(quán))人 | 廣東惠禾科技發(fā)展有限公司 |
| 代理機構(gòu) | 北京超凡志成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 廣東惠禾科技發(fā)展有限公司 |
| 地址 | 518054廣東省深圳市南山區(qū)粵海街道學府路2388號怡化金融科技大廈14樓01-02單元 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供一種無監(jiān)督分詞模型訓練方法及裝置,應(yīng)用于分詞模型,所述分詞模型包括一詞庫,所述方法包括:獲取目標訓練語句;確定一分詞最大字數(shù),將所述分詞最大字數(shù)作為分詞提取字數(shù);從所述目標訓練語句中提取文字個數(shù)為所述分詞提取字數(shù)的語句片段做為目標語句片段,將該目標語句片段與所述詞庫中已存的語句片段進行比對;當所述詞庫中存在與所述目標語句片段相同的語句片段時,更新所述詞庫中該語句片段的出現(xiàn)頻次,并將該目標語句片段從所述目標訓練語句中剔除;重復對目標語句片段的提取及比對的步驟。如此,高效地實現(xiàn)了在無監(jiān)督的方式下對分詞模型進行訓練,并且得到分析模型對歧義語句的辨析能力強。 |





