一種文本精細(xì)分類方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201510239027.0 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN104820703A | 公開(公告)日 | 2015-08-05 |
| 申請(qǐng)公布號(hào) | CN104820703A | 申請(qǐng)公布日 | 2015-08-05 |
| 分類號(hào) | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 鄭勝;張勝;鄒復(fù)好;蔣丹;夏明;周可 | 申請(qǐng)(專利權(quán))人 | 武漢數(shù)為科技有限公司 |
| 代理機(jī)構(gòu) | 武漢東喻專利代理事務(wù)所(普通合伙) | 代理人 | 宋業(yè)斌 |
| 地址 | 430074 湖北省武漢市東湖高新技術(shù)開發(fā)區(qū)高新大道999號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種文本精細(xì)分類方法,屬于計(jì)算機(jī)自然語言處理或模式識(shí)別技術(shù)領(lǐng)域,解決現(xiàn)有文本分類方法針對(duì)短文檔精細(xì)類別劃分準(zhǔn)確率低的問題。本發(fā)明首先根據(jù)已知訓(xùn)練樣本,構(gòu)造兩級(jí)分類器,每一級(jí)分類器都包含獨(dú)立的敏感詞典;其次,對(duì)分類器的訓(xùn)練樣本執(zhí)行分詞、去除專用停頓詞、同義詞網(wǎng)映射等操作,實(shí)現(xiàn)詞向量的預(yù)處理;再次,根據(jù)詞向量的重要性差異進(jìn)行特征選擇,構(gòu)建分類器的敏感詞典;再次,利用KNN算法計(jì)算目標(biāo)文檔的精細(xì)分類結(jié)果;最后,對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)與反饋,動(dòng)態(tài)優(yōu)化敏感詞典,進(jìn)一步提高分類準(zhǔn)確率。實(shí)驗(yàn)證明,針對(duì)短文檔,采用本文的文本精細(xì)分類方法,可以顯著提高精細(xì)分類的準(zhǔn)確率。 |





