一種針對粗粒度文本分類的數(shù)據(jù)動態(tài)標(biāo)注方法及裝置
基本信息

| 申請?zhí)?/td> | CN201910568651.3 | 申請日 | - |
| 公開(公告)號 | CN110287324A | 公開(公告)日 | 2019-09-27 |
| 申請公布號 | CN110287324A | 申請公布日 | 2019-09-27 |
| 分類號 | G06F16/35;G06K9/62 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 顧凌云;嚴(yán)涵;王洪陽 | 申請(專利權(quán))人 | 成都冰鑒信息科技有限公司 |
| 代理機(jī)構(gòu) | 常州佰業(yè)騰飛專利代理事務(wù)所(普通合伙) | 代理人 | 成都冰鑒信息科技有限公司 |
| 地址 | 610041 四川省成都市高新區(qū)天府五街200號3號樓A棟1001室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種針對粗粒度文本分類的數(shù)據(jù)動態(tài)標(biāo)注方法及裝置,其中方法包括:按照標(biāo)簽類別比例均衡標(biāo)注數(shù)據(jù);構(gòu)建文本TF?IDF詞頻矩陣;使用卡方分布進(jìn)行特征篩選得到訓(xùn)練數(shù)據(jù)集;使用機(jī)器學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到初始模型;獲取測試數(shù)據(jù)集,利用初始模型對測試數(shù)據(jù)集中的第一預(yù)設(shè)數(shù)據(jù)量的數(shù)據(jù)進(jìn)行標(biāo)注,得到預(yù)測標(biāo)注數(shù)據(jù);獲取按照標(biāo)簽類別分別抽取預(yù)測標(biāo)注數(shù)據(jù)中的第二預(yù)設(shè)條數(shù)進(jìn)行審核得到的與各個數(shù)據(jù)標(biāo)注標(biāo)簽對應(yīng)的數(shù)據(jù);將與各個數(shù)據(jù)標(biāo)注標(biāo)簽對應(yīng)的數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)集中,使用機(jī)器學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到修正模型;判斷訓(xùn)練數(shù)據(jù)量是否滿足第二預(yù)設(shè)數(shù)據(jù)量,不滿足繼續(xù)執(zhí)行上述流程;滿足存儲修正模型為預(yù)測模型。 |





