一種針對(duì)粗粒度文本分類的數(shù)據(jù)動(dòng)態(tài)標(biāo)注方法及裝置
基本信息

| 申請(qǐng)?zhí)?/td> | CN201910568651.3 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN110287324A | 公開(公告)日 | 2019-09-27 |
| 申請(qǐng)公布號(hào) | CN110287324A | 申請(qǐng)公布日 | 2019-09-27 |
| 分類號(hào) | G06F16/35;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 顧凌云;嚴(yán)涵;王洪陽(yáng) | 申請(qǐng)(專利權(quán))人 | 成都冰鑒信息科技有限公司 |
| 代理機(jī)構(gòu) | 常州佰業(yè)騰飛專利代理事務(wù)所(普通合伙) | 代理人 | 成都冰鑒信息科技有限公司 |
| 地址 | 610041 四川省成都市高新區(qū)天府五街200號(hào)3號(hào)樓A棟1001室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種針對(duì)粗粒度文本分類的數(shù)據(jù)動(dòng)態(tài)標(biāo)注方法及裝置,其中方法包括:按照標(biāo)簽類別比例均衡標(biāo)注數(shù)據(jù);構(gòu)建文本TF?IDF詞頻矩陣;使用卡方分布進(jìn)行特征篩選得到訓(xùn)練數(shù)據(jù)集;使用機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到初始模型;獲取測(cè)試數(shù)據(jù)集,利用初始模型對(duì)測(cè)試數(shù)據(jù)集中的第一預(yù)設(shè)數(shù)據(jù)量的數(shù)據(jù)進(jìn)行標(biāo)注,得到預(yù)測(cè)標(biāo)注數(shù)據(jù);獲取按照標(biāo)簽類別分別抽取預(yù)測(cè)標(biāo)注數(shù)據(jù)中的第二預(yù)設(shè)條數(shù)進(jìn)行審核得到的與各個(gè)數(shù)據(jù)標(biāo)注標(biāo)簽對(duì)應(yīng)的數(shù)據(jù);將與各個(gè)數(shù)據(jù)標(biāo)注標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)集中,使用機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到修正模型;判斷訓(xùn)練數(shù)據(jù)量是否滿足第二預(yù)設(shè)數(shù)據(jù)量,不滿足繼續(xù)執(zhí)行上述流程;滿足存儲(chǔ)修正模型為預(yù)測(cè)模型。 |





