一種針對粗粒度文本分類的數(shù)據(jù)動態(tài)標(biāo)注方法及裝置

基本信息

申請?zhí)?/td> CN201910568651.3 申請日 -
公開(公告)號 CN110287324A 公開(公告)日 2019-09-27
申請公布號 CN110287324A 申請公布日 2019-09-27
分類號 G06F16/35;G06K9/62 分類 計算;推算;計數(shù);
發(fā)明人 顧凌云;嚴(yán)涵;王洪陽 申請(專利權(quán))人 成都冰鑒信息科技有限公司
代理機(jī)構(gòu) 常州佰業(yè)騰飛專利代理事務(wù)所(普通合伙) 代理人 成都冰鑒信息科技有限公司
地址 610041 四川省成都市高新區(qū)天府五街200號3號樓A棟1001室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種針對粗粒度文本分類的數(shù)據(jù)動態(tài)標(biāo)注方法及裝置,其中方法包括:按照標(biāo)簽類別比例均衡標(biāo)注數(shù)據(jù);構(gòu)建文本TF?IDF詞頻矩陣;使用卡方分布進(jìn)行特征篩選得到訓(xùn)練數(shù)據(jù)集;使用機(jī)器學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到初始模型;獲取測試數(shù)據(jù)集,利用初始模型對測試數(shù)據(jù)集中的第一預(yù)設(shè)數(shù)據(jù)量的數(shù)據(jù)進(jìn)行標(biāo)注,得到預(yù)測標(biāo)注數(shù)據(jù);獲取按照標(biāo)簽類別分別抽取預(yù)測標(biāo)注數(shù)據(jù)中的第二預(yù)設(shè)條數(shù)進(jìn)行審核得到的與各個數(shù)據(jù)標(biāo)注標(biāo)簽對應(yīng)的數(shù)據(jù);將與各個數(shù)據(jù)標(biāo)注標(biāo)簽對應(yīng)的數(shù)據(jù)加入到訓(xùn)練數(shù)據(jù)集中,使用機(jī)器學(xué)習(xí)算法對訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到修正模型;判斷訓(xùn)練數(shù)據(jù)量是否滿足第二預(yù)設(shè)數(shù)據(jù)量,不滿足繼續(xù)執(zhí)行上述流程;滿足存儲修正模型為預(yù)測模型。