一種基于聚類代表點的主動學(xué)習(xí)標(biāo)注方法和裝置
基本信息

| 申請?zhí)?/td> | CN201810343307.X | 申請日 | - |
| 公開(公告)號 | CN108710894B | 公開(公告)日 | 2022-06-28 |
| 申請公布號 | CN108710894B | 申請公布日 | 2022-06-28 |
| 分類號 | G06K9/62(2022.01)I;G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 孫朝旭;王宏安 | 申請(專利權(quán))人 | 中國科學(xué)院軟件研究所 |
| 代理機構(gòu) | 北京君尚知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
| 地址 | 100190北京市海淀區(qū)中關(guān)村南四街4號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開一種基于聚類代表點的主動學(xué)習(xí)標(biāo)注方法和裝置。該方法包括:1)對訓(xùn)練數(shù)據(jù)中的特征屬性進(jìn)行特征提取,得到特征向量;2)根據(jù)用戶輸入匹配相關(guān)訓(xùn)練數(shù)據(jù);3)根據(jù)聚類代表點算法對匹配的相關(guān)訓(xùn)練數(shù)據(jù)的特征向量進(jìn)行聚類,并提取聚類后形成的各個簇的代表點;4)計算簇間最短距離,并根據(jù)該最短距離對聚類后產(chǎn)生的簇建立最小支撐樹,提取最小支撐樹的代表點作為待標(biāo)注數(shù)據(jù)移交給專家進(jìn)行標(biāo)注;5)將用戶輸入與專家的標(biāo)注結(jié)果形成訓(xùn)練數(shù)據(jù)對,用訓(xùn)練數(shù)據(jù)對進(jìn)行機器學(xué)習(xí)模型的訓(xùn)練;6)重復(fù)步驟2)?5)以進(jìn)行迭代訓(xùn)練,直到機器學(xué)習(xí)模型滿足性能要求。本發(fā)明可有效地在保持模型精度的情況下減少數(shù)據(jù)標(biāo)注量、加快模型訓(xùn)練速度。 |





