一種基于聚類代表點的主動學(xué)習(xí)標(biāo)注方法和裝置

基本信息

申請?zhí)?/td> CN201810343307.X 申請日 -
公開(公告)號 CN108710894B 公開(公告)日 2022-06-28
申請公布號 CN108710894B 申請公布日 2022-06-28
分類號 G06K9/62(2022.01)I;G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 孫朝旭;王宏安 申請(專利權(quán))人 中國科學(xué)院軟件研究所
代理機構(gòu) 北京君尚知識產(chǎn)權(quán)代理有限公司 代理人 -
地址 100190北京市海淀區(qū)中關(guān)村南四街4號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開一種基于聚類代表點的主動學(xué)習(xí)標(biāo)注方法和裝置。該方法包括:1)對訓(xùn)練數(shù)據(jù)中的特征屬性進(jìn)行特征提取,得到特征向量;2)根據(jù)用戶輸入匹配相關(guān)訓(xùn)練數(shù)據(jù);3)根據(jù)聚類代表點算法對匹配的相關(guān)訓(xùn)練數(shù)據(jù)的特征向量進(jìn)行聚類,并提取聚類后形成的各個簇的代表點;4)計算簇間最短距離,并根據(jù)該最短距離對聚類后產(chǎn)生的簇建立最小支撐樹,提取最小支撐樹的代表點作為待標(biāo)注數(shù)據(jù)移交給專家進(jìn)行標(biāo)注;5)將用戶輸入與專家的標(biāo)注結(jié)果形成訓(xùn)練數(shù)據(jù)對,用訓(xùn)練數(shù)據(jù)對進(jìn)行機器學(xué)習(xí)模型的訓(xùn)練;6)重復(fù)步驟2)?5)以進(jìn)行迭代訓(xùn)練,直到機器學(xué)習(xí)模型滿足性能要求。本發(fā)明可有效地在保持模型精度的情況下減少數(shù)據(jù)標(biāo)注量、加快模型訓(xùn)練速度。