基于標(biāo)注文本的訓(xùn)練數(shù)據(jù)集生成方法、系統(tǒng)、設(shè)備和介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202010622293.2 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN111859857B 公開(kāi)(公告)日 2021-08-27
申請(qǐng)公布號(hào) CN111859857B 申請(qǐng)公布日 2021-08-27
分類號(hào) G06F40/117;G06F40/232;G06F40/279;G06F40/295 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張少典;顧根;劉霄晨 申請(qǐng)(專利權(quán))人 上海森億醫(yī)療科技有限公司
代理機(jī)構(gòu) 上海光華專利事務(wù)所(普通合伙) 代理人 李治東
地址 201213上海市浦東新區(qū)亮景路232號(hào)501、502室
法律狀態(tài) -

摘要

摘要 本申請(qǐng)?zhí)峁┝艘环N基于標(biāo)注文本的訓(xùn)練數(shù)據(jù)集生成方法、系統(tǒng)、設(shè)備和介質(zhì),通過(guò)獲取多個(gè)待標(biāo)注文本,將各原始長(zhǎng)文本拆解為多個(gè)拆句短文本并進(jìn)行去重與清洗處理;處理后存入數(shù)據(jù)庫(kù)以分別分配到唯一的數(shù)據(jù)庫(kù)id;采用正向最大匹配分句算法在數(shù)據(jù)庫(kù)中獲取對(duì)應(yīng)的匹配信息;對(duì)拆句短文本進(jìn)行實(shí)體/關(guān)聯(lián)標(biāo)注以分別生成唯一的標(biāo)注id,并依據(jù)各拆句短文本獲取其對(duì)應(yīng)的數(shù)據(jù)庫(kù)id與標(biāo)注id的映射關(guān)系;根據(jù)匹配信息、及映射信息,將拆句短文本拼接為包含實(shí)體/關(guān)聯(lián)標(biāo)注的標(biāo)注長(zhǎng)文本,以供作為訓(xùn)練集數(shù)據(jù)。本申請(qǐng)能大幅降低企業(yè)人工標(biāo)注的成本,確保重復(fù)文本標(biāo)注一致性,同時(shí)能夠降低模型算法訓(xùn)練時(shí)語(yǔ)料不一致造成的干擾,提升了模型學(xué)習(xí)的準(zhǔn)確率。