基于標(biāo)注文本的訓(xùn)練數(shù)據(jù)集生成方法、系統(tǒng)、設(shè)備和介質(zhì)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202010622293.2 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN111859857B | 公開(kāi)(公告)日 | 2021-08-27 |
| 申請(qǐng)公布號(hào) | CN111859857B | 申請(qǐng)公布日 | 2021-08-27 |
| 分類號(hào) | G06F40/117;G06F40/232;G06F40/279;G06F40/295 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 張少典;顧根;劉霄晨 | 申請(qǐng)(專利權(quán))人 | 上海森億醫(yī)療科技有限公司 |
| 代理機(jī)構(gòu) | 上海光華專利事務(wù)所(普通合伙) | 代理人 | 李治東 |
| 地址 | 201213上海市浦東新區(qū)亮景路232號(hào)501、502室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請(qǐng)?zhí)峁┝艘环N基于標(biāo)注文本的訓(xùn)練數(shù)據(jù)集生成方法、系統(tǒng)、設(shè)備和介質(zhì),通過(guò)獲取多個(gè)待標(biāo)注文本,將各原始長(zhǎng)文本拆解為多個(gè)拆句短文本并進(jìn)行去重與清洗處理;處理后存入數(shù)據(jù)庫(kù)以分別分配到唯一的數(shù)據(jù)庫(kù)id;采用正向最大匹配分句算法在數(shù)據(jù)庫(kù)中獲取對(duì)應(yīng)的匹配信息;對(duì)拆句短文本進(jìn)行實(shí)體/關(guān)聯(lián)標(biāo)注以分別生成唯一的標(biāo)注id,并依據(jù)各拆句短文本獲取其對(duì)應(yīng)的數(shù)據(jù)庫(kù)id與標(biāo)注id的映射關(guān)系;根據(jù)匹配信息、及映射信息,將拆句短文本拼接為包含實(shí)體/關(guān)聯(lián)標(biāo)注的標(biāo)注長(zhǎng)文本,以供作為訓(xùn)練集數(shù)據(jù)。本申請(qǐng)能大幅降低企業(yè)人工標(biāo)注的成本,確保重復(fù)文本標(biāo)注一致性,同時(shí)能夠降低模型算法訓(xùn)練時(shí)語(yǔ)料不一致造成的干擾,提升了模型學(xué)習(xí)的準(zhǔn)確率。 |





