一種化學(xué)信息抽取模型的訓(xùn)練方法、抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110007886.2 | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN112699668A | 公開(公告)日 | 2021-04-23 |
| 申請(qǐng)公布號(hào) | CN112699668A | 申請(qǐng)公布日 | 2021-04-23 |
| 分類號(hào) | G06F40/216;G06F16/35;G16C20/70 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 鐘實(shí);張睿哲;宋悅飛;潘志鋒 | 申請(qǐng)(專利權(quán))人 | 廣州楹鼎生物科技有限公司 |
| 代理機(jī)構(gòu) | 北京品源專利代理有限公司 | 代理人 | 孟金喆 |
| 地址 | 510610 廣東省廣州市天河區(qū)林和西路3-15號(hào)22層02房 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種化學(xué)信息抽取模型的訓(xùn)練方法、抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。訓(xùn)練方法包括:獲取訓(xùn)練集,訓(xùn)練集包括多條化工語句樣本,化工語句樣本標(biāo)注有參考化學(xué)信息,對(duì)化工語句樣本中的字符進(jìn)行表征,得到各字符的表征向量,將表征向量輸入化學(xué)信息抽取模型中進(jìn)行處理,得到化工語句樣本中存在參考化學(xué)信息的概率,基于概率和參考化學(xué)信息計(jì)算化工語句樣本的交叉熵?fù)p失,基于交叉熵?fù)p失更新化學(xué)信息抽取模型的參數(shù)。通過上述化學(xué)信息抽取模型的訓(xùn)練方法訓(xùn)練出化學(xué)信息抽取模型,以便從包含非/半結(jié)構(gòu)化數(shù)據(jù)的化學(xué)信息的化工文獻(xiàn)中提取結(jié)構(gòu)化數(shù)據(jù),便于數(shù)據(jù)管理,對(duì)化工行業(yè)的科研、生產(chǎn)、實(shí)驗(yàn)提供巨大的幫助。 |





