一種化學(xué)信息抽取模型的訓(xùn)練方法、抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN202110007886.2 申請(qǐng)日 -
公開(公告)號(hào) CN112699668A 公開(公告)日 2021-04-23
申請(qǐng)公布號(hào) CN112699668A 申請(qǐng)公布日 2021-04-23
分類號(hào) G06F40/216;G06F16/35;G16C20/70 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鐘實(shí);張睿哲;宋悅飛;潘志鋒 申請(qǐng)(專利權(quán))人 廣州楹鼎生物科技有限公司
代理機(jī)構(gòu) 北京品源專利代理有限公司 代理人 孟金喆
地址 510610 廣東省廣州市天河區(qū)林和西路3-15號(hào)22層02房
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種化學(xué)信息抽取模型的訓(xùn)練方法、抽取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。訓(xùn)練方法包括:獲取訓(xùn)練集,訓(xùn)練集包括多條化工語句樣本,化工語句樣本標(biāo)注有參考化學(xué)信息,對(duì)化工語句樣本中的字符進(jìn)行表征,得到各字符的表征向量,將表征向量輸入化學(xué)信息抽取模型中進(jìn)行處理,得到化工語句樣本中存在參考化學(xué)信息的概率,基于概率和參考化學(xué)信息計(jì)算化工語句樣本的交叉熵?fù)p失,基于交叉熵?fù)p失更新化學(xué)信息抽取模型的參數(shù)。通過上述化學(xué)信息抽取模型的訓(xùn)練方法訓(xùn)練出化學(xué)信息抽取模型,以便從包含非/半結(jié)構(gòu)化數(shù)據(jù)的化學(xué)信息的化工文獻(xiàn)中提取結(jié)構(gòu)化數(shù)據(jù),便于數(shù)據(jù)管理,對(duì)化工行業(yè)的科研、生產(chǎn)、實(shí)驗(yàn)提供巨大的幫助。