表格信息提取模型的訓練方法及裝置

基本信息

申請?zhí)?/td> CN202111000445.6 申請日 -
公開(公告)號 CN113723278A 公開(公告)日 2021-11-30
申請公布號 CN113723278A 申請公布日 2021-11-30
分類號 G06K9/00;G06K9/46;G06K9/62;G06F40/126;G06F40/18 分類 計算;推算;計數(shù);
發(fā)明人 李彥達;郝東 申請(專利權(quán))人 上海云從匯臨人工智能科技有限公司
代理機構(gòu) 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 宋寶庫;郭婷
地址 200120 上海市浦東新區(qū)南匯新城鎮(zhèn)環(huán)湖西二路888號C樓
法律狀態(tài) -

摘要

摘要 本申請公開了一種表格信息提取模型的訓練方法,包括:對表格語料的單元格進行處理,得到單元格的特征向量;根據(jù)單元格的位置信息計算鄰接矩陣,對單元格的特征向量和鄰接矩陣進行特征抽取,得到單元格的高階特征向量;利用高階特征向量預(yù)測單元格的原始文本,并利用單元格的文本進行模型訓練,得到表格語言模型;利用當前表格信息提取任務(wù)對應(yīng)的訓練樣本對表格語言模型進行訓練,得到表格信息提取模型。針對每個不同的表格提取任務(wù),只需要在已訓練好的表格語言模型的基礎(chǔ)上,利用不同任務(wù)對應(yīng)的少量的訓練樣本訓練得到相應(yīng)的表格信息提取模型,每次訓練都無需再對表格語言模型進行訓練,明顯減少了訓練時間和訓練樣本。