表格信息提取模型的訓練方法及裝置
基本信息

| 申請?zhí)?/td> | CN202111000445.6 | 申請日 | - |
| 公開(公告)號 | CN113723278A | 公開(公告)日 | 2021-11-30 |
| 申請公布號 | CN113723278A | 申請公布日 | 2021-11-30 |
| 分類號 | G06K9/00;G06K9/46;G06K9/62;G06F40/126;G06F40/18 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 李彥達;郝東 | 申請(專利權(quán))人 | 上海云從匯臨人工智能科技有限公司 |
| 代理機構(gòu) | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 宋寶庫;郭婷 |
| 地址 | 200120 上海市浦東新區(qū)南匯新城鎮(zhèn)環(huán)湖西二路888號C樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請公開了一種表格信息提取模型的訓練方法,包括:對表格語料的單元格進行處理,得到單元格的特征向量;根據(jù)單元格的位置信息計算鄰接矩陣,對單元格的特征向量和鄰接矩陣進行特征抽取,得到單元格的高階特征向量;利用高階特征向量預(yù)測單元格的原始文本,并利用單元格的文本進行模型訓練,得到表格語言模型;利用當前表格信息提取任務(wù)對應(yīng)的訓練樣本對表格語言模型進行訓練,得到表格信息提取模型。針對每個不同的表格提取任務(wù),只需要在已訓練好的表格語言模型的基礎(chǔ)上,利用不同任務(wù)對應(yīng)的少量的訓練樣本訓練得到相應(yīng)的表格信息提取模型,每次訓練都無需再對表格語言模型進行訓練,明顯減少了訓練時間和訓練樣本。 |





