一種基于機(jī)器學(xué)習(xí)的表格抽取方法
基本信息

| 申請?zhí)?/td> | CN202010219328.8 | 申請日 | - |
| 公開(公告)號 | CN111401010A | 公開(公告)日 | 2020-07-10 |
| 申請公布號 | CN111401010A | 申請公布日 | 2020-07-10 |
| 分類號 | G06F40/154(2020.01)I | 分類 | - |
| 發(fā)明人 | 李鑫;鄭磊;鮑琦 | 申請(專利權(quán))人 | 蘇州機(jī)數(shù)芯微科技有限公司 |
| 代理機(jī)構(gòu) | 合肥市長遠(yuǎn)專利代理事務(wù)所(普通合伙) | 代理人 | 蘇州機(jī)數(shù)芯微科技有限公司 |
| 地址 | 215000江蘇省蘇州市蘇州工業(yè)園區(qū)金雞湖大道99號蘇州納米城1幢505-3室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出的一種基于機(jī)器學(xué)習(xí)的表格抽取方法,包括:對原始xml文件進(jìn)行預(yù)處理,獲得預(yù)先選擇的自動提取工具可識別的新xml文件;將新xml文件通過自動提取工具進(jìn)行識別并轉(zhuǎn)換成python可識別的二維列表;將表格標(biāo)題和腳注從二維列表中分離出來,然后識別跨列子標(biāo)題,并把子標(biāo)題填充到對應(yīng)的列;通過機(jī)器學(xué)習(xí),區(qū)分出表頭所在行的范圍,然后合并表頭;對跨行數(shù)據(jù)進(jìn)行合并,獲得最終表格數(shù)據(jù)。本發(fā)明實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)從格式為xml的文件中抽取清洗表格內(nèi)容,保證了對xml文件信息的精確和完整的抽取。?? |





