用于識別PDF表格的方法、設(shè)備和介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202210007815.7 | 申請日 | - |
| 公開(公告)號 | CN114022888B | 公開(公告)日 | 2022-04-08 |
| 申請公布號 | CN114022888B | 申請公布日 | 2022-04-08 |
| 分類號 | G06V30/412(2022.01)I;G06V30/414(2022.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 朱峰;尹揚;郭鵬華 | 申請(專利權(quán))人 | 上海朝陽永續(xù)信息技術(shù)股份有限公司 |
| 代理機構(gòu) | 北京市金杜律師事務(wù)所 | 代理人 | 王茂華 |
| 地址 | 201203 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)碧波路690號4號樓501室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本公開的實施例涉及用于識別PDF表格的方法、設(shè)備和介質(zhì)。在該方法中,可以針對PDF文件檢索目標(biāo)關(guān)鍵字,以便確定PDF文件中的目標(biāo)表格區(qū)域;獲取處于目標(biāo)表格區(qū)域內(nèi)的多個文本塊;基于所述多個文本塊的坐標(biāo),確定關(guān)于目標(biāo)表格的掃描區(qū)域的左上起點和右下終點,以便提取掃描區(qū)域內(nèi)的所有文本塊;基于所提取的掃描區(qū)域內(nèi)的所有文本塊的坐標(biāo),確定對角坐標(biāo)集合,所述對角坐標(biāo)集合包括所有文本塊中的每一個文本塊的對角坐標(biāo);掃描對角坐標(biāo)集合,以便生成掃描結(jié)果數(shù)組;以及遍歷掃描結(jié)果數(shù)組,以便確定目標(biāo)表格中的單元格文本信息。由此,本公開能夠?qū)崿F(xiàn)復(fù)雜PDF表格的精確識別,并且還可以實現(xiàn)表格提取、分析等處理。 |





