基于tesseract-ocr的pdf文件解析方法

基本信息

申請(qǐng)?zhí)?/td> CN201910436587.3 申請(qǐng)日 -
公開(公告)號(hào) CN110188649A 公開(公告)日 2019-08-30
申請(qǐng)公布號(hào) CN110188649A 申請(qǐng)公布日 2019-08-30
分類號(hào) G06K9/00 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 金霞 申請(qǐng)(專利權(quán))人 成都火石創(chuàng)造科技有限公司
代理機(jī)構(gòu) 杭州求是專利事務(wù)所有限公司 代理人 劉靜;邱啟旺
地址 610200 四川省成都市天府國(guó)際生物城(雙流區(qū)生物城中路二段18號(hào))
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于tesseract?ocr的pdf文件解析方法,該方法用fitz工具包把pdf文件轉(zhuǎn)換為圖片序列;針對(duì)圖片序列的每一個(gè)圖片,用TableBank工具得到表格的多個(gè)區(qū)域位置;利用tesseract?ocr進(jìn)行圖片中的圖提取、表格單元格的提取和識(shí)別:本發(fā)明在tesseract?ocr基礎(chǔ)上,通過結(jié)合TableBank的表格檢測(cè)和表格結(jié)構(gòu)識(shí)別模型,得到了表格各單元格中的內(nèi)容;匹配docx解析結(jié)果,解決了ocr識(shí)別錯(cuò)誤的問題;對(duì)tesseract?ocr的ocr模型進(jìn)行替換,提升了識(shí)別的準(zhǔn)確率和速度。本發(fā)明具有表格結(jié)構(gòu)識(shí)別的功能、ocr錯(cuò)誤糾正的功能,優(yōu)化了模型的準(zhǔn)確率和速度,糾正了多欄排版下的段落順序混亂問題,以及部分段落或表格丟失的問題。