用于挖掘PDF文件的方法、設備和介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202210089715.3 | 申請日 | - |
| 公開(公告)號 | CN114116616A | 公開(公告)日 | 2022-03-01 |
| 申請公布號 | CN114116616A | 申請公布日 | 2022-03-01 |
| 分類號 | G06F16/14(2019.01)I;G06F16/16(2019.01)I;G06F40/186(2020.01)I;G06F40/194(2020.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 郭鵬華;尹揚 | 申請(專利權(quán))人 | 上海朝陽永續(xù)信息技術(shù)股份有限公司 |
| 代理機構(gòu) | 北京市金杜律師事務所 | 代理人 | 王茂華 |
| 地址 | 201203 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗區(qū)碧波路690號4號樓501室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本公開的實施例涉及用于挖掘PDF文件的方法、設備和介質(zhì)。在該方法中,可以解析所述PDF文件的文本塊,以便獲取所述PDF文件的文本塊的坐標信息;基于所解析的所述PDF文件的文本塊,利用機構(gòu)確定算法確定與所述PDF文件相關(guān)聯(lián)的目標關(guān)聯(lián)機構(gòu);利用匹配算法將所述目標關(guān)聯(lián)機構(gòu)的一個或多個報告模板與所述文本塊的坐標信息進行匹配,從而確定一個或多個報告模板與所述PDF文件的匹配度數(shù)據(jù);基于所獲取的匹配度數(shù)據(jù),確定與所述PDF文件對應的目標關(guān)聯(lián)機構(gòu)的報告模板;基于所確定的報告模板,挖掘所述PDF文件中與所確定的報告模板對應的數(shù)據(jù)。由此,本公開能夠?qū)崿F(xiàn)準確挖掘PDF文件的數(shù)據(jù)并將所挖掘數(shù)據(jù)與其實際含義相關(guān)聯(lián)。 |





