一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置
基本信息

| 申請?zhí)?/td> | CN201711080720.3 | 申請日 | - |
| 公開(公告)號(hào) | CN107943785B | 公開(公告)日 | 2021-07-20 |
| 申請公布號(hào) | CN107943785B | 申請公布日 | 2021-07-20 |
| 分類號(hào) | G06F40/279 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 賈義動(dòng);紀(jì)曉陽;高峰 | 申請(專利權(quán))人 | 廣東廣業(yè)開元科技有限公司 |
| 代理機(jī)構(gòu) | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 | 代理人 | 朱曉敏;胡輝 |
| 地址 | 510623 廣東省廣州市天河區(qū)珠江新城金穗路1號(hào)邦華環(huán)球廣場408 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置,該方法包括:利用去重技術(shù)和格式轉(zhuǎn)換技術(shù),構(gòu)建包含多個(gè)不同文檔格式財(cái)務(wù)文檔的多格式文檔池;利用財(cái)務(wù)指標(biāo)的正則表達(dá)式規(guī)則、起始特征指標(biāo)和結(jié)束特征指標(biāo),對多個(gè)不同文檔格式的財(cái)務(wù)文檔進(jìn)行定位解析處理后,獲得財(cái)務(wù)數(shù)據(jù)以及與財(cái)務(wù)數(shù)據(jù)對應(yīng)的指標(biāo)名稱和時(shí)間;利用財(cái)務(wù)數(shù)據(jù)所對應(yīng)的不同解析結(jié)果,對財(cái)務(wù)數(shù)據(jù)進(jìn)行校驗(yàn)。該裝置包括用于存儲(chǔ)程序的存儲(chǔ)器以及用于加載程序并執(zhí)行所述基于大數(shù)據(jù)的PDF文檔處理方法的處理器。通過使用本發(fā)明,能夠快速、準(zhǔn)確地對多種不同格式的財(cái)務(wù)文檔進(jìn)行財(cái)務(wù)數(shù)據(jù)的解析提取。本發(fā)明作為一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置可廣泛應(yīng)用于大數(shù)據(jù)解析領(lǐng)域中。 |





