一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置

基本信息

申請?zhí)?/td> CN201711080720.3 申請日 -
公開(公告)號(hào) CN107943785B 公開(公告)日 2021-07-20
申請公布號(hào) CN107943785B 申請公布日 2021-07-20
分類號(hào) G06F40/279 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 賈義動(dòng);紀(jì)曉陽;高峰 申請(專利權(quán))人 廣東廣業(yè)開元科技有限公司
代理機(jī)構(gòu) 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 代理人 朱曉敏;胡輝
地址 510623 廣東省廣州市天河區(qū)珠江新城金穗路1號(hào)邦華環(huán)球廣場408
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置,該方法包括:利用去重技術(shù)和格式轉(zhuǎn)換技術(shù),構(gòu)建包含多個(gè)不同文檔格式財(cái)務(wù)文檔的多格式文檔池;利用財(cái)務(wù)指標(biāo)的正則表達(dá)式規(guī)則、起始特征指標(biāo)和結(jié)束特征指標(biāo),對多個(gè)不同文檔格式的財(cái)務(wù)文檔進(jìn)行定位解析處理后,獲得財(cái)務(wù)數(shù)據(jù)以及與財(cái)務(wù)數(shù)據(jù)對應(yīng)的指標(biāo)名稱和時(shí)間;利用財(cái)務(wù)數(shù)據(jù)所對應(yīng)的不同解析結(jié)果,對財(cái)務(wù)數(shù)據(jù)進(jìn)行校驗(yàn)。該裝置包括用于存儲(chǔ)程序的存儲(chǔ)器以及用于加載程序并執(zhí)行所述基于大數(shù)據(jù)的PDF文檔處理方法的處理器。通過使用本發(fā)明,能夠快速、準(zhǔn)確地對多種不同格式的財(cái)務(wù)文檔進(jìn)行財(cái)務(wù)數(shù)據(jù)的解析提取。本發(fā)明作為一種基于大數(shù)據(jù)的PDF文檔處理方法及裝置可廣泛應(yīng)用于大數(shù)據(jù)解析領(lǐng)域中。