一種通用文檔識別方法、系統(tǒng)、終端及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202011439241.8 申請日 -
公開(公告)號 CN112699234A 公開(公告)日 2021-04-23
申請公布號 CN112699234A 申請公布日 2021-04-23
分類號 G06F16/35;G06F40/295;G06N3/04;G06N3/08 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 周異;陳凱;何建華 申請(專利權(quán))人 上海深杳智能科技有限公司
代理機(jī)構(gòu) 上海恒慧知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 代理人 劉翠
地址 200240 上海市閔行區(qū)零號灣科技1號樓1109室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種通用文檔識別方法,獲取文檔中一個(gè)或多個(gè)文字字段的文字信息,所述文字信息包括:文本內(nèi)容和文本邊界框;獲取文檔中一個(gè)或多個(gè)文字字段所一一對應(yīng)的類別信息,所述類別信息至少包括:主鍵字段類別Key和值字段類別Value;獲取類別為Key的文字字段與其他文字字段之間的連接關(guān)系;基于所述連接關(guān)系,獲取與類別為Key的文字字段和/或與類別為Key的文字字段相連或不相連的類別為Value的文字字段,作為所述類別為Key的文字字段對應(yīng)的結(jié)構(gòu)化內(nèi)容,確定所述結(jié)構(gòu)化內(nèi)容的類別信息和文字信息,完成對文檔的識別。同時(shí)提供了相應(yīng)的系統(tǒng)、終端及存儲介質(zhì)。本發(fā)明提高了文檔結(jié)構(gòu)化內(nèi)容識別的準(zhǔn)確性以及通用性。