基于目標檢測的研報解析方法、裝置、設備和存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110380917.9 申請日 -
公開(公告)號 CN112990091A 公開(公告)日 2021-06-18
申請公布號 CN112990091A 申請公布日 2021-06-18
分類號 G06K9/00;G06K9/46;G06N3/04;G06N3/08 分類 計算;推算;計數(shù);
發(fā)明人 朱召文;李宜博;李鵬 申請(專利權(quán))人 數(shù)庫(上海)科技有限公司
代理機構(gòu) 上海十蕙一蘭知識產(chǎn)權(quán)代理有限公司 代理人 劉秋蘭
地址 201112 上海市閔行區(qū)陳行路2388號9號樓8層801室
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領域,具體涉及一種基于目標檢測的研報解析方法、裝置、設備和存儲介質(zhì)。其中方法包括獲取研報文件,通過目標檢測模型對研報文件進行目標檢測,得到目標檢測結(jié)果;解析研報文件,獲取研報文件內(nèi)每一頁中的字符信息,根據(jù)目標檢測結(jié)果,將位于同一個目標內(nèi)的字符進行合并,得到結(jié)構(gòu)化信息;匯總研報文件內(nèi)每一頁的結(jié)構(gòu)化信息,生成研報文件的結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明通過訓練以研報版面分析為基礎的目標檢測模型,極大的簡化了研報文件解析的流程,在不需要復雜規(guī)則的條件下,就可以充分的結(jié)構(gòu)化研報內(nèi)容。