基于彈性分布式數(shù)據(jù)模型的多維度信息提取方法及裝置

基本信息

申請?zhí)?/td> CN202010034181.5 申請日 -
公開(公告)號 CN110851432A 公開(公告)日 2020-02-28
申請公布號 CN110851432A 申請公布日 2020-02-28
分類號 G06F16/215;G06F16/2458;G06F16/25;G06F16/28;G06F16/951 分類 計算;推算;計數(shù);
發(fā)明人 馮世偉;吳正好;李鎖在;韓鵬;劉濤;朱慧彤;閆永燦;席邵賓;張超超;胡堅升;喬擁俊 申請(專利權(quán))人 中軟信息系統(tǒng)工程有限公司
代理機構(gòu) 北京超凡宏宇專利代理事務(wù)所(特殊普通合伙) 代理人 中軟信息系統(tǒng)工程有限公司
地址 102209 北京市昌平區(qū)北七家鎮(zhèn)未來科技城南區(qū)中國電子信息安全技術(shù)研發(fā)基地
法律狀態(tài) -

摘要

摘要 本申請?zhí)峁┮环N基于彈性分布式數(shù)據(jù)模型的多維度信息提取方法及裝置,方法包括:獲取第一預(yù)設(shè)格式的數(shù)據(jù);利用彈性分布式數(shù)據(jù)模型對第一預(yù)設(shè)格式的數(shù)據(jù)進行數(shù)據(jù)處理;將數(shù)據(jù)處理后的數(shù)據(jù)依據(jù)維度進行數(shù)據(jù)標注;根據(jù)數(shù)據(jù)標注的結(jié)果生成數(shù)據(jù)維度表,以完成對第一預(yù)設(shè)格式的數(shù)據(jù)的信息提取。因此,可以根據(jù)網(wǎng)頁數(shù)據(jù)以及業(yè)務(wù)數(shù)據(jù)得到第一預(yù)設(shè)格式的數(shù)據(jù),然后利用彈性分布式數(shù)據(jù)模型對上述數(shù)據(jù)進行數(shù)據(jù)處理最終實現(xiàn)對網(wǎng)頁數(shù)據(jù)以及業(yè)務(wù)數(shù)據(jù)的信息提取。其中,利用彈性分布式數(shù)據(jù)模型進行信息提取時,可以對海量的數(shù)據(jù)進行操作,從而增加信息提取的工作效率;同時,具有強大的復(fù)原能力,可以實現(xiàn)多維度的信息提取,從而充分展示數(shù)據(jù)之間的關(guān)聯(lián)性。