一種基于網(wǎng)絡(luò)爬蟲(chóng)的知識(shí)圖譜數(shù)據(jù)抽取方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202110034207.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112800305A 公開(kāi)(公告)日 2021-05-14
申請(qǐng)公布號(hào) CN112800305A 申請(qǐng)公布日 2021-05-14
分類(lèi)號(hào) G06F16/951;G06F16/36;G06F40/205 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 洪萬(wàn)福;錢(qián)智毅;吳文杰 申請(qǐng)(專利權(quán))人 廈門(mén)淵亭信息科技有限公司
代理機(jī)構(gòu) 北京鼎承知識(shí)產(chǎn)權(quán)代理有限公司 代理人 王義剛;賴慶梧
地址 361000 福建省廈門(mén)市軟件園二期望海路61號(hào)801單元N8-01
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例提供了一種基于網(wǎng)絡(luò)爬蟲(chóng)的知識(shí)圖譜數(shù)據(jù)抽取方法、裝置、可讀存儲(chǔ)介質(zhì)及計(jì)算設(shè)備,用于實(shí)現(xiàn)爬蟲(chóng)代碼復(fù)用,批量深度自動(dòng)化爬取網(wǎng)頁(yè)數(shù)據(jù),避免頁(yè)面變化導(dǎo)致需要大量修改網(wǎng)頁(yè)解析的代碼。方法包括:獲取用于爬取數(shù)據(jù)的目標(biāo)網(wǎng)頁(yè);配置所述目標(biāo)網(wǎng)頁(yè)的爬取規(guī)則和解析規(guī)則;根據(jù)所述爬取規(guī)則爬取所述目標(biāo)網(wǎng)頁(yè)和所述目標(biāo)網(wǎng)頁(yè)鏈接的網(wǎng)頁(yè);以及,根據(jù)所述解析規(guī)則獲取所述目標(biāo)網(wǎng)頁(yè)和所述目標(biāo)網(wǎng)頁(yè)鏈接的網(wǎng)頁(yè)中包含的實(shí)體信息與關(guān)系信息;根據(jù)所述實(shí)體信息與關(guān)系信息生成知識(shí)圖譜。