一種基于網(wǎng)絡(luò)爬蟲(chóng)的知識(shí)圖譜數(shù)據(jù)抽取方法及裝置
基本信息

| 申請(qǐng)?zhí)?/td> | CN202110034207.0 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN112800305A | 公開(kāi)(公告)日 | 2021-05-14 |
| 申請(qǐng)公布號(hào) | CN112800305A | 申請(qǐng)公布日 | 2021-05-14 |
| 分類(lèi)號(hào) | G06F16/951;G06F16/36;G06F40/205 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 洪萬(wàn)福;錢(qián)智毅;吳文杰 | 申請(qǐng)(專利權(quán))人 | 廈門(mén)淵亭信息科技有限公司 |
| 代理機(jī)構(gòu) | 北京鼎承知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 王義剛;賴慶梧 |
| 地址 | 361000 福建省廈門(mén)市軟件園二期望海路61號(hào)801單元N8-01 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明實(shí)施例提供了一種基于網(wǎng)絡(luò)爬蟲(chóng)的知識(shí)圖譜數(shù)據(jù)抽取方法、裝置、可讀存儲(chǔ)介質(zhì)及計(jì)算設(shè)備,用于實(shí)現(xiàn)爬蟲(chóng)代碼復(fù)用,批量深度自動(dòng)化爬取網(wǎng)頁(yè)數(shù)據(jù),避免頁(yè)面變化導(dǎo)致需要大量修改網(wǎng)頁(yè)解析的代碼。方法包括:獲取用于爬取數(shù)據(jù)的目標(biāo)網(wǎng)頁(yè);配置所述目標(biāo)網(wǎng)頁(yè)的爬取規(guī)則和解析規(guī)則;根據(jù)所述爬取規(guī)則爬取所述目標(biāo)網(wǎng)頁(yè)和所述目標(biāo)網(wǎng)頁(yè)鏈接的網(wǎng)頁(yè);以及,根據(jù)所述解析規(guī)則獲取所述目標(biāo)網(wǎng)頁(yè)和所述目標(biāo)網(wǎng)頁(yè)鏈接的網(wǎng)頁(yè)中包含的實(shí)體信息與關(guān)系信息;根據(jù)所述實(shí)體信息與關(guān)系信息生成知識(shí)圖譜。 |





