網(wǎng)頁數(shù)據(jù)采集方法、裝置及計算機可讀存儲介質(zhì)
基本信息

| 申請?zhí)?/td> | CN201910327071.5 | 申請日 | - |
| 公開(公告)號 | CN110334259A | 公開(公告)日 | 2019-10-15 |
| 申請公布號 | CN110334259A | 申請公布日 | 2019-10-15 |
| 分類號 | G06F16/951;G06F16/958 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 吳宇航;熊小兵;易宇豪 | 申請(專利權(quán))人 | 新分享科技服務(wù)(深圳)有限公司 |
| 代理機構(gòu) | 深圳市恒程創(chuàng)新知識產(chǎn)權(quán)代理有限公司 | 代理人 | 新分享科技服務(wù)(深圳)有限公司 |
| 地址 | 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務(wù)秘書有限公司) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)采集方法、裝置以及計算機可讀存儲介質(zhì),包括以下步驟:獲取預(yù)設(shè)的目標(biāo)網(wǎng)址以及數(shù)據(jù)采集模板;根據(jù)所述數(shù)據(jù)采集模板獲取所述目標(biāo)網(wǎng)址的訪問數(shù)據(jù)信息,所述訪問數(shù)據(jù)信息包括數(shù)據(jù)內(nèi)容、數(shù)據(jù)發(fā)布時間、數(shù)據(jù)來源以及標(biāo)題;存儲所述訪問數(shù)據(jù)信息。因本發(fā)明能夠根據(jù)目標(biāo)網(wǎng)址的超文本標(biāo)記語言信息生成對應(yīng)的數(shù)據(jù)采集模板,然后按照預(yù)設(shè)采集規(guī)則通過數(shù)據(jù)采集模板采集目標(biāo)網(wǎng)址的訪問數(shù)據(jù)信息,從而解決了在有大量輿情信息數(shù)據(jù)的情況下人工收集輿情信息的方式效率較低的問題。 |





