一種用于帶驗(yàn)證分布式智能爬取網(wǎng)絡(luò)信息的方法
基本信息

| 申請?zhí)?/td> | CN201710005162.8 | 申請日 | - |
| 公開(公告)號 | CN106897357A | 公開(公告)日 | 2017-06-27 |
| 申請公布號 | CN106897357A | 申請公布日 | 2017-06-27 |
| 分類號 | G06F17/30;G06F9/50 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 王文峰;楊振;許千帆 | 申請(專利權(quán))人 | 北京京拍檔科技股份有限公司 |
| 代理機(jī)構(gòu) | 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭鴻雁 |
| 地址 | 100085 北京市海淀區(qū)上地十街1號院6號樓3層345 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出了一種用于帶驗(yàn)證分布式智能爬取網(wǎng)絡(luò)信息的方法,包括:當(dāng)判斷網(wǎng)站的目標(biāo)頁面數(shù)據(jù)需要登錄驗(yàn)證后才能獲取時(shí),從數(shù)據(jù)庫獲取相應(yīng)的登錄信息,通過瀏覽器自動(dòng)登錄并提交驗(yàn)證信息;啟動(dòng)定時(shí)任務(wù)使用cookie訪問其網(wǎng)頁并留活處理;啟動(dòng)網(wǎng)絡(luò)抓包檢測器,根據(jù)數(shù)據(jù)業(yè)務(wù)需求訪問相應(yīng)目標(biāo)頁面,進(jìn)行HTTP報(bào)文分析,定制爬蟲腳本,確定任務(wù)爬取數(shù)據(jù)量;由主節(jié)點(diǎn)發(fā)出廣播,通知相應(yīng)的任務(wù)節(jié)點(diǎn),分發(fā)爬蟲腳本,任務(wù)節(jié)點(diǎn)啟動(dòng)并向主節(jié)點(diǎn)任務(wù)隊(duì)列申請任務(wù),根據(jù)申請到的任務(wù)進(jìn)行數(shù)據(jù)爬取,將爬取的目標(biāo)數(shù)據(jù)存入隊(duì)列,進(jìn)而批量存入數(shù)據(jù)庫。本發(fā)明實(shí)現(xiàn)可自動(dòng)登錄訪問受保護(hù)頁面,自動(dòng)生成挖掘腳本的,快速的可擴(kuò)展的分布式網(wǎng)頁爬蟲綜合框架。 |





