一種用于帶驗(yàn)證分布式智能爬取網(wǎng)絡(luò)信息的方法

基本信息

申請?zhí)?/td> CN201710005162.8 申請日 -
公開(公告)號 CN106897357A 公開(公告)日 2017-06-27
申請公布號 CN106897357A 申請公布日 2017-06-27
分類號 G06F17/30;G06F9/50 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王文峰;楊振;許千帆 申請(專利權(quán))人 北京京拍檔科技股份有限公司
代理機(jī)構(gòu) 北京中企鴻陽知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 郭鴻雁
地址 100085 北京市海淀區(qū)上地十街1號院6號樓3層345
法律狀態(tài) -

摘要

摘要 本發(fā)明提出了一種用于帶驗(yàn)證分布式智能爬取網(wǎng)絡(luò)信息的方法,包括:當(dāng)判斷網(wǎng)站的目標(biāo)頁面數(shù)據(jù)需要登錄驗(yàn)證后才能獲取時(shí),從數(shù)據(jù)庫獲取相應(yīng)的登錄信息,通過瀏覽器自動(dòng)登錄并提交驗(yàn)證信息;啟動(dòng)定時(shí)任務(wù)使用cookie訪問其網(wǎng)頁并留活處理;啟動(dòng)網(wǎng)絡(luò)抓包檢測器,根據(jù)數(shù)據(jù)業(yè)務(wù)需求訪問相應(yīng)目標(biāo)頁面,進(jìn)行HTTP報(bào)文分析,定制爬蟲腳本,確定任務(wù)爬取數(shù)據(jù)量;由主節(jié)點(diǎn)發(fā)出廣播,通知相應(yīng)的任務(wù)節(jié)點(diǎn),分發(fā)爬蟲腳本,任務(wù)節(jié)點(diǎn)啟動(dòng)并向主節(jié)點(diǎn)任務(wù)隊(duì)列申請任務(wù),根據(jù)申請到的任務(wù)進(jìn)行數(shù)據(jù)爬取,將爬取的目標(biāo)數(shù)據(jù)存入隊(duì)列,進(jìn)而批量存入數(shù)據(jù)庫。本發(fā)明實(shí)現(xiàn)可自動(dòng)登錄訪問受保護(hù)頁面,自動(dòng)生成挖掘腳本的,快速的可擴(kuò)展的分布式網(wǎng)頁爬蟲綜合框架。