自演進的網(wǎng)絡(luò)自適應(yīng)爬蟲方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201710798931.4 申請日 -
公開(公告)號 CN107580052A 公開(公告)日 2018-01-12
申請公布號 CN107580052A 申請公布日 2018-01-12
分類號 H04L29/08;H04L29/12;G06F17/30;G06N5/02 分類 電通信技術(shù);
發(fā)明人 何有樹;莫默;唐東;周維軍 申請(專利權(quán))人 翼果(深圳)科技有限公司
代理機構(gòu) - 代理人 -
地址 518000 廣東省深圳市南山區(qū)粵海街道軟件產(chǎn)業(yè)基地4棟B座203
法律狀態(tài) -

摘要

摘要 本發(fā)明實施例公開了一種自演進的網(wǎng)絡(luò)自適應(yīng)爬蟲方法及系統(tǒng),所述爬蟲方法包括:步驟1:接收采集任務(wù),若接收為IP地址進入步驟4,接收為域名則查詢是否存在于自建的DNS系統(tǒng),若存在,則查詢記錄是否超時,若未超時則進入步驟4;步驟2:若不存在或超時則查詢目標(biāo)網(wǎng)站的所有IP地址;步驟3:探測IP地址并生成域名IP列表并更新;步驟4:探測IP地址的網(wǎng)絡(luò)環(huán)境,結(jié)合探測結(jié)果分配爬蟲任務(wù);步驟5:預(yù)測采集模型并設(shè)置爬蟲,采集數(shù)據(jù)。本發(fā)明實施例通過自建DNS系統(tǒng)結(jié)合網(wǎng)絡(luò)環(huán)境生成負荷分擔(dān)任務(wù)以及通過預(yù)測采集模型,解決了爬蟲采集能力差及需經(jīng)常修改配置參數(shù)問題,進而提高了爬蟲的采集能力同時使爬蟲能自動適應(yīng)目標(biāo)網(wǎng)站的配置項。