一種通用的互聯網數據采集反反爬系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201711037128.5 申請日 -
公開(公告)號 CN109729044B 公開(公告)日 2022-01-14
申請公布號 CN109729044B 申請公布日 2022-01-14
分類號 H04L9/40(2022.01)I;H04L67/02(2022.01)I;鄭豪等.基于Java平臺的分布式網絡爬蟲系統(tǒng)研究.《科技創(chuàng)新與應用》.2017,(第1期),第112頁.;何俊杰.教育新聞平臺的優(yōu)化設計與實現.《中國優(yōu)秀碩士學位論文全文數據庫 信息科級輯》.2017,正文第3章第3.4節(jié).;路過你的苦.爬蟲間隔抓取服務器網頁.《https://www.cnblogs.com/siliconvalley/archive/2013/05/27/3102709.html》.2013,第1-5頁.;鄒科文等.網絡爬蟲針對“反爬”網站的爬取策略研究.《電腦知識與技術》.2016,第12卷(第7期),第61-63頁. 分類 電通信技術;
發(fā)明人 白曉哲;尚林林 申請(專利權)人 北京宸瑞科技股份有限公司
代理機構 北京康思博達知識產權代理事務所(普通合伙) 代理人 劉冬梅;路永斌
地址 100190北京市海淀區(qū)中關村北二條13號46幢1層102
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種通用的互聯網數據采集反反爬方法及系統(tǒng),該方法通過UA驗證單元(01)向服務器提供隨機UA頭、通過IP驗證單元(02)向服務器提供隨機代理IP、通過間隔驗證單元(03)有根據的隨機化請求間隔、通過授權狀態(tài)驗證單元(04)模擬登錄、以及通過驗證碼識別單元(05)進行驗證碼識別或通過上述組合以分別應對互聯網反爬驗證中的請求UA驗證、請求IP驗證、請求間隔驗證、授權狀態(tài)驗證、人工操作驗證或其組合,上述方式可繞過對多種反爬驗證手段組合的攔截,實現對網站信息的有效獲取。