一種基于異步aiohttp多平臺分布式數(shù)據(jù)爬取方法

基本信息

申請?zhí)?/td> CN202110029155.8 申請日 -
公開(公告)號 CN112732996A 公開(公告)日 2021-04-30
申請公布號 CN112732996A 申請公布日 2021-04-30
分類號 G06F16/951;G06F16/955;G06F16/27 分類 計算;推算;計數(shù);
發(fā)明人 廖杰;李林渡;張衍彬 申請(專利權)人 深圳市洪堡智慧餐飲科技有限公司
代理機構 深圳市深聯(lián)知識產權代理事務所(普通合伙) 代理人 張琪
地址 518000 廣東省深圳市福田區(qū)梅林街道孖嶺社區(qū)凱豐路10號翠林大廈8層808A
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及數(shù)據(jù)爬取技術領域,具體為一種基于異步aiohttp多平臺分布式數(shù)據(jù)爬取方法,該方法的步驟如下:步驟一、服務中心分發(fā)url任務到客戶端;步驟二、客戶端從配置中心讀取配置;步驟三、多個客戶端對多個url任務進行下載內容;步驟四、對下載的內容進行解析并清洗存入數(shù)據(jù)庫;步驟五、利用日志中心收集日志;步驟六、打開監(jiān)控中心查看資源情況、查看結果。本發(fā)明通過任務多平臺分發(fā)利用kafka發(fā)布?訂閱消息傳遞模式,只有訂閱了topic的訂閱者才會收到消息,這樣可以把多平臺進行區(qū)分,任務去重原理利用redis的set集合特性自帶去重功能;本發(fā)明利用async異步特性進行發(fā)送請求,網(wǎng)絡io不會造成阻塞,實現(xiàn)高并發(fā),高可用,通過上述方式可有效提高數(shù)據(jù)爬取速度。