一種基于異步aiohttp多平臺分布式數(shù)據(jù)爬取方法
基本信息

| 申請?zhí)?/td> | CN202110029155.8 | 申請日 | - |
| 公開(公告)號 | CN112732996A | 公開(公告)日 | 2021-04-30 |
| 申請公布號 | CN112732996A | 申請公布日 | 2021-04-30 |
| 分類號 | G06F16/951;G06F16/955;G06F16/27 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 廖杰;李林渡;張衍彬 | 申請(專利權)人 | 深圳市洪堡智慧餐飲科技有限公司 |
| 代理機構 | 深圳市深聯(lián)知識產權代理事務所(普通合伙) | 代理人 | 張琪 |
| 地址 | 518000 廣東省深圳市福田區(qū)梅林街道孖嶺社區(qū)凱豐路10號翠林大廈8層808A | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及數(shù)據(jù)爬取技術領域,具體為一種基于異步aiohttp多平臺分布式數(shù)據(jù)爬取方法,該方法的步驟如下:步驟一、服務中心分發(fā)url任務到客戶端;步驟二、客戶端從配置中心讀取配置;步驟三、多個客戶端對多個url任務進行下載內容;步驟四、對下載的內容進行解析并清洗存入數(shù)據(jù)庫;步驟五、利用日志中心收集日志;步驟六、打開監(jiān)控中心查看資源情況、查看結果。本發(fā)明通過任務多平臺分發(fā)利用kafka發(fā)布?訂閱消息傳遞模式,只有訂閱了topic的訂閱者才會收到消息,這樣可以把多平臺進行區(qū)分,任務去重原理利用redis的set集合特性自帶去重功能;本發(fā)明利用async異步特性進行發(fā)送請求,網(wǎng)絡io不會造成阻塞,實現(xiàn)高并發(fā),高可用,通過上述方式可有效提高數(shù)據(jù)爬取速度。 |





