一種分布式大數(shù)據(jù)采集實(shí)現(xiàn)方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201910290171.5 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN110807137A | 公開(kāi)(公告)日 | 2020-02-18 |
| 申請(qǐng)公布號(hào) | CN110807137A | 申請(qǐng)公布日 | 2020-02-18 |
| 分類號(hào) | G06F16/951;G06F16/955 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 江晶 | 申請(qǐng)(專利權(quán))人 | 上海叢云信息科技有限公司 |
| 代理機(jī)構(gòu) | 上海宏京知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海叢云信息科技有限公司 |
| 地址 | 201203 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)郭守敬路351號(hào)2號(hào)樓A653-25室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其為一種分布式大數(shù)據(jù)采集實(shí)現(xiàn)方法,包括有抓取模塊、IP代理池模塊、解析模塊、URL處理模塊和數(shù)據(jù)存儲(chǔ)模塊,所述IP代理池模塊設(shè)置有代理更新、代理分配,所述解析模塊設(shè)置有URL數(shù)據(jù)抽取、基本數(shù)據(jù)抽取,所述URL處理模塊設(shè)置有URL過(guò)濾,所述URL過(guò)濾連接有URL列隊(duì),所述URL列隊(duì)連接有URL分配進(jìn)程。本發(fā)明通過(guò)切換代理來(lái)保證系統(tǒng)能持續(xù)工作,消除限制時(shí)間的等待,這將大大提高系統(tǒng)的采集效率。 |





