一種分布式大數(shù)據(jù)采集實(shí)現(xiàn)方法

基本信息

申請(qǐng)?zhí)?/td> CN201910290171.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110807137A 公開(kāi)(公告)日 2020-02-18
申請(qǐng)公布號(hào) CN110807137A 申請(qǐng)公布日 2020-02-18
分類號(hào) G06F16/951;G06F16/955 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 江晶 申請(qǐng)(專利權(quán))人 上海叢云信息科技有限公司
代理機(jī)構(gòu) 上海宏京知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海叢云信息科技有限公司
地址 201203 上海市浦東新區(qū)中國(guó)(上海)自由貿(mào)易試驗(yàn)區(qū)郭守敬路351號(hào)2號(hào)樓A653-25室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及大數(shù)據(jù)技術(shù)領(lǐng)域,尤其為一種分布式大數(shù)據(jù)采集實(shí)現(xiàn)方法,包括有抓取模塊、IP代理池模塊、解析模塊、URL處理模塊和數(shù)據(jù)存儲(chǔ)模塊,所述IP代理池模塊設(shè)置有代理更新、代理分配,所述解析模塊設(shè)置有URL數(shù)據(jù)抽取、基本數(shù)據(jù)抽取,所述URL處理模塊設(shè)置有URL過(guò)濾,所述URL過(guò)濾連接有URL列隊(duì),所述URL列隊(duì)連接有URL分配進(jìn)程。本發(fā)明通過(guò)切換代理來(lái)保證系統(tǒng)能持續(xù)工作,消除限制時(shí)間的等待,這將大大提高系統(tǒng)的采集效率。