一種數(shù)據(jù)爬取方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201810508823.3 申請(qǐng)日 -
公開(公告)號(hào) CN108846025A 公開(公告)日 2018-11-20
申請(qǐng)公布號(hào) CN108846025A 申請(qǐng)公布日 2018-11-20
分類號(hào) G06F17/30 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 向開娓 申請(qǐng)(專利權(quán))人 上海鋼聯(lián)電子商務(wù)股份有限公司
代理機(jī)構(gòu) 北京維正專利代理有限公司 代理人 洪敏;謝緒寧
地址 201900 上海市寶山區(qū)園豐路68號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種數(shù)據(jù)爬取方法和系統(tǒng),涉及數(shù)據(jù)采集技術(shù)領(lǐng)域,解決了現(xiàn)有技術(shù)爬取對(duì)象單一,數(shù)據(jù)管理不夠完善,數(shù)據(jù)爬取不夠系統(tǒng)化的缺點(diǎn)。該方法包括:將數(shù)據(jù)進(jìn)行分類;根據(jù)采集任務(wù)對(duì)數(shù)據(jù)進(jìn)行爬??;查詢采集成功的指標(biāo)數(shù)據(jù)結(jié)果和異常結(jié)果。通過(guò)對(duì)所要爬取的數(shù)據(jù)進(jìn)行分類,根據(jù)管理員的需求設(shè)置對(duì)應(yīng)的采集任務(wù),能夠提高數(shù)據(jù)的提取效率,而根據(jù)是否已采集過(guò)數(shù)據(jù)的指標(biāo)來(lái)選擇數(shù)據(jù)采集規(guī)則,避免了數(shù)據(jù)的重復(fù)采集和遺漏。