基于分布式架構(gòu)的可視化主題網(wǎng)頁內(nèi)容爬取系統(tǒng)及方法
基本信息

| 申請?zhí)?/td> | CN201811041524.X | 申請日 | - |
| 公開(公告)號 | CN109284430A | 公開(公告)日 | 2019-01-29 |
| 申請公布號 | CN109284430A | 申請公布日 | 2019-01-29 |
| 分類號 | G06F16/951 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 王科 | 申請(專利權(quán))人 | 杭州艾塔科技有限公司 |
| 代理機構(gòu) | - | 代理人 | - |
| 地址 | 310052 浙江省杭州市濱江區(qū)長河街道越達巷79號2幢6層609室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明主要公開了基于分布式架構(gòu)的可視化主題網(wǎng)頁內(nèi)容爬取系統(tǒng)及方法,其技術(shù)方案:包括包括三大子系統(tǒng),分別為可視化子系統(tǒng)、爬取子系統(tǒng)以及分布式存儲索引子系統(tǒng);網(wǎng)頁內(nèi)容爬取方法通過任務(wù)初始化提交,任務(wù)生成,任務(wù)調(diào)度,任務(wù)執(zhí)行,任務(wù)狀態(tài)跟蹤五大步驟進行,本發(fā)明能夠高效并發(fā)支持網(wǎng)頁內(nèi)容請求,爬取各種主題網(wǎng)站,解析頁面源代碼后把非結(jié)構(gòu)化數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)存放在分布式存儲系統(tǒng)上索引,可以有效支撐后續(xù)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘,同時本發(fā)明在提高數(shù)據(jù)采集效率情況下能大大降低海量網(wǎng)頁采集的軟硬件成本。 |





