一種完整采集網(wǎng)頁(yè)信息的方法和系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201310102584.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN103186670B 公開(kāi)(公告)日 2016-04-13
申請(qǐng)公布號(hào) CN103186670B 申請(qǐng)公布日 2016-04-13
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 全小飛;柳香 申請(qǐng)(專利權(quán))人 北京中金云網(wǎng)科技有限公司
代理機(jī)構(gòu) 北京三聚陽(yáng)光知識(shí)產(chǎn)權(quán)代理有限公司 代理人 寇海俠
地址 100176 北京市大興區(qū)北京經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)博興八路1號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種完整采集網(wǎng)頁(yè)信息的方法和系統(tǒng),包括如下步驟:①在安裝有FireBug以及Cookies?Manager的瀏覽器中模擬用戶瀏覽瀏覽器的行為并保存Cookies信息、所有URL請(qǐng)求及服務(wù)器返回的第一響應(yīng)結(jié)果;②后臺(tái)運(yùn)行的瀏覽器模擬用戶瀏覽瀏覽器的行為并保存第二響應(yīng)結(jié)果;③將第一響應(yīng)結(jié)果中存在的第二響應(yīng)結(jié)果沒(méi)有的網(wǎng)頁(yè)信息補(bǔ)充到第二響應(yīng)結(jié)果中;④后臺(tái)運(yùn)行的瀏覽器根據(jù)補(bǔ)充后的第二響應(yīng)結(jié)果進(jìn)行網(wǎng)頁(yè)信息的采集,并保存。本發(fā)明所述的完整采集網(wǎng)頁(yè)信息的方法和系統(tǒng),后臺(tái)運(yùn)行的瀏覽器根據(jù)補(bǔ)充后的第二響應(yīng)結(jié)果可完成所有網(wǎng)頁(yè)信息的采集,且不占用瀏覽器的資源,從而解決了現(xiàn)有技術(shù)中動(dòng)態(tài)網(wǎng)頁(yè)采集方法無(wú)法獲取AJAX動(dòng)態(tài)生成的鏈接頁(yè)面的問(wèn)題。