一種網(wǎng)頁(yè)信息提取方法、裝置及終端

基本信息

申請(qǐng)?zhí)?/td> CN201410483306.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104268192B 公開(kāi)(公告)日 2018-08-07
申請(qǐng)公布號(hào) CN104268192B 申請(qǐng)公布日 2018-08-07
分類(lèi)號(hào) G06F17/30 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 鄺銳強(qiáng) 申請(qǐng)(專(zhuān)利權(quán))人 廣州獵豹網(wǎng)絡(luò)科技有限公司
代理機(jī)構(gòu) 廣州三環(huán)專(zhuān)利商標(biāo)代理有限公司 代理人 廣州獵豹網(wǎng)絡(luò)科技有限公司
地址 510623 廣東省廣州市天河區(qū)華夏路26號(hào)雅居樂(lè)中心第15層自編07、08A單元
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例公開(kāi)了一種網(wǎng)頁(yè)信息提取方法,包括:解析網(wǎng)頁(yè)信息并生成得到所述網(wǎng)頁(yè)信息的標(biāo)簽樹(shù),所述標(biāo)簽樹(shù)包括多個(gè)節(jié)點(diǎn),所述標(biāo)簽樹(shù)的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)于所述網(wǎng)頁(yè)信息中的一個(gè)內(nèi)容分塊;獲取預(yù)先建立的網(wǎng)頁(yè)信息詞庫(kù),所述網(wǎng)頁(yè)信息詞庫(kù)包括多種類(lèi)型的詞語(yǔ)集合,所述詞語(yǔ)集合中的各個(gè)詞語(yǔ)分別對(duì)應(yīng)一個(gè)權(quán)值;根據(jù)所述預(yù)先建立的網(wǎng)頁(yè)信息詞庫(kù),通過(guò)遍歷所述網(wǎng)頁(yè)信息的標(biāo)簽樹(shù)獲取所述網(wǎng)頁(yè)信息的正文內(nèi)容塊;根據(jù)所述網(wǎng)頁(yè)信息的正文內(nèi)容塊,對(duì)所述網(wǎng)頁(yè)信息中的至少一個(gè)內(nèi)容元素進(jìn)行提取。本發(fā)明實(shí)施例還公開(kāi)了網(wǎng)頁(yè)信息提取裝置及終端。采用本發(fā)明實(shí)施例,可以網(wǎng)頁(yè)信息的提取速度。