一種網(wǎng)頁(yè)信息提取方法、裝置及終端
基本信息

| 申請(qǐng)?zhí)?/td> | CN201410483306.7 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN104268192B | 公開(kāi)(公告)日 | 2018-08-07 |
| 申請(qǐng)公布號(hào) | CN104268192B | 申請(qǐng)公布日 | 2018-08-07 |
| 分類(lèi)號(hào) | G06F17/30 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 鄺銳強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人 | 廣州獵豹網(wǎng)絡(luò)科技有限公司 |
| 代理機(jī)構(gòu) | 廣州三環(huán)專(zhuān)利商標(biāo)代理有限公司 | 代理人 | 廣州獵豹網(wǎng)絡(luò)科技有限公司 |
| 地址 | 510623 廣東省廣州市天河區(qū)華夏路26號(hào)雅居樂(lè)中心第15層自編07、08A單元 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明實(shí)施例公開(kāi)了一種網(wǎng)頁(yè)信息提取方法,包括:解析網(wǎng)頁(yè)信息并生成得到所述網(wǎng)頁(yè)信息的標(biāo)簽樹(shù),所述標(biāo)簽樹(shù)包括多個(gè)節(jié)點(diǎn),所述標(biāo)簽樹(shù)的各個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)于所述網(wǎng)頁(yè)信息中的一個(gè)內(nèi)容分塊;獲取預(yù)先建立的網(wǎng)頁(yè)信息詞庫(kù),所述網(wǎng)頁(yè)信息詞庫(kù)包括多種類(lèi)型的詞語(yǔ)集合,所述詞語(yǔ)集合中的各個(gè)詞語(yǔ)分別對(duì)應(yīng)一個(gè)權(quán)值;根據(jù)所述預(yù)先建立的網(wǎng)頁(yè)信息詞庫(kù),通過(guò)遍歷所述網(wǎng)頁(yè)信息的標(biāo)簽樹(shù)獲取所述網(wǎng)頁(yè)信息的正文內(nèi)容塊;根據(jù)所述網(wǎng)頁(yè)信息的正文內(nèi)容塊,對(duì)所述網(wǎng)頁(yè)信息中的至少一個(gè)內(nèi)容元素進(jìn)行提取。本發(fā)明實(shí)施例還公開(kāi)了網(wǎng)頁(yè)信息提取裝置及終端。采用本發(fā)明實(shí)施例,可以網(wǎng)頁(yè)信息的提取速度。 |





