新聞網(wǎng)頁要素自動提取方法
基本信息

| 申請?zhí)?/td> | CN201210232831.2 | 申請日 | - |
| 公開(公告)號 | CN102750390A | 公開(公告)日 | 2012-10-24 |
| 申請公布號 | CN102750390A | 申請公布日 | 2012-10-24 |
| 分類號 | G06F17/30(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 張長水;宋成儒;翁時鋒 | 申請(專利權(quán))人 | 寧波中青華云新媒體科技有限公司 |
| 代理機(jī)構(gòu) | 上海唯源專利代理有限公司 | 代理人 | 翁時鋒;寧波中青華云新媒體科技有限公司 |
| 地址 | 315192 浙江省寧波市鄞州區(qū)學(xué)士路298號科技中心514室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出一種新聞網(wǎng)頁要素自動提取方法,包括以下步驟:(1)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典;(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞颍约袄盟鲫P(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)?。本發(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。 |





