新聞網(wǎng)頁要素自動提取方法

基本信息

申請?zhí)?/td> CN201210232831.2 申請日 -
公開(公告)號 CN102750390A 公開(公告)日 2012-10-24
申請公布號 CN102750390A 申請公布日 2012-10-24
分類號 G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張長水;宋成儒;翁時鋒 申請(專利權(quán))人 寧波中青華云新媒體科技有限公司
代理機(jī)構(gòu) 上海唯源專利代理有限公司 代理人 翁時鋒;寧波中青華云新媒體科技有限公司
地址 315192 浙江省寧波市鄞州區(qū)學(xué)士路298號科技中心514室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種新聞網(wǎng)頁要素自動提取方法,包括以下步驟:(1)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典;(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞颍约袄盟鲫P(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)?。本發(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。