新聞網(wǎng)頁要素自動提取方法

基本信息

申請?zhí)?/td> CN201210232831.2 申請日 -
公開(公告)號 CN102750390B 公開(公告)日 2014-07-23
申請公布號 CN102750390B 申請公布日 2014-07-23
分類號 G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張長水;宋成儒;翁時鋒 申請(專利權(quán))人 寧波中青華云新媒體科技有限公司
代理機(jī)構(gòu) 上海唯源專利代理有限公司 代理人 曾耀先
地址 315192 浙江省寧波市鄞州區(qū)學(xué)士路298號科技中心514室
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種新聞網(wǎng)頁要素自動提取方法,包括以下步驟:(1)提取網(wǎng)頁源碼中網(wǎng)頁標(biāo)題與網(wǎng)頁元信息,并得到有關(guān)網(wǎng)頁內(nèi)容的關(guān)鍵詞詞典;(2)對網(wǎng)頁源碼中的文字節(jié)點(diǎn)進(jìn)行遍歷,并按照新聞標(biāo)題-發(fā)布時間-消息來源-新聞?wù)幕蛘咝侣剺?biāo)題-消息來源-發(fā)布時間-新聞?wù)牡捻樞?,以及利用所述關(guān)鍵詞詞典檢測并提取新聞標(biāo)題、發(fā)布時間、消息來源和新聞?wù)摹1景l(fā)明不會對特定模板產(chǎn)生依賴,具有很強(qiáng)的通用性。