萬維網(wǎng)網(wǎng)頁信息提取方法、存儲介質(zhì)及計算機設(shè)備

基本信息

申請?zhí)?/td> CN201810214406.8 申請日 -
公開(公告)號 CN108520007B 公開(公告)日 2021-09-28
申請公布號 CN108520007B 申請公布日 2021-09-28
分類號 G06F16/957(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 孫洋 申請(專利權(quán))人 江河瑞通(北京)技術(shù)有限公司
代理機構(gòu) 北京三友知識產(chǎn)權(quán)代理有限公司 代理人 賈磊;王濤
地址 100085北京市海淀區(qū)信息路28號7層A646
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種萬維網(wǎng)網(wǎng)頁信息提取方法、存儲介質(zhì)及計算機設(shè)備,該方法包括:通過互聯(lián)網(wǎng)超文本傳輸協(xié)議獲取萬維網(wǎng)網(wǎng)頁的HTML文檔;從所述HTML文檔提取網(wǎng)頁信息,包括:從所述HTML文檔提取關(guān)鍵字;將所述HTML文檔分割為正文部分和標(biāo)題部分;根據(jù)詞頻匹配度從所述標(biāo)題部分提取標(biāo)題;通過匹配日期表達(dá)式從所述HTML文檔提取發(fā)布時間;通過底部特征信息分析從所述正文部分提取正文內(nèi)容;從所述正文內(nèi)容提取摘要;其中,所述網(wǎng)頁信息包含所述標(biāo)題、所述發(fā)布時間、所述摘要、所述關(guān)鍵字及所述正文內(nèi)容中的一個或多個。本發(fā)明能夠從萬維網(wǎng)網(wǎng)頁中提取真實信息。