網(wǎng)頁內(nèi)容自動提取方法

基本信息

申請?zhí)?/td> CN201811067868.8 申請日 -
公開(公告)號 CN109325204B 公開(公告)日 2022-01-07
申請公布號 CN109325204B 申請公布日 2022-01-07
分類號 G06F16/958(2019.01)I;G06F16/957(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王世陽;李陽 申請(專利權(quán))人 武漢伯遠(yuǎn)生物科技有限公司
代理機(jī)構(gòu) 上海精晟知識產(chǎn)權(quán)代理有限公司 代理人 馮子玲
地址 430000湖北省武漢市東湖開發(fā)區(qū)高新大道666號武漢國家生物產(chǎn)業(yè)基地項目B、C、D區(qū)研發(fā)樓B1棟(B8-5)
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于網(wǎng)頁內(nèi)容提取技術(shù)領(lǐng)域,具體涉及一種網(wǎng)頁內(nèi)容自動提取方法,特別是適用于期刊文獻(xiàn)摘要頁面內(nèi)容的提取,包括:S1、將HTML重新渲染;S2、對DOM樹進(jìn)行分割;S3、對侯選視覺塊進(jìn)行預(yù)標(biāo)注;S4、對侯選視覺塊進(jìn)行標(biāo)注。該方法采用快速傅里葉變換(FFT)和對數(shù)蓋伯濾波器取代傳統(tǒng)視覺算法,降低了時間、空間復(fù)雜度,提高了算法的時間、空間效率。