一種基于視覺效果的正文識別算法

基本信息

申請?zhí)?/td> CN201410234558.6 申請日 -
公開(公告)號 CN105302805A 公開(公告)日 2016-02-03
申請公布號 CN105302805A 申請公布日 2016-02-03
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 呂永強 申請(專利權(quán))人 廣州市邦富軟件有限公司
代理機(jī)構(gòu) - 代理人 -
地址 510663 廣東省廣州市天河區(qū)天河軟件園高唐新建區(qū)廣州互聯(lián)網(wǎng)產(chǎn)業(yè)園1號樓第五層A501-A510房
法律狀態(tài) -

摘要

摘要 一種基于視覺效果的正文識別算法,所述算法步驟包括:(1)取出一篇網(wǎng)頁,提取標(biāo)題和正文;(2)提取該頁面的視覺表達(dá)部分,如HTML?Tag、JS和CSS;(3)對頁面中的有限狀態(tài)機(jī)進(jìn)行分析,獲得部分特殊視覺效果信息;(4)利用垂直渲染引擎計算出字體部分的js和css的效果屬性;(5)根據(jù)步驟2、3和4,得到以PT為單位的整篇文章的字體尺寸列表;(6)通過字體尺寸列表獲得字體權(quán)重排序;(7)通過字體顏色與頁面對比,獲得字體顏色權(quán)重列表;(8)通過字符串密度獲得密度權(quán)重列表;(9)根據(jù)步驟6、7和8進(jìn)行綜合運算,獲得整個網(wǎng)頁表達(dá)的語義與重心。