一種基于視覺效果的正文識別算法
基本信息

| 申請?zhí)?/td> | CN201410234558.6 | 申請日 | - |
| 公開(公告)號 | CN105302805A | 公開(公告)日 | 2016-02-03 |
| 申請公布號 | CN105302805A | 申請公布日 | 2016-02-03 |
| 分類號 | G06F17/30(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 呂永強 | 申請(專利權(quán))人 | 廣州市邦富軟件有限公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 510663 廣東省廣州市天河區(qū)天河軟件園高唐新建區(qū)廣州互聯(lián)網(wǎng)產(chǎn)業(yè)園1號樓第五層A501-A510房 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 一種基于視覺效果的正文識別算法,所述算法步驟包括:(1)取出一篇網(wǎng)頁,提取標(biāo)題和正文;(2)提取該頁面的視覺表達(dá)部分,如HTML?Tag、JS和CSS;(3)對頁面中的有限狀態(tài)機(jī)進(jìn)行分析,獲得部分特殊視覺效果信息;(4)利用垂直渲染引擎計算出字體部分的js和css的效果屬性;(5)根據(jù)步驟2、3和4,得到以PT為單位的整篇文章的字體尺寸列表;(6)通過字體尺寸列表獲得字體權(quán)重排序;(7)通過字體顏色與頁面對比,獲得字體顏色權(quán)重列表;(8)通過字符串密度獲得密度權(quán)重列表;(9)根據(jù)步驟6、7和8進(jìn)行綜合運算,獲得整個網(wǎng)頁表達(dá)的語義與重心。 |





