網(wǎng)頁正文的識別方法、裝置、電子設(shè)備及存儲介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202110823007.3 | 申請日 | - |
| 公開(公告)號 | CN113537091A | 公開(公告)日 | 2021-10-22 |
| 申請公布號 | CN113537091A | 申請公布日 | 2021-10-22 |
| 分類號 | G06K9/00(2006.01)I;G06K9/34(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 余良 | 申請(專利權(quán))人 | 東莞盟大集團有限公司 |
| 代理機構(gòu) | 廣州三環(huán)專利商標代理有限公司 | 代理人 | 張艷美;劉光明 |
| 地址 | 523000廣東省東莞市南城區(qū)周溪隆溪路5號高盛科技園二期之高盛科技大廈第7層701-703室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請公開了一種網(wǎng)頁正文的識別方法、裝置、電子設(shè)備及存儲介質(zhì),其中方法包括:獲取待分析網(wǎng)頁文本,待分析網(wǎng)頁文本包括字符行和空白行,單個空白行和多個連續(xù)排列的空白行視作間隔,間隔對應(yīng)的空白行數(shù)量表示該間隔的長度;根據(jù)待分析網(wǎng)頁文本的所有間隔計算得到一參考間隔長度;利用參考間隔長度過濾待分析網(wǎng)頁文本的所有間隔,以保留長度大于參考間隔長度的間隔;窮舉搜索任意兩行之間對應(yīng)的字符數(shù)和過濾后的所有間隔,并根據(jù)各搜索區(qū)域?qū)?yīng)的字符數(shù)和過濾后的所有間隔確定網(wǎng)頁正文。本申請具有較高識別準確率,還能適用于多種類型的網(wǎng)頁。 |





