一種網(wǎng)頁分類方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN201611117608.8 | 申請日 | - |
| 公開(公告)號 | CN106599155B | 公開(公告)日 | 2020-05-26 |
| 申請公布號 | CN106599155B | 申請公布日 | 2020-05-26 |
| 分類號 | G06F16/35;G06F40/284;G06K9/62 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 謝念;周名揚(yáng);洪秋月;潘練;金堯;林飛;唐新民;沈智杰;景曉軍 | 申請(專利權(quán))人 | 任子行網(wǎng)絡(luò)技術(shù)股份有限公司 |
| 代理機(jī)構(gòu) | 深圳市順天達(dá)專利商標(biāo)代理有限公司 | 代理人 | 任子行網(wǎng)絡(luò)技術(shù)股份有限公司;北京亞鴻世紀(jì)科技發(fā)展有限公司 |
| 地址 | 100088 北京市海淀區(qū)學(xué)院南路12號院57號1層105-1室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種網(wǎng)頁分類方法,包括:抓取并從網(wǎng)頁的文本數(shù)據(jù)中提取所述網(wǎng)頁的關(guān)鍵詞;將所述關(guān)鍵詞與已分類好的網(wǎng)頁特征詞庫中的特征詞進(jìn)行匹配,統(tǒng)計(jì)所述特征詞的詞頻總數(shù);判斷所述詞頻總數(shù)是否小于預(yù)設(shè)的閾值;若是,則截取并根據(jù)所述網(wǎng)頁的頁面圖像對所述網(wǎng)頁進(jìn)行分類;若否,則根據(jù)多個(gè)所述特征詞及其對應(yīng)的詞頻對所述網(wǎng)頁進(jìn)行分類。由此,所述方法綜合利用圖像信息與文本信息,有機(jī)地結(jié)合了基于文本信息對網(wǎng)頁進(jìn)行分類和基于圖像信息對網(wǎng)頁進(jìn)行分類的方法,通過準(zhǔn)確的判斷待分類網(wǎng)頁屬于短文本網(wǎng)頁還是長文本網(wǎng)頁,選擇最合適有效的網(wǎng)頁分類步驟,相比現(xiàn)有的網(wǎng)頁分類方法,其在對現(xiàn)行的網(wǎng)頁進(jìn)行分類時(shí)有更高的準(zhǔn)確率和召回率。 |





