一種網(wǎng)頁分類方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN201611117608.8 申請日 -
公開(公告)號 CN106599155B 公開(公告)日 2020-05-26
申請公布號 CN106599155B 申請公布日 2020-05-26
分類號 G06F16/35;G06F40/284;G06K9/62 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 謝念;周名揚(yáng);洪秋月;潘練;金堯;林飛;唐新民;沈智杰;景曉軍 申請(專利權(quán))人 任子行網(wǎng)絡(luò)技術(shù)股份有限公司
代理機(jī)構(gòu) 深圳市順天達(dá)專利商標(biāo)代理有限公司 代理人 任子行網(wǎng)絡(luò)技術(shù)股份有限公司;北京亞鴻世紀(jì)科技發(fā)展有限公司
地址 100088 北京市海淀區(qū)學(xué)院南路12號院57號1層105-1室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網(wǎng)頁分類方法,包括:抓取并從網(wǎng)頁的文本數(shù)據(jù)中提取所述網(wǎng)頁的關(guān)鍵詞;將所述關(guān)鍵詞與已分類好的網(wǎng)頁特征詞庫中的特征詞進(jìn)行匹配,統(tǒng)計(jì)所述特征詞的詞頻總數(shù);判斷所述詞頻總數(shù)是否小于預(yù)設(shè)的閾值;若是,則截取并根據(jù)所述網(wǎng)頁的頁面圖像對所述網(wǎng)頁進(jìn)行分類;若否,則根據(jù)多個(gè)所述特征詞及其對應(yīng)的詞頻對所述網(wǎng)頁進(jìn)行分類。由此,所述方法綜合利用圖像信息與文本信息,有機(jī)地結(jié)合了基于文本信息對網(wǎng)頁進(jìn)行分類和基于圖像信息對網(wǎng)頁進(jìn)行分類的方法,通過準(zhǔn)確的判斷待分類網(wǎng)頁屬于短文本網(wǎng)頁還是長文本網(wǎng)頁,選擇最合適有效的網(wǎng)頁分類步驟,相比現(xiàn)有的網(wǎng)頁分類方法,其在對現(xiàn)行的網(wǎng)頁進(jìn)行分類時(shí)有更高的準(zhǔn)確率和召回率。