一種基于多示例學(xué)習(xí)的有害信息識(shí)別和網(wǎng)頁(yè)分類(lèi)方法

基本信息

申請(qǐng)?zhí)?/td> CN201410609728.4 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104361059A 公開(kāi)(公告)日 2015-02-18
申請(qǐng)公布號(hào) CN104361059A 申請(qǐng)公布日 2015-02-18
分類(lèi)號(hào) G06F17/30(2006.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 胡衛(wèi)明;胡瑞光 申請(qǐng)(專利權(quán))人 人民中科(山東)智能技術(shù)有限公司
代理機(jī)構(gòu) 中科專利商標(biāo)代理有限責(zé)任公司 代理人 宋焰琴
地址 100190 北京市海淀區(qū)中關(guān)村東路95號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于多示例學(xué)習(xí)的網(wǎng)頁(yè)分類(lèi)方法,該方法包括:設(shè)計(jì)了相對(duì)大小排序前向比較法來(lái)提取網(wǎng)頁(yè)內(nèi)有效圖像,并根據(jù)網(wǎng)頁(yè)樹(shù)狀結(jié)構(gòu)提取有效圖像的相關(guān)文本;將一幅有效圖像及其相關(guān)文本作為網(wǎng)頁(yè)包中的一個(gè)示例,分別采用圖像詞包模型和文本詞包模型生成有效圖像及其相關(guān)文本的描述,并將二者合并起來(lái)作為示例的描述;采用多示例核對(duì)毒品網(wǎng)頁(yè)進(jìn)行分類(lèi)。本發(fā)明的方法,通過(guò)將網(wǎng)頁(yè)中內(nèi)含的圖像及其相關(guān)文本作為網(wǎng)頁(yè)包中的示例,使算法更符合網(wǎng)頁(yè)內(nèi)容的實(shí)際分布,并能夠充分利用網(wǎng)頁(yè)的有效信息,深入挖掘圖像信息與文本信息的互補(bǔ)性,最終取得比只利用單模態(tài)信息進(jìn)行分類(lèi)更好的效果。