一種推廣信息的檢測方法及裝置

基本信息

申請?zhí)?/td> CN201710113764.5 申請日 -
公開(公告)號 CN106909669B 公開(公告)日 2020-02-11
申請公布號 CN106909669B 申請公布日 2020-02-11
分類號 G06F16/9535;G06F16/335 分類 計算;推算;計數(shù);
發(fā)明人 張德斌 申請(專利權(quán))人 北京時間有限公司
代理機構(gòu) 北京市浩天知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 宋菲;劉蘭蘭
地址 100089 北京市海淀區(qū)西三環(huán)北路3號一區(qū)1號樓7層710
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種推廣信息的檢測方法及裝置,其涉及文本過濾處理技術(shù)領(lǐng)域,該方法包括:獲取預設(shè)的樣本集合,提取樣本集合中的各個樣本所包含的信息單元;統(tǒng)計每個信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預設(shè)的第一閾值的信息單元確定為候選特征單元;針對每個候選特征單元,分別統(tǒng)計該候選特征單元在各個文檔位置的分布情況,根據(jù)統(tǒng)計結(jié)果確定該候選特征單元是否為推廣特征單元;根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。由此可見,本發(fā)明能夠有效且準確地過濾廣告信息或垃圾推廣信息的效果,使得采用機器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了匯編自媒體平臺新聞的效率。