一種推廣信息的檢測方法及裝置
基本信息

| 申請?zhí)?/td> | CN201710113764.5 | 申請日 | - |
| 公開(公告)號 | CN106909669B | 公開(公告)日 | 2020-02-11 |
| 申請公布號 | CN106909669B | 申請公布日 | 2020-02-11 |
| 分類號 | G06F16/9535;G06F16/335 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 張德斌 | 申請(專利權(quán))人 | 北京時間有限公司 |
| 代理機構(gòu) | 北京市浩天知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 宋菲;劉蘭蘭 |
| 地址 | 100089 北京市海淀區(qū)西三環(huán)北路3號一區(qū)1號樓7層710 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種推廣信息的檢測方法及裝置,其涉及文本過濾處理技術(shù)領(lǐng)域,該方法包括:獲取預設(shè)的樣本集合,提取樣本集合中的各個樣本所包含的信息單元;統(tǒng)計每個信息單元在樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預設(shè)的第一閾值的信息單元確定為候選特征單元;針對每個候選特征單元,分別統(tǒng)計該候選特征單元在各個文檔位置的分布情況,根據(jù)統(tǒng)計結(jié)果確定該候選特征單元是否為推廣特征單元;根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。由此可見,本發(fā)明能夠有效且準確地過濾廣告信息或垃圾推廣信息的效果,使得采用機器抓取方法也能提取到純凈的新聞內(nèi)容,極大地提高了匯編自媒體平臺新聞的效率。 |





