一種基于關(guān)鍵字加權(quán)算法的輿情熱詞發(fā)現(xiàn)方法
基本信息

| 申請?zhí)?/td> | CN201610123465.5 | 申請日 | - |
| 公開(公告)號 | CN107153658A | 公開(公告)日 | 2017-09-12 |
| 申請公布號 | CN107153658A | 申請公布日 | 2017-09-12 |
| 分類號 | G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 趙一昕;李華康;楊天若;楊天楚 | 申請(專利權(quán))人 | 常州市公共交通集團(tuán)有限責(zé)任公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 213000 江蘇省常州市新北區(qū)河海中路85號浙江大學(xué)常州工業(yè)技術(shù)學(xué)院215 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種熱詞發(fā)現(xiàn)方法,具體涉及一種基于關(guān)鍵字加權(quán)算法的熱詞發(fā)現(xiàn)方法。本發(fā)明利用中文分詞工具對海量的輿情信息進(jìn)行初步分詞,并給出詞性標(biāo)注,同時結(jié)合一個IDF表、一個過濾詞表和一個詞性權(quán)值表,依據(jù)加權(quán)式TF?IDF算法進(jìn)行候選詞語熱度值計算,該計算不僅僅只依據(jù)詞頻,而是充分考慮了詞語的詞性、位置等所包含的有效信息,為熱詞識別提供了可靠性依據(jù)。另外,本發(fā)明充分考慮了自媒體時代下輿情標(biāo)題主題鮮明的特點,主要對輿情標(biāo)題進(jìn)行語料處理,解決了海量輿情信息下的熱詞識別的效率問題。最后對IDF表實現(xiàn)動態(tài)的增量式更新,保證了詞語反文檔頻率的實時性,提高了熱詞識別的準(zhǔn)確度。 |





