一種面向微博的動態(tài)主題檢測與演變追蹤方法

基本信息

申請?zhí)?/td> CN201410488391.6 申請日 -
公開(公告)號 CN104199974A 公開(公告)日 2014-12-10
申請公布號 CN104199974A 申請公布日 2014-12-10
分類號 G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 閆碧瑩;鄧攀;余雷;趙鑫;袁偉;萬安格 申請(專利權(quán))人 中科明遠(yuǎn)(北京)并行軟件有限公司
代理機構(gòu) 北京永創(chuàng)新實專利事務(wù)所 代理人 趙文利
地址 100190 北京市海淀區(qū)中關(guān)村南四街4號
法律狀態(tài) -

摘要

摘要 本發(fā)明提出一種面向微博的動態(tài)主題檢測與演變追蹤方法,屬于智能信息處理技術(shù)領(lǐng)域。方法包括:步驟1,構(gòu)建分布式爬蟲,獲取微博數(shù)據(jù);步驟2,對微博數(shù)據(jù)進(jìn)行預(yù)處理;步驟3,進(jìn)行中文分詞去除停用詞,獲取詞集合VOC;步驟4,對各個時間區(qū)間的微博數(shù)據(jù)進(jìn)行LDA聚類,提取潛在主題;步驟5,篩選出每個時間區(qū)間內(nèi)的微博熱門主題;步驟6,對全局時間的熱門主題進(jìn)行層次聚類,獲取各主題之間的聚合和分化關(guān)系;步驟7,根據(jù)主題的聚合和分化關(guān)系,可視化主題演變過程。本發(fā)明以較低的時間復(fù)雜度挖掘出一個事件在不同時期的主題詞分布和同一個主題在不同時期的細(xì)粒度主題,具有高效性、魯棒性等優(yōu)點,具有較大的實用價值。