一種基于主題詞語義相似度的話題聚類方法
基本信息

| 申請?zhí)?/td> | CN202011576986.9 | 申請日 | - |
| 公開(公告)號 | CN114691861A | 公開(公告)日 | 2022-07-01 |
| 申請公布號 | CN114691861A | 申請公布日 | 2022-07-01 |
| 分類號 | G06F16/35(2019.01)I;G06F40/194(2020.01)I;G06F40/289(2020.01)I;G06F40/30(2020.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 姜衛(wèi)平;白冰;趙崟江;郭忠武;馮慧 | 申請(專利權(quán))人 | 北京市博匯科技股份有限公司 |
| 代理機構(gòu) | 北京弘權(quán)知識產(chǎn)權(quán)代理有限公司 | 代理人 | - |
| 地址 | 100094北京市海淀區(qū)永豐產(chǎn)業(yè)基地豐賢中路7號孵化樓B座501 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本申請公開了一種基于主題詞語義相似度的話題聚類方法,該方法對每個原始標(biāo)題進(jìn)行預(yù)處理,獲取待聚類標(biāo)題集合,然后提取目標(biāo)待聚類標(biāo)題對應(yīng)的多個主題詞,根據(jù)預(yù)設(shè)的排除詞集合及每個待聚類標(biāo)題對應(yīng)的多個主題詞,生成主題集合,對主題集合中的任一主題對象進(jìn)行文本數(shù)字化處理,獲取主題向量化集合,針對目標(biāo)主題向量化對象,從主題向量化集合中篩選出相似的主題向量化對象,并將目標(biāo)主題向量化對象與相似的主題向量化對象作為同種話題實現(xiàn)聚類。上述方法在針對大量網(wǎng)絡(luò)文本數(shù)據(jù)時,不需要指定K值,通過提取主題詞,然后計算相似度,便可以實現(xiàn)話題聚類,且能夠保證聚類的主題相似,話題相近,具有覆蓋范圍大,計算復(fù)雜度低的優(yōu)點。 |





