一種新聞事件聚類(lèi)的方法、裝置、設(shè)備和儲(chǔ)存介質(zhì)
基本信息

| 申請(qǐng)?zhí)?/td> | CN201810155131.5 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN108334628A | 公開(kāi)(公告)日 | 2018-07-27 |
| 申請(qǐng)公布號(hào) | CN108334628A | 申請(qǐng)公布日 | 2018-07-27 |
| 分類(lèi)號(hào) | G06F17/30;G06F17/27 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 王云;劉丹;肖天鶴 | 申請(qǐng)(專(zhuān)利權(quán))人 | 北京綠色東方數(shù)據(jù)技術(shù)有限公司 |
| 代理機(jī)構(gòu) | 北京品源專(zhuān)利代理有限公司 | 代理人 | 北京東潤(rùn)環(huán)能科技股份有限公司;北京綠色東方數(shù)據(jù)技術(shù)有限公司 |
| 地址 | 100192 北京市海淀區(qū)學(xué)清路8號(hào)科技財(cái)富中心A座9層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明實(shí)施例公開(kāi)了一種新聞事件聚類(lèi)的方法、裝置、設(shè)備和儲(chǔ)存介質(zhì)。所述方法,包括:抓取預(yù)設(shè)網(wǎng)站中的新聞文本;對(duì)新聞文本進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,得到對(duì)應(yīng)的文本分詞;比較兩個(gè)新聞文本對(duì)應(yīng)的文本分詞中預(yù)設(shè)類(lèi)型文本分詞的分詞相似度,賦予對(duì)應(yīng)的分詞相似度權(quán)重;比較兩個(gè)新聞文本的文本內(nèi)容相似度,賦予對(duì)應(yīng)的文本內(nèi)容相似度權(quán)重;根據(jù)兩個(gè)新聞文本的分詞相似度、分詞相似度權(quán)重、文本內(nèi)容相似度和文本內(nèi)容相似度權(quán)重,確定兩個(gè)新聞文本的相似度;當(dāng)兩個(gè)新聞文本的相似度大于相似度閾值,確定兩個(gè)新聞文本為相似新聞事件。本發(fā)明實(shí)施例的技術(shù)方案,實(shí)現(xiàn)鑒別相同新聞事件,節(jié)約用戶(hù)瀏覽新聞的時(shí)間。 |





