一種新聞事件聚類(lèi)的方法、裝置、設(shè)備和儲(chǔ)存介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201810155131.5 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN108334628A 公開(kāi)(公告)日 2018-07-27
申請(qǐng)公布號(hào) CN108334628A 申請(qǐng)公布日 2018-07-27
分類(lèi)號(hào) G06F17/30;G06F17/27 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 王云;劉丹;肖天鶴 申請(qǐng)(專(zhuān)利權(quán))人 北京綠色東方數(shù)據(jù)技術(shù)有限公司
代理機(jī)構(gòu) 北京品源專(zhuān)利代理有限公司 代理人 北京東潤(rùn)環(huán)能科技股份有限公司;北京綠色東方數(shù)據(jù)技術(shù)有限公司
地址 100192 北京市海淀區(qū)學(xué)清路8號(hào)科技財(cái)富中心A座9層
法律狀態(tài) -

摘要

摘要 本發(fā)明實(shí)施例公開(kāi)了一種新聞事件聚類(lèi)的方法、裝置、設(shè)備和儲(chǔ)存介質(zhì)。所述方法,包括:抓取預(yù)設(shè)網(wǎng)站中的新聞文本;對(duì)新聞文本進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別,得到對(duì)應(yīng)的文本分詞;比較兩個(gè)新聞文本對(duì)應(yīng)的文本分詞中預(yù)設(shè)類(lèi)型文本分詞的分詞相似度,賦予對(duì)應(yīng)的分詞相似度權(quán)重;比較兩個(gè)新聞文本的文本內(nèi)容相似度,賦予對(duì)應(yīng)的文本內(nèi)容相似度權(quán)重;根據(jù)兩個(gè)新聞文本的分詞相似度、分詞相似度權(quán)重、文本內(nèi)容相似度和文本內(nèi)容相似度權(quán)重,確定兩個(gè)新聞文本的相似度;當(dāng)兩個(gè)新聞文本的相似度大于相似度閾值,確定兩個(gè)新聞文本為相似新聞事件。本發(fā)明實(shí)施例的技術(shù)方案,實(shí)現(xiàn)鑒別相同新聞事件,節(jié)約用戶(hù)瀏覽新聞的時(shí)間。