一種相似新聞判別方法、系統(tǒng)及電子設(shè)備

基本信息

申請(qǐng)?zhí)?/td> CN201910695794.0 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110399464A 公開(kāi)(公告)日 2019-11-01
申請(qǐng)公布號(hào) CN110399464A 申請(qǐng)公布日 2019-11-01
分類號(hào) G06F16/33(2019.01)I; G06F16/951(2019.01)I; G06F17/27(2006.01)I; G06K9/62(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 曾穎清 申請(qǐng)(專利權(quán))人 廣州吉信網(wǎng)絡(luò)科技開(kāi)發(fā)有限公司
代理機(jī)構(gòu) 廣東翰銳律師事務(wù)所 代理人 廣州吉信網(wǎng)絡(luò)科技開(kāi)發(fā)有限公司
地址 510000 廣東省廣州市天河區(qū)東郊工業(yè)園路建工路8號(hào)3樓自編01號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及相似新聞判別方法、系統(tǒng)及電子設(shè)備,其兼顧判別的精確度和實(shí)時(shí)性。其步驟包括抓取步驟:對(duì)存量的新聞數(shù)據(jù)進(jìn)行分詞,對(duì)分詞后的詞語(yǔ)及其詞頻進(jìn)行統(tǒng)計(jì)后建立詞頻庫(kù);計(jì)算步驟:對(duì)每篇新聞數(shù)據(jù)分別分詞并提取關(guān)鍵詞,根據(jù)所述詞頻庫(kù)分別計(jì)算所述關(guān)鍵詞的權(quán)重;根據(jù)計(jì)算步驟所述關(guān)鍵詞及所述關(guān)鍵詞的權(quán)重,計(jì)算每篇新聞數(shù)據(jù)的simhash值,并存入數(shù)據(jù)庫(kù)中;對(duì)所述simhash值建立數(shù)據(jù)結(jié)構(gòu),和/或根據(jù)每篇新聞數(shù)據(jù)的simhash值進(jìn)行相似處理,將相似的新聞數(shù)據(jù)合并入所述數(shù)據(jù)結(jié)構(gòu)中,構(gòu)建或更新得到相似的新聞id列表。