基于句子級索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202011424391.1 申請日 -
公開(公告)號 CN112527948A 公開(公告)日 2021-03-19
申請公布號 CN112527948A 申請公布日 2021-03-19
分類號 G06F16/31(2019.01)I;G06F16/332(2019.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 張友豪;馮衛(wèi)強(qiáng) 申請(專利權(quán))人 上海大智慧財(cái)匯數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 上海段和段律師事務(wù)所 代理人 高璀璀;郭國中
地址 200120上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)郭守敬路498號12幢21501-21507室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種基于句子級索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng),包括:索引構(gòu)建步驟:對數(shù)據(jù)構(gòu)建句子級索引;數(shù)據(jù)存儲步驟:將構(gòu)建的句子級索引放入ES集群和Redis集群的索引進(jìn)行存儲,所述Redis集群存儲預(yù)定時(shí)間內(nèi)的數(shù)據(jù),所述ES集群存儲所有數(shù)據(jù);實(shí)時(shí)去重步驟:對待去重的數(shù)據(jù)進(jìn)行歷史相似性數(shù)據(jù)檢索,根據(jù)待去重的數(shù)據(jù)的文本長度選擇相應(yīng)的相似度計(jì)算方法計(jì)算與歷史相似性數(shù)據(jù)檢索結(jié)果的相似度,根據(jù)相似度進(jìn)行去重,以及形成新的句子級索引并添加到ES集群和Redis集群的索引中。本發(fā)明針對不同長度數(shù)據(jù),采用不同算法,同時(shí),對海量歷史數(shù)據(jù)采用句子集索引,充分結(jié)合ES和Redis的優(yōu)點(diǎn)進(jìn)行去重加快查詢、實(shí)時(shí)去重。??