基于句子級索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202011424391.1 | 申請日 | - |
| 公開(公告)號 | CN112527948A | 公開(公告)日 | 2021-03-19 |
| 申請公布號 | CN112527948A | 申請公布日 | 2021-03-19 |
| 分類號 | G06F16/31(2019.01)I;G06F16/332(2019.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 張友豪;馮衛(wèi)強(qiáng) | 申請(專利權(quán))人 | 上海大智慧財(cái)匯數(shù)據(jù)科技有限公司 |
| 代理機(jī)構(gòu) | 上海段和段律師事務(wù)所 | 代理人 | 高璀璀;郭國中 |
| 地址 | 200120上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)郭守敬路498號12幢21501-21507室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種基于句子級索引的數(shù)據(jù)實(shí)時(shí)去重方法及系統(tǒng),包括:索引構(gòu)建步驟:對數(shù)據(jù)構(gòu)建句子級索引;數(shù)據(jù)存儲步驟:將構(gòu)建的句子級索引放入ES集群和Redis集群的索引進(jìn)行存儲,所述Redis集群存儲預(yù)定時(shí)間內(nèi)的數(shù)據(jù),所述ES集群存儲所有數(shù)據(jù);實(shí)時(shí)去重步驟:對待去重的數(shù)據(jù)進(jìn)行歷史相似性數(shù)據(jù)檢索,根據(jù)待去重的數(shù)據(jù)的文本長度選擇相應(yīng)的相似度計(jì)算方法計(jì)算與歷史相似性數(shù)據(jù)檢索結(jié)果的相似度,根據(jù)相似度進(jìn)行去重,以及形成新的句子級索引并添加到ES集群和Redis集群的索引中。本發(fā)明針對不同長度數(shù)據(jù),采用不同算法,同時(shí),對海量歷史數(shù)據(jù)采用句子集索引,充分結(jié)合ES和Redis的優(yōu)點(diǎn)進(jìn)行去重加快查詢、實(shí)時(shí)去重。?? |





