一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法和系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN200910136595.2 | 申請日 | - |
| 公開(公告)號 | CN101882141A | 公開(公告)日 | 2010-11-10 |
| 申請公布號 | CN101882141A | 申請公布日 | 2010-11-10 |
| 分類號 | G06F17/30(2006.01)I;G06F11/14(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 張慶敏;胡剛;謝海威;郭棟 | 申請(專利權(quán))人 | 北京眾志和達(dá)數(shù)據(jù)計算有限公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 100089 北京市海淀區(qū)廠洼中路1號國家行政學(xué)院欣正大廈606室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法,包括:通過simhash(相似性哈希)算法計算數(shù)據(jù)的相似度;通過相似度定位存儲位置,把相似度計入索引庫;把數(shù)據(jù)寫入數(shù)據(jù)倉庫。如果有相同的相似度的數(shù)據(jù)進(jìn)來的話,把數(shù)據(jù)倉庫中對應(yīng)的數(shù)據(jù)提取出來,然后進(jìn)行二進(jìn)制比對;如果相同則記錄索引,如果不同則記錄不同的數(shù)據(jù)部分。本發(fā)明還提供了一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的系統(tǒng),包括:相似度標(biāo)示庫(BitMap)、數(shù)據(jù)偏移的標(biāo)示庫和數(shù)據(jù)倉庫(LBAMap),記錄原始數(shù)據(jù)的存儲庫(Resp)。所述方法和系統(tǒng)基于相似性哈希算法理論,通過數(shù)據(jù)對比保證數(shù)據(jù)一致性,既高效的完成了重復(fù)數(shù)據(jù)刪除,又保證了數(shù)據(jù)的一致性。 |





