一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN200910136595.2 申請日 -
公開(公告)號 CN101882141A 公開(公告)日 2010-11-10
申請公布號 CN101882141A 申請公布日 2010-11-10
分類號 G06F17/30(2006.01)I;G06F11/14(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 張慶敏;胡剛;謝海威;郭棟 申請(專利權(quán))人 北京眾志和達(dá)數(shù)據(jù)計算有限公司
代理機(jī)構(gòu) - 代理人 -
地址 100089 北京市海淀區(qū)廠洼中路1號國家行政學(xué)院欣正大廈606室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法,包括:通過simhash(相似性哈希)算法計算數(shù)據(jù)的相似度;通過相似度定位存儲位置,把相似度計入索引庫;把數(shù)據(jù)寫入數(shù)據(jù)倉庫。如果有相同的相似度的數(shù)據(jù)進(jìn)來的話,把數(shù)據(jù)倉庫中對應(yīng)的數(shù)據(jù)提取出來,然后進(jìn)行二進(jìn)制比對;如果相同則記錄索引,如果不同則記錄不同的數(shù)據(jù)部分。本發(fā)明還提供了一種實現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的系統(tǒng),包括:相似度標(biāo)示庫(BitMap)、數(shù)據(jù)偏移的標(biāo)示庫和數(shù)據(jù)倉庫(LBAMap),記錄原始數(shù)據(jù)的存儲庫(Resp)。所述方法和系統(tǒng)基于相似性哈希算法理論,通過數(shù)據(jù)對比保證數(shù)據(jù)一致性,既高效的完成了重復(fù)數(shù)據(jù)刪除,又保證了數(shù)據(jù)的一致性。