一種基于局部敏感哈希改進(jìn)算法的相似性數(shù)據(jù)檢索方法

基本信息

申請(qǐng)?zhí)?/td> CN201310664350.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN104035949B 公開(kāi)(公告)日 2017-05-10
申請(qǐng)公布號(hào) CN104035949B 申請(qǐng)公布日 2017-05-10
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 馬廷淮;陸穎華;田偉;朱節(jié)中 申請(qǐng)(專利權(quán))人 北京智信未來(lái)信息技術(shù)有限公司
代理機(jī)構(gòu) 南京經(jīng)緯專利商標(biāo)代理有限公司 代理人 南京信息工程大學(xué);北京智信未來(lái)信息技術(shù)有限公司
地址 215101 江蘇省蘇州市吳中區(qū)木瀆鎮(zhèn)中山東路70號(hào)吳中科技創(chuàng)業(yè)園2號(hào)樓2310室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種基于局部敏感哈希改進(jìn)算法的相似性數(shù)據(jù)檢索方法,首先對(duì)數(shù)據(jù)對(duì)象進(jìn)行特征提取,將每一個(gè)數(shù)據(jù)對(duì)象使用其特征集合表示,基于向量空間模型把每一個(gè)數(shù)據(jù)對(duì)象轉(zhuǎn)換為特征空間的向量;然后使用一組哈希函數(shù),建立多個(gè)哈希表,將所有的數(shù)據(jù)對(duì)象映射到相應(yīng)的哈希桶中;接著對(duì)于查詢對(duì)象,隨機(jī)選擇一個(gè)哈希表進(jìn)行映射,對(duì)于與查詢對(duì)象在同一哈希桶的數(shù)據(jù)對(duì)象,以同樣方式利用剩余的哈希表進(jìn)行映射,并將所有與這些對(duì)象在同一哈希桶中的對(duì)象合并成為查詢候選集;最后將查詢對(duì)象與查詢候選集中的數(shù)據(jù)對(duì)象進(jìn)行真實(shí)距離的計(jì)算,從而得到最鄰近對(duì)象。本發(fā)明在保持準(zhǔn)確率和召回率的前提下減少了傳統(tǒng)局部敏感哈希的內(nèi)存需求,適合于處理大量的高維數(shù)據(jù)的相似性檢索。