一種基于Spark的索引方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201911026342.X | 申請(qǐng)日 | - |
| 公開(公告)號(hào) | CN110737667A | 公開(公告)日 | 2020-01-31 |
| 申請(qǐng)公布號(hào) | CN110737667A | 申請(qǐng)公布日 | 2020-01-31 |
| 分類號(hào) | G06F16/22;G06F16/2458;G06F16/27 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 王帥 | 申請(qǐng)(專利權(quán))人 | 南京錄信軟件技術(shù)有限公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 210000 江蘇省南京市江寧區(qū)濱江經(jīng)濟(jì)開發(fā)區(qū)盛安大道739號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于Spark的索引方法,包括如下步驟,S1:在Spark進(jìn)程中通過自定義消費(fèi)接口消費(fèi)實(shí)時(shí)數(shù)據(jù),數(shù)據(jù)通過索引接口建立索引;S2:修改lucene的原生索引接口;S3:將整個(gè)索引程序、查詢接口與Spark的服務(wù)結(jié)合起來;S4:進(jìn)行數(shù)據(jù)處理,之后進(jìn)行數(shù)據(jù)的查詢;主要是在原始的Spark檢索上添加了一層索引功能,從而加快了檢索性能;該功能在索引層使用的是原生的lucene,通過自定義接口,Spark或者離線程序會(huì)將數(shù)據(jù)索引到HDFS上面,以后的統(tǒng)計(jì)分析都可以使用Spark的索引查詢快速返回,而在查詢語言的使用上選擇的是Spark SQL,本發(fā)明完美的與Spark SQL引擎結(jié)合在一起,這種基于結(jié)構(gòu)化數(shù)據(jù)的查詢語言簡化了查詢難度,降低了學(xué)習(xí)成本。 |





