一種減少Lucene無字典n-gram切詞占用存儲空間的方法
基本信息

| 申請?zhí)?/td> | CN201911307360.5 | 申請日 | - |
| 公開(公告)號 | CN111078824A | 公開(公告)日 | 2020-04-28 |
| 申請公布號 | CN111078824A | 申請公布日 | 2020-04-28 |
| 分類號 | G06F16/31 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 母延年 | 申請(專利權(quán))人 | 南京錄信軟件技術(shù)有限公司 |
| 代理機構(gòu) | - | 代理人 | - |
| 地址 | 210000 江蘇省南京市江寧區(qū)濱江經(jīng)濟開發(fā)區(qū)盛安大道739號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明涉及計算機算法技術(shù)領(lǐng)域,具體公開了一種減少Lucene無字典n?gram切詞占用存儲空間的方法,包括如下步驟,S1:輸入數(shù)據(jù)樣例;S2:對數(shù)據(jù)樣例進行SNGram切割,獲得跳躍倒排表;S3:對步驟S2所獲得的數(shù)據(jù)倒排表進行ngram切詞,創(chuàng)建SNGram的映射;S4:完成數(shù)據(jù)樣例的存儲;本發(fā)明所提供的方法,先進行粗粒度級別的切詞,如每隔8個字切一個詞;將粗粒度的詞,排重后進一步得出細粒度的詞,針對細粒度的詞創(chuàng)建索引;從而大幅度的減少倒排表的體積,并提升創(chuàng)建索引的性能,提升1*這種需要匹配很多倒排term的掃描性能。 |





