一種減少Lucene無字典n-gram切詞占用存儲空間的方法

基本信息

申請?zhí)?/td> CN201911307360.5 申請日 -
公開(公告)號 CN111078824A 公開(公告)日 2020-04-28
申請公布號 CN111078824A 申請公布日 2020-04-28
分類號 G06F16/31 分類 計算;推算;計數(shù);
發(fā)明人 母延年 申請(專利權(quán))人 南京錄信軟件技術(shù)有限公司
代理機構(gòu) - 代理人 -
地址 210000 江蘇省南京市江寧區(qū)濱江經(jīng)濟開發(fā)區(qū)盛安大道739號
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及計算機算法技術(shù)領(lǐng)域,具體公開了一種減少Lucene無字典n?gram切詞占用存儲空間的方法,包括如下步驟,S1:輸入數(shù)據(jù)樣例;S2:對數(shù)據(jù)樣例進行SNGram切割,獲得跳躍倒排表;S3:對步驟S2所獲得的數(shù)據(jù)倒排表進行ngram切詞,創(chuàng)建SNGram的映射;S4:完成數(shù)據(jù)樣例的存儲;本發(fā)明所提供的方法,先進行粗粒度級別的切詞,如每隔8個字切一個詞;將粗粒度的詞,排重后進一步得出細粒度的詞,針對細粒度的詞創(chuàng)建索引;從而大幅度的減少倒排表的體積,并提升創(chuàng)建索引的性能,提升1*這種需要匹配很多倒排term的掃描性能。