一種基于語言模型的數(shù)據(jù)壓縮方法

基本信息

申請?zhí)?/td> CN201811479097.3 申請日 -
公開(公告)號 CN109412604A 公開(公告)日 2019-03-01
申請公布號 CN109412604A 申請公布日 2019-03-01
分類號 H03M7/40;H03M7/30 分類 基本電子電路;
發(fā)明人 張文斌;劉洋 申請(專利權)人 云孚科技(北京)有限公司
代理機構 北京世譽鑫誠專利代理事務所(普通合伙) 代理人 孫國棟
地址 100085 北京市海淀區(qū)上地信息路2號(北京實創(chuàng)高科技發(fā)展總公司2-2號D棟1-8層)一層D100-0705室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開的基于語言模型的數(shù)據(jù)壓縮方法,涉及數(shù)據(jù)壓縮技術領域,通過判斷當前需要壓縮的詞是否在預設的詞表中,若是,則利用語言模型,輸出詞在詞表中的分布概率,重復上述步驟,得到所有需要壓縮的詞的分布概率,將分布概率依據(jù)從大到小的順序依次排列,生成各個詞分布概率的排序列表,根據(jù)當前需要壓縮的各個詞在排序列表中的位置,得到詞的位置序號,根據(jù)位置序號,利用哈夫曼樹對位置序號進行編碼,生成數(shù)字編碼,利用基于文檔頻率特征的壓縮算法,對數(shù)字編碼進行壓縮,有效地減少了數(shù)據(jù)所占用的存儲空間,提高了對數(shù)據(jù)的壓縮效果。