一種基于語言模型的數(shù)據(jù)壓縮方法
基本信息

| 申請?zhí)?/td> | CN201811479097.3 | 申請日 | - |
| 公開(公告)號 | CN109412604A | 公開(公告)日 | 2019-03-01 |
| 申請公布號 | CN109412604A | 申請公布日 | 2019-03-01 |
| 分類號 | H03M7/40;H03M7/30 | 分類 | 基本電子電路; |
| 發(fā)明人 | 張文斌;劉洋 | 申請(專利權)人 | 云孚科技(北京)有限公司 |
| 代理機構 | 北京世譽鑫誠專利代理事務所(普通合伙) | 代理人 | 孫國棟 |
| 地址 | 100085 北京市海淀區(qū)上地信息路2號(北京實創(chuàng)高科技發(fā)展總公司2-2號D棟1-8層)一層D100-0705室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開的基于語言模型的數(shù)據(jù)壓縮方法,涉及數(shù)據(jù)壓縮技術領域,通過判斷當前需要壓縮的詞是否在預設的詞表中,若是,則利用語言模型,輸出詞在詞表中的分布概率,重復上述步驟,得到所有需要壓縮的詞的分布概率,將分布概率依據(jù)從大到小的順序依次排列,生成各個詞分布概率的排序列表,根據(jù)當前需要壓縮的各個詞在排序列表中的位置,得到詞的位置序號,根據(jù)位置序號,利用哈夫曼樹對位置序號進行編碼,生成數(shù)字編碼,利用基于文檔頻率特征的壓縮算法,對數(shù)字編碼進行壓縮,有效地減少了數(shù)據(jù)所占用的存儲空間,提高了對數(shù)據(jù)的壓縮效果。 |





