吉林大学学报(工学版) ›› 2016, Vol. 46 ›› Issue (1): 228-234.doi: 10.13229/j.cnki.jdxbgxb201601034

• • 上一篇    下一篇

基于整数数据的文档压缩编码方案

特日跟1, 2, 3, 4, 江晟1, 2, 李雄飞3, 4, 李军3, 4   

  1. 1.长光卫星技术有限公司,长春 130000;
    2.中国科学院 长春光学精密机械与物理研究所,长春 130033;
    3.吉林大学 符号计算与知识工程教育部重点实验室,长春 130012;
    4.吉林大学 计算机科学与技术学院,长春 130012
  • 收稿日期:2014-08-24 出版日期:2016-01-30 发布日期:2016-01-30
  • 通讯作者: 李雄飞(1963-),男,教授.博士生导师.研究方向:数据库,数据挖掘.E-mail:xiongfei@jlu.edu.cn
  • 作者简介:特日根(1987-),男,博士研究生.研究方向:数据挖掘.E-mail:277093537@qq.com
  • 基金资助:
    吉林省自然科学基金项目(201115020)

Document compression scheme based on integer data

TE Ri-gen1, 2, 3, 4, JIANG Sheng1, 2, LI Xiong-fei3, 4, LI Jun3, 4   

  1. 1.Chang Guang Satellite Technology Co.,Ltd.,Changchun 130000,China;
    2.Changchun Institute of Optics,Fine Mechanics and Physics,Chinese academy of Science,Changchun 130033,China;
    3.Key Laboratory of Symbol Computation and Knowledge Engineering of Ministry of Education,Jilin University, Changchun 130012,China;
    4.College of Computer Science and Technology, Jilin University, Changchun 130012, China
  • Received:2014-08-24 Online:2016-01-30 Published:2016-01-30

摘要: 提出了针对整数数据的CSN-2压缩算法,并将其应用于任意文档的压缩,且CSN-2压缩算法不需额外的数据支持。通过研究CSN-2解压算法,提出了可以正确还原原数据的CSNE-2解压算法,并对解压算法结果的唯一性和正确性进行了理论及实验检验。并通过与其他压缩方案的实验比较,结果表明CSN-2压缩算法对整数型文档具有较高的压缩率,且对任意文档均具有压缩效果。

关键词: 计算机软件, 数据压缩, 压缩编码, 文本压缩, 整数数据

Abstract: A CSN-2 compression algorithm for integer data was proposed and applied to the compression of any documents. Moreover, the CSN-2 data compression algorithm does not need additional data support. A CSNE-2 decompression algorithm, which can properly restore the original data, was proposed by studying the CNS-2 decompression algorithm. It was proved that the results of the decompression algorithm are unique and correct in theoretical and experimental tests. Furthermore, it was demonstrated that the CSN-2 compression algorithm for the integer type of documents has a higher compression ratio, and could compress any documents compared with experiments of other compression programs.

Key words: computer software, data compression, compression, text compression, integer data

中图分类号: 

  • TP301
[1] 杨国为, 涂序彦, 庞杰. 基于虚拟信源的无损数据压缩方法研究[J]. 电子学报, 2003,31(5):728-731.
Yang Guo-wei, Tu Xu-yan, Pang Jie. The research of lossless data compression based on a virtual information source[J]. Acta Electronica Sinica, 2003,31(5):728-731.
[2] 纪震,周家锐,朱泽轩,等. 基于生物信息学特征的DNA 序列数据压缩算法[J]. 电子学报,2011,39(5): 991-995.
Ji Zhen, Zhou Jia-rui, Zhu Ze-xuan, et al. Bioinformatics features based DNA sequence data compression algorithm[J]. Acta Electronica Sinica, 2011,39(5):991-995.
[3] Chu D, Deshpande A, Hellerstein J M, et al. Approximate data collection in sensor networks using probabilistic models[C]∥ICDE '06 Proceedings of the 22nd International Conference on Data Engineering,DC, 2006:48-59.
[4] Najafi H, Lahouti F, Shiva M. AR modeling for temporal extension of correlated sensor network data[C]∥Software in Telecommunications and Computer Networks, Split, 2006:117-120.
[5] Borgne Y L, Bontempi G. Unsupervised and supervised compression with principal component analysis in wireless sensor networks[C]∥Pro of the Workshop on Knowledge Discovery from Data, 13th ACM International Conference on Knowledge Discovery and Data Mining, New York,2007: 94-103.
[6] Ganesan D,Estrin D,Heidemann J.DIMENSIONS: Why do we need a new data handling architecture for sensor networks[J].Acm Sigcomm Computer Communication Review,2003,33(1):143-148.
[7] 郑翠芳. 几种常用无损数据压缩算法研究[J]. 计算机技术与发展, 2011,21(9):73-76.
Zheng Cui-fang. Research of several common lossless data compression algorithms[J]. Computer Technology and Development, 2011,21(9):73-76.
[8] Shannon C E. A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27(7):379-423.
[9] Tsang P, Liu J P, Cheung K. Modern methods for fast generation of digital holograms[J]. 3D Research, 2010,1(2):11-18.
[10] Wu J Z, Wang Y J, Ding L P, et al. Improving performance of network covert timing channel through Huffman coding[J]. Mathematical and Computer Modelling, In Press, Corrected Proof,2011,55(1):69-79.
[11] Jeong J, Jo J M. Adaptive Huffman coding of 2-D DCT coefficients for image sequence compression[J]. Signal Processing: Image Communication, 1995,7(1):1-11.
[12] Rissanen J,Langdon G G.Universal modeling and coding[J].Information Theory,1981,21(1):12-23.
[13] Miguel A,Prieto M, Adiego J. Natural language compression on Edge-Guided text preprocessing[J]. Information Sciences, 2011,181(24):5387-5411.
[14] Freschi V, Bogliolo A.A faster algorithm for the computation of string convolutions using LZ78 parsing[J]. Information Processing Letters, 2010,110(14-15):609-613.
[15] Arroyuelo D, Navarro G. Optimum string match choices in LZSS[J]. Information and Computation, 2011, 209(7):1070-1102.
[16] Lakhani G. Reducing coding redundancy in LZW[J]. Information Sciences, 2006, 176(10) : 1417-1434.
[17] Gödel K. Über formal unentscheidbare Sätze der principia mathematica und verwandter systeme[J]. Mathematics and Statistics, 1931, 38(1): 173-198.
[1] 赵宏伟, 刘宇琦, 特日根, 陈长征, 臧雪柏. 基于有限序列的压缩新算法[J]. 吉林大学学报(工学版), 2018, 48(3): 882-886.
[2] 马健, 樊建平, 刘峰, 李红辉. 面向对象软件系统演化模型[J]. 吉林大学学报(工学版), 2018, 48(2): 545-550.
[3] 罗养霞, 郭晔. 基于数据依赖特征的软件识别[J]. 吉林大学学报(工学版), 2017, 47(6): 1894-1902.
[4] 应欢, 王东辉, 武成岗, 王喆, 唐博文, 李建军. 适用于商用系统环境的低开销确定性重放技术[J]. 吉林大学学报(工学版), 2017, 47(1): 208-217.
[5] 李勇, 黄志球, 王勇, 房丙午. 基于多源数据的跨项目软件缺陷预测[J]. 吉林大学学报(工学版), 2016, 46(6): 2034-2041.
[6] 王念滨, 祝官文, 周连科, 王红卫. 支持高效路径查询的数据空间索引方法[J]. 吉林大学学报(工学版), 2016, 46(3): 911-916.
[7] 陈绵书, 王园园, 桑爱军, 陈贺新. 基于多维矢量矩阵理论的KL变换[J]. 吉林大学学报(工学版), 2016, 46(2): 627-631.
[8] 康辉, 王家琦, 梅芳. 基于Pi演算的并行编程语言[J]. 吉林大学学报(工学版), 2016, 46(1): 235-241.
[9] 陈鹏飞, 田地, 杨光. 基于MVC架构的LIBS软件设计与实现[J]. 吉林大学学报(工学版), 2016, 46(1): 242-245.
[10] 刘磊, 王燕燕, 申春, 李玉祥, 刘雷. Bellman-Ford算法性能可移植的GPU并行优化[J]. 吉林大学学报(工学版), 2015, 45(5): 1559-1564.
[11] 冯晓宁, 王卓, 张旭. 基于L-π演算的WSN路由协议形式化方法[J]. 吉林大学学报(工学版), 2015, 45(5): 1565-1571.
[12] 李明哲, 王劲林, 陈晓, 陈君. 基于网络处理器的流媒体应用架构模型(VPL)[J]. 吉林大学学报(工学版), 2015, 45(5): 1572-1580.
[13] 王克朝, 王甜甜, 苏小红, 马培军. 基于频繁闭合序列模式挖掘的学生程序雷同检测[J]. 吉林大学学报(工学版), 2015, 45(4): 1260-1265.
[14] 黄宏涛,王静,叶海智,黄少滨. 基于惰性切片的线性时态逻辑性质验证[J]. 吉林大学学报(工学版), 2015, 45(1): 245-251.
[15] 范大娟1, 2, 黄志球1, 肖芳雄1, 祝义1, 王进1. 面向多服务交互的相容性分析与适配器生成[J]. 吉林大学学报(工学版), 2014, 44(4): 1094-1103.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 刘松山, 王庆年, 王伟华, 林鑫. 惯性质量对馈能悬架阻尼特性和幅频特性的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 557 -563 .
[2] 初亮, 王彦波, 祁富伟, 张永生. 用于制动压力精确控制的进液阀控制方法[J]. 吉林大学学报(工学版), 2013, 43(03): 564 -570 .
[3] 李静, 王子涵, 余春贤, 韩佐悦, 孙博华. 硬件在环试验台整车状态跟随控制系统设计[J]. 吉林大学学报(工学版), 2013, 43(03): 577 -583 .
[4] 胡兴军, 李腾飞, 王靖宇, 杨博, 郭鹏, 廖磊. 尾板对重型载货汽车尾部流场的影响[J]. 吉林大学学报(工学版), 2013, 43(03): 595 -601 .
[5] 王同建, 陈晋市, 赵锋, 赵庆波, 刘昕晖, 袁华山. 全液压转向系统机液联合仿真及试验[J]. 吉林大学学报(工学版), 2013, 43(03): 607 -612 .
[6] 张春勤, 姜桂艳, 吴正言. 机动车出行者出发时间选择的影响因素[J]. 吉林大学学报(工学版), 2013, 43(03): 626 -632 .
[7] 马万经, 谢涵洲. 双停车线进口道主、预信号配时协调控制模型[J]. 吉林大学学报(工学版), 2013, 43(03): 633 -639 .
[8] 于德新, 仝倩, 杨兆升, 高鹏. 重大灾害条件下应急交通疏散时间预测模型[J]. 吉林大学学报(工学版), 2013, 43(03): 654 -658 .
[9] 肖赟, 雷俊卿, 张坤, 李忠三. 多级变幅疲劳荷载下预应力混凝土梁刚度退化[J]. 吉林大学学报(工学版), 2013, 43(03): 665 -670 .
[10] 肖锐, 邓宗才, 兰明章, 申臣良. 不掺硅粉的活性粉末混凝土配合比试验[J]. 吉林大学学报(工学版), 2013, 43(03): 671 -676 .