欢迎投稿

今日深度:

Hadoop之Hadoop数据压缩,

Hadoop之Hadoop数据压缩,


Hadoop之Hadoop数据压缩


目录


1. 概述


2. MR支持的压缩编码

压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改
Deflate 是,直接使用 Defalate .deflate 和文本处理一样,不需要修改
Gzip 是,直接使用 Defalate .gz 和文本处理一样,不需要修改
bzip2 是,直接使用 bzip2 .bz2 和文本处理一样,不需要修改
LZO 否,需要安装 LZO .lzo 需要建索引,还需要指定输入格式
Snappy 否,需要安装 Snappy .snappy 和文本处理一样,不需要修改
  1. 为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip2 org.apache.hadoop.io.compress.BZip2Codec
LZO com.hadoop.compression.lzo.LzopCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec
  1. 压缩性能的比较
压缩算法 原始文件大小 压缩文件大小 压缩速度 解压速度
gzip 8.3GB 1.8GB 17.5MB/s 58MB/s
bzip2 8.3GB 1.1GB 2.4MB/s 9.5MB/s
LZO 8.3GB 2.9GB 49.3MB/s 74.6MB/s

http://google.github.io/snappy/
On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.


3. Gzip压缩


4. Bzip2压缩


5. Lzo压缩


6. Snappy压缩


7. 压缩位置选择

压缩可以在MapReduce作用的任意阶段启用,如图下所示


8. 压缩参数配置

要在Hadoop中启用压缩,可以配置如下参数:

www.htsjk.Com true http://www.htsjk.com/Hadoop/36003.html NewsArticle Hadoop之Hadoop数据压缩, Hadoop之Hadoop数据压缩 目录 1. 概述 2. MR支持的压缩编码 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 Deflate 是,...
相关文章
    暂无相关文章
评论暂时关闭