mergeformat（mergeformat wps）-健康资讯

hadoop优化可以从以下几方面进行：

1. 减少HDFS上的小文件的影响

影响 NameNode 的寿命，因为文件元数据存储在 NameNode 的内存中

影响计算引擎的任务数量，比如每个小的文件都会生成一个 Map 任务

2. 数据输入小文件处理：

合并小文件：对小文件进行归档（Har）、自定义 Inputformat 将小文件存储成SequenceFile 文件

采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景

对于大量小文件 Job，可以开启 JVM 重用

3. Map 阶段

增大环形缓冲区大小。由 100m 扩大到 200m，即调整mapreduce.task.io.sort.mb参数

增大环形缓冲区溢写的比例。由 80%扩大到 90%，即调整mapreduce.map.sort.spill.percent参数

减少对溢写文件的 merge 次数。（10 个文件，一次 20 个 merge），即调整mapreduce.task.io.sort.factor参数

不影响实际业务的前提下，采用 Combiner 提前合并，减少 I/O

4. Reduce 阶段

合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超时等错误

设置 Map、Reduce 共存：调整 mapreduce.job.reduce.slowstart.completedmaps参数，使 Map 运行到一定程度后，Reduce 也开始运行，减少 Reduce 的等待时间

规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗

增加每个 Reduce 去 Map 中拿数据的并行数

集群性能可以的前提下，增大 Reduce 端存储数据内存的大小

5. IO 传输

采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器

使用 SequenceFile 二进制文件

6. 整体

MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g，即mapreduce.map.memory.mb参数

ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g，即mapreduce.reduce.memory.mb参数

可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 cpu 核数，即mapreduce.map.cpu.vcores和mapreduce.reduce.cpu.vcores参数

增加每个 Container 的 cpu 核数和内存大小

调整每个 Map Task 和 Reduce Task 最大重试次数，即mapreduce.map.maxattempts和mapreduce.reduce.maxattempts

mergeformat（mergeformat wps）