Hadoop运维经验杂谈

Hadoop 运维技术   2016-04-14 06:21:43 发布
您的评价:
     
0.0
收藏     1收藏
文件夹
标签
(多个标签用逗号分隔)

Hadoop运维经验杂谈

系统架构:

Hadoop运维经验杂谈

Cloudera和它的产品们

Apache Hadoop与CDH版本关系

Hadoop运维经验杂谈

CDH为什么更好?

yum ,tar, rpm, cloudera manager 四种安装方法

CDH3u3重大改善

Hadoop运维经验杂谈

CDH3u4重大改善

Hadoop运维经验杂谈

Cloudera Manager

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Cloudera Training

分为Administrator和Development两门课程

运维事故

1、伤不起的内存

现象1

系统上线第二天,Jobtracker不工作,web页面打不开

原因

一次提交Job数量太多,导致Jobtracker 内存溢出

解决

调大JT内存;限制Running Job数量

现象2

NN内存溢出,重启后发现50030页面显示fsimage损坏,调查发现SNN fsimage同样损坏了

原因

小文件太多导致NN/SNN内存溢出,导致fsimage文件损坏,但是重启后的NN可以正常服务。

原因

Cloudera google group去救,获得后门脚本

2、低效的MapReduce Job

现象

MapReduce Job执行时间过长

原因

MR中用到了Spring,小文件导致Map方法效率低下,GZ文件读写效率低

解决

MR去Spring化;开启JVM重用;使用LZO作为输入和map输出结果;加大reduce并行copy线程数

压缩与MapReduce性能

Hadoop运维经验杂谈

3、OMG,整个集群完蛋了

现象

早上来发现所有DataNode都dead了,重启后10分钟,DN陆续又都dead了;调查发现节点有8%左右丢包率

原因

交换机模块故障;DN不能Hold住大量小文件

解决

升级3u2到3u4;设置DN内存到2GB

遇到无法跨越的问题解决办法

监控与高级

Hadoop运维经验杂谈

Nagios告警:

Hadoop运维经验杂谈

业务监控:

Hadoop运维经验杂谈

Hadoop运维经验杂谈

Hadoop运维经验杂谈

 

原文  http://www.thebigdata.cn/Hadoop/29673.html

扩展阅读

大型网站运维探讨和心得
Hadoop集群环境下网络架构的设计与优化
飞天5K实战经验:大规模分布式系统运维实践
大数据相关技术、Hadoop生态、LinkedIn内部实战
从Hadoop到Spark的架构实践

为您推荐

贝叶斯分类
jvm调优总结
EvaThumber:基于URL的图片处理库 (可实现缩略图 | 二维码 | 水印 | 面部识别等)
运维工程师常用到的Linux命令
iOS 第三方开源库-----AFNetworking

更多

Hadoop
运维技术
分布式/云计算/大数据
相关文档  — 更多
相关经验  — 更多
相关讨论  — 更多