述说我的Hadoop成长路线

jopen 9年前

Hadoop启蒙

还在实验室时,老师就建议看google关于大数据的三篇论文,啃了好长时间还是没完全理解。也动手搭建了Hadoop集群,运行了wordcount,带着“Hadoop会火“的指示离开了实验室。

Hadoop入门

2011年初我加入了一个互联网流量分析运营项目,开始真正实战Hadoop,编写mapreduce程序。项目主要是对用户浏览的url进行分析,挖掘用户的上网行为偏好,进行精准营销。整个项目应用到hadoop的地方只有两个,就是对url进行去重和排序。这个项目持续了一年多,大部分的时间我还是在实现业务逻辑。

此时“大数据的概念”在国内慢慢热起来了,使我更坚信了”hadoop值得依赖”。

1.我把当时中文论坛关于Hadoop相关的技术贴都过了一遍。
2.精读了Pro Hadoop 一书。
3.蹲点百度知道好一阵子,专挑Hadoop帖子回答,赚了不少积分。
4.在计算机科学杂志上发表了一篇关于mr优化的文章。

这一年多的积累让我真正在Hadoop这个领域入门了。

Hadoop平台初建

2012年国内大规模使用Hadoop的公司还不算多,我知道自己此时最需要的是一个平台,更专注的去做一些事情。并不是每个人都那么幸运,而我很幸运的在那时加入现在的公司,很幸运的跟到了一个好leader。又碰巧公司在这个时候需要重新规划一个更大且开放Hadoop集群(150节点),很幸运的这个事情是交由我来负责。

7月-8月:调研安全开放的Hadoop集群方案
9月:制定开放流程、用户手册,使用规范,集群机房迁移
10月份:集群正式对外开放运营

在Hadoop开放的头一个月里,我开始接触平台用户,和大伙慢慢熟悉起来,大伙遇到Hadoop的问题都会先来问我,把我当成了”Hadoop专家”。其实在那之前,积累的个人实战经验还是比较匮乏的。懂得就回答,不懂的我就查阅资料,跟踪源码,也许就是这种”罗森塔尔效应”,让我的Hadoop 技术得到快速的成长。

Hadoop平台运营

在2013年的Hadoop平台运营过程中:

懂得了用户是需要引导,培训的;
懂得了流程规范有时候可以绕开技术难题;
懂得了监控报警多多益善;
懂得了技术也是需要运营;
学会了培养用户信任感;
学会透过用户的描述找到真正的需求;
学会了用计算投入产出比来做决策;
学会了对用户只讲困难不做拒绝;
了解了每个人做事的风格特点。

方法论

2014年我们将Hadoop平台的成功经验借鉴到日志系统、Storm集群、kafka集群、Spark集群、统一监控系统、Hbase集群。让我体会到了很多道理都是相通的,确实是有方法可以总结的,我们需要进行阶段性的自我思考和总结,搭建维护一套属于自己的方法论。

技术分享

技术分享一方面是为了分享经验,另一方面也是促使自我思考,总结,加深理解。

2012年7月份我第一次参加easyhadoop讲座,听大师们的分享,我内心就自我暗示,需要跟他们交流,需要加入这个组织。

9月份我将两个多月的研究成果总结成一个主题在easyhadoop另一次讲座上给大家做了分享,这是我职业生涯的第一次对外分享。

之后一有新的研究成果我都会找机会参加讲座进行分享,结识业界的牛人并进行交流。

这两年大大小小的主题也分享了10余次,每次分享的主题基本都不一样,沉淀了不少知识,也培养了我的结构性思维。

鼓励大家在自己的领域寻找一个可以交流的组织,有机会就去分享,犯错是成长最快的方式。

鸣谢

总结这几年,运气一直很好,在恰当的时候做了对的事情,让我成长了技术,也积累了许多技术之外的宝贵经验。

感谢tuboo这些年带我升级打怪,感谢小伙伴们杰出的成果让我在外面能有牛逼可以吹,感谢老婆对我经常熬夜加班的谅解!这一路来要感恩的人和事太多了!

End

来自:http://www.36dsj.com/archives/24093