19. Why is Hadoop可扩展。不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济。框架可以运行在任何普通的PC上。
可靠。分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效。分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
20. How to Use Hadoop环境:
7台普通的机器,操作系统都是linux,JDK必须是1.5以上 ,7台机器的机器名务必不同。
部署考虑:
对于Hadoop的集群来说,可以分成两大类角色,即Master和Slave,前者主要配置NameNode和JobTracker的角色,负责总管分布式数据和分解任务的执行,后者配置DataNode和TaskTracker的角色,负责分布式数据存储以及任务的执行。 现取一台为Master,六台为Slave
21. How to Use Hadoop(实验步骤)在所有的机器上都建立相同的目录,也可以就建立相同的用户,以该用户的home路径来做hadoop的安装路径。
下载Hadoop,先解压到Master上。
解压后进入conf目录,主要需要修改以下文件:hadoop-env.sh,hadoop-site.xml,masters,slaves。
建立Master到每一台Slave的ssh受信证书。
将Master上的Hadoop通过scp拷贝到每一个Slave相同的目录下,根据每一个Slave的Java_HOME的不同修改其hadoop-env.sh。
22. How to Use Hadoop(实验步骤) Cont.修改Master上/etc/profile:
新增以下内容:具体的内容根据你的安装路径修改,这步只是为了方便使用
export HADOOP_HOME=/home/wenchu/hadoop-0.17.1
export PATH=$PATH:$HADOOP_HOME/bin
修改完执行 source /etc/profile来使得其生效。
在Master上执行Hadoop namenode –format,这是第一需要做的初始化
23. How to Use Hadoop(实验步骤) Cont.然后执行Master上的start-all.sh
检查Master的logs目录看看Namenode日志以及JobTracker日志是否正常启动
检查Slave的logs目录看看Datanode日志以及TaskTracker日志是否正常。
以上步骤就可以启动Hadoop的分布式环境