Hadoop入门 - Linux下伪分布式计算的安装与wordcount的实例展示

fmms 12年前

    本人是在ubuntu下进行实验的,java和ssh安装就不在这里讲了,这两个是必须要安装的,好了我们进入主题安装hadoop:

1.下载hadoop-0.20.1.tar.gz:
http://www.apache.org/dyn/closer.cgi/hadoop/common/

解压:$ tar –zvxf hadoop-0.20.1.tar.gz
把Hadoop 的安装路径添加到环/etc/profile 中:
export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1

export PATH=$HADOOP_HOME/bin:$PATH

 

2.配置hadoop
hadoop 的主要配置都在hadoop-0.20.1/conf 下。
(1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同):
$ gedit hadoop-env.sh
$ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14

 

3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配
置,datanode 的配置相同)
core-site.xml:
<configuration>
<!--- global properties -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/yangchao/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hdfs-site.xml:( replication 默认为3,如果不修改,datanode 少于三台就会报错)
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

4.运行hadoop

首先进入hadoop所在目录,执行格式化文件系统 bin/hadoop namenode –format

启动hadoop: bin/start-all.sh

用jps命令查看进程,显示: