Hadoop初步体验(安装与测试)

jopen 9年前

简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。

物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户

1:安装jdk

下载jdk: jdk-7u75-linux-x64.tar.gz

安装jdk: 

#切换到root用户  su root    #进入用户编译的目录  cd /usr/local/lib  #将jdk压缩包解压到当前路径  tar -zxvf [jdk文件路径]/java-jdk-1.7/jdk-7u75-linux-x64.tar.gz    #编辑linux配置文件  gedit /etc/profile  #添加如下文字  export JAVA_HOME=/usr/local/lib/jdk1.7.0_75      export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar  export PATH=$PATH:$JAVA_HOME/bin  #保存文件    #将jdk1.7.0_75目录的拥有者改为root组的root用户  chown root:root -R /usr/local/lib/jdk1.7.0_75  #更改目录和文件的模式  chmod 755 -R /usr/local/lib/jdk1.7.0_75  #生效  source /etc/profile    #测试jdk,这条命令检查jdk安装是否成功。运行这条命令,只要没有报错就表明安装成功了。  java -version

2:在虚拟机中安装hadoop

下载hadoop:hadoop-1.2.1.tar.gz

安装hadoop:

#切换到hadoop用户  su hadoop    #进入第三方包目录  cd /opt  tar -xvzf [hadoop文件路径]/hadoop-1.2.1.tar.gz    #进入hadoop目录,配置几个文件    #core-site.xml  <configuration>      <property>          <name>fs.default.name</name>          <value>hdfs://localhost:9000</value>      </property>  </configuration>    #mapred-site.xml  <configuration>      <property>          <name>mapred.job.tracker</name>          <value>localhost:9001</value>      </property>  </configuration>    #hdfs-site.xml  <configuration>      <property>          <name>dfs.replication</name>          <value>1</value>      </property>  </configuration>    #在hadoop-env.sh文件里添加如下一条语句:  export JAVA_HOME=/usr/local/lib/jdk1.7.0_75

3:安装rsync和ssh

sudo apt-get install ssh rsync  ssh-keygen -t dsa -f ~/.ssh/id_dsa  cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  ssh localhost

4:启动hadoop

#进入hadoop目录  cd /opt/hadoop-1.2.1    #格式化hadoop_namenode  ./bin/hadoop namenode -format    #启动hadoop所有节点  ./bin/start-all.sh

5:测试(词频统计)

#进入hadoop目录  cd /opt/hadoop-1.2.1    #将当前目录下的README.txt放到hadoop进行测试  ./bin/hadoop fs -put README.txt readme.txt    #运行hadoop 的examples 的wordcount,测试hadoop 的执行。  ./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount readme.txt output    #这条命令查看处理结果  ./bin/hadoop fs -cat output/part-r-00000


来自:http://my.oschina.net/chenhao901007/blog/378141