Hadoop 0.20的配置过程和配置文件(分布式)

12年前

在安装Fedora 11的两台机器上的目录结构一致，分别安装JRE 6 Update 14，下载hadoop 0.20后解压放在目录/home/hadoop/下。hadoop包解压以后的路径名字是hadoop-0.20.0，建立一个软链接指向这个目录，方便今后的升级，名字叫hadoop。修改/home/hadoop/hadoop/conf/hadoop-env.sh文件中的变量 JAVA_HOME，“export JAVA_HOME=/usr/java/jre1.6.0_14”。下面是配置文件的具体内容：
1、文件 core-site.xml：
    fs.default.name
      hdfs://hadoop1:9000
    fs.inmemory.size.mb
      200
    io.sort.factor
      100
    io.sort.mb
      200
    io.file.buffer.size
      131072

2、文件hdfs-site.xml：

    dfs.name.dir
      /home/hadoop/hdfs/name

    dfs.data.dir
      /home/hadoop/hdfs/data

    dfs.block.size
      134217728

    dfs.namenode.handler.count
      40

3、文件mapred-site.xml：

    mapred.job.tracker
      hadoop1:12345

    mapred.system.dir
      /home/hadoop/mapred/system/

    mapred.local.dir
      /home/hadoop/mapred/local/

    mapred.reduce.parallel.copies
      20

    mapred.child.java.opts
      -Xmx512M

4、文件masters存放NameNode的机器，slaves中是DataNode机器，这两个文件分别写上环境中不同的机器。在我配置的这个环境里只有两台机器，在masters里面的内容是hadoop1，在slaves文件里是hadoop2。

把上面几个文件拷贝到其它机器的相同目录下，然后可以执行脚步开始启动hadoop：/home/hadoop/hadoop/bin/start- dfs.sh 和 /home/hadoop/hadoop/bin/start-mapred.sh。这两个脚本会提示生成相应的日志文件，检查这些日志文件以确定 hadoop成功启动。接下来，网上有些测试步骤的例子，比如：bin/hadoop jar hadoop-0.20.0-examples.jar wordcount input output，验证启动后的hadoop可以正常工作。DL cxzx