云计算分布式大数据spark实践高手之路


1 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群:317540673 年度推荐 书籍 Life is short, you need Spark! 云计算分布式大数据 Spark 实战高手之路 从零开始 不需要任何基础,带领您无痛入门 Spark 王家林著 Spark 亚太研究院系列丛书 版权所有 2 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 伴随着大数据相关技术和产业的逐 步成熟,继 Hadoop 之后,Spark 技术以 其无可比拟的优势,发展迅速,将成为替 代 Hadoop 的下一代云计算、大数据核心 技术。 本书特点 云计算分布式大数据 Spark 实 战高手之路三部曲之第一部 网络发布版为图文并茂方式, 边学习,边演练 不需要任何前置知识,从零开 始,循序渐进 《云计算分布式大数据 Spark 实战高手之路》 系列丛书三部曲 《云计算分布式大数据 Spark 实战高手之路---从零开始》: 不需要任何基础,带领您无痛入门 Spark 并能够轻松 处理 Spark 工程师的日常编程工作,内容包括 Spark 集群 的构建、Spark 架构设计、RDD、Shark/SparkSQL、机器学 习、图计算、实时流处理、Spark on Yarn、JobServer、Spark 测试、Spark 优化等。 《云计算分布式大数据 Spark 实战高手之路---高手崛起》: 大话 Spark 源码,全世界最有情趣的源码解析,过程 中伴随诸多实验,解析 Spark 1.0 的任何一句源码!更重要 的是,思考源码背后的问题场景和解决问题的设计哲学和 实现招式。 《云计算分布式大数据 Spark 实战高手之路---高手之巅》: 通过当今主流的 Spark 商业使用方法和最成功的 Hadoop 大型案例让您直达高手之巅,从此一览众山小。 “真相会使你获得自由。” — 耶稣《圣经》约翰 8:32KJV “所有人类的不幸都来源于不能直面事实。” — 释迦摩尼 “道法自然” — 老子《道德经》第 25 章 本书作者 Spark 亚太研究院院长和首席专家, 中国目前唯一的移动互联网和云计算大数 据集大成者。在 Spark、Hadoop、Android 等方面有丰富的源码、实务和性能优化经 验。彻底研究了 Spark 从 0.5.0 到 0.9.1 共 13 个版本的 Spark 源码,并已完成 2014 年 5 月 31 日发布的 Spark1.0 源码 研究。 Hadoop 源码级专家,曾负责某知名 公司的类 Hadoop 框架开发工作,专注于 Hadoop 一站式解决方案的提供,同时也 是云计算分布式大数据处理的最早实践者 之一。 Android 架构师、高级工程师、咨询 顾问、培训专家。 通晓 Spark、Hadoop、Android、 HTML5,迷恋英语播音和健美。 3 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 《前言》 Spark 采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、 NoSQL 查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大 数据领域的霸主地位; 要想成为 Spark 高手,需要经历六大阶段 1 熟练的掌握 Scala 语言 2 精通 Spark 平 台本身提供给 开发者的 API 3 深入 Spark 内核 4 掌握基 Spark 上的核心框架 应用 5 做商业级别的 Spark 项目 6 提供 Spark 解决方案 4 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 第一阶段:熟练的掌握 Scala 语言 1. Spark 框架是采用 Scala 语言编写的,精致而优雅。要想成为 Spark 高手,你就必须 阅读 Spark 的源代码,就必须掌握 Scala,; 2. 虽然说现在的 Spark 可以采用多语言 Java、Python 等进行应用程序开发,但是最快 速的和支持最好的开发 API 依然并将永远是 Scala 方式的 API,所以你必须掌握 Scala 来编写复杂的和高性能的 Spark 分布式程序; 3. 尤其要熟练掌握 Scala 的 trait、apply、函数式编程、泛型、逆变与协变等; 推荐课程:”精通 Spark 的开发语言:Scala 最佳实践” 第二阶段:精通 Spark 平台本身提供给开发者 API 1. 掌握Spark中面向RDD的开发模式,掌握各种transformation 和action 函数的使用; 2. 掌握 Spark 中的宽依赖和窄依赖以及 lineage 机制; 3. 掌握 RDD 的计算流程,例如 Stage 的划分、Spark 应用程序提交给集群的基本过程和 Worker 节点基础的工作原理等 推荐课程:“18 小时内掌握 Spark:把云计算大数据速度提高 100 倍以上!” Spark 实战高手之核心技能点 5 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 第三阶段:深入 Spark 内核 此阶段主要是通过 Spark 框架的源码研读来深入 Spark 内核部分: 1. 通过源码掌握 Spark 的任务提交过程; 2. 通过源码掌握 Spark 集群的任务调度; 3. 尤其要精通 DAGScheduler、TaskScheduler 和 Worker 节点内部的工作的每一步的 细节; 推荐课程:“Spark 1.0.0 企业级开发动手:实战世界上第一个 Spark 1.0.0 课程,涵 盖 Spark 1.0.0 所有的企业级开发技术” 第四阶级:掌握基于 Spark 上的核心框架的使用 Spark 作为云计算大数据时代的集大成者,在实时流处理、图技术、机器学习、NoSQL 查 询等方面具有显著的优势,我们使用 Spark 的时候大部分时间都是在使用其上的框架例如 Shark、Spark Streaming 等: 1. Spark Streaming 是非常出色的实时流处理框架,要掌握其 DStream、transformation 和 checkpoint 等; 2. Spark 的离线统计分析功能,Spark 1.0.0 版本在 Shark 的基础上推出了 Spark SQL, 离线统计分析的功能的效率有显著的提升,需要重点掌握; 3. 对于 Spark 的机器学习和 GraphX 等要掌握其原理和用法; 推荐课程:“Spark 企业级开发最佳实践” 第五阶级:做商业级别的 Spark 项目 通过一个完整的具有代表性的 Spark 项目来贯穿 Spark 的方方面面,包括项目的架构设计、 用到的技术的剖析、开发实现、运维等,完整掌握其中的每一个阶段和细节,这样就可以让 您以后可以从容面对绝大多数 Spark 项目。 推荐课程:“Spark 架构案例鉴赏:Conviva、Yahoo!、优酷土豆、网易、腾讯、 淘宝等公司的实际 Spark 案例” 第六阶级:提供 Spark 解决方案 1. 彻底掌握 Spark 框架源码的每一个细节; 2. 根据不同的业务场景的需要提供 Spark 在不同场景的下的解决方案; 3. 根据实际需要,在 Spark 框架基础上进行二次开发,打造自己的 Spark 框架; 推荐课程:“精通 Spark:Spark 内核剖析、源码解读、性能优化和商业案例实战” 6 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 《第一章:构建 Spark 集群》 对于 90%以上想学习 Spark 的人而言,如何构建 Spark 集群是其最大的难点之一, 为了解决大家构建 Spark 集群的一切困难,家林把 Spark 集群的构建分为了四个步骤,从 零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的 Spark 集群。 从零起步,构建 Spark 集群经典四部曲: 第一步:搭建 Hadoop 单机和伪分布式环境; 第二步:构造分布式 Hadoop 集群; 第三步:构造分布式的 Spark 集群; 第四步:测试 Spark 集群; 本文内容为构建 Spark 集群经典四部曲的第一步,从零起步构建 Hadoop 单机版本和伪 分布式的开发环境,涉及: 开发 Hadoop 需要的基本软件; 安装每个软件; 配置 Hadoop 单机模式并运行 Wordcount 示例; 配置 Hadoop 伪分布式模式并运行 Wordcount 示例; 不需任何前置知识,从零开始,循序渐进,成为 Spark 高手! 7 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 目录 第一步:开发 Hadoop 需要的基本软件 ........................................................................ 8 第二步:安装每个软件 ..................................................................................................11 第三步:配置 Hadoop 单机模式并运行 Wordcount 示例 ........................................38 第四步:配置 Hadoop 伪分布模式并运行 Wordcount 示例 ....................................47 8 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 第一步:开发 Hadoop 需要的基本软件 我们的开发环境是在 Windows 7 上面构建 Hadoop,此时需要 Vmware 虚拟机、Ubuntu 的 ISO 镜像文件,Java SDK 的支持、Eclipse IDE 平台、Hadoop 安装包等; 1. Vmware 虚拟机,这里使用的是 VMware Workstation 9.0.2 for Windows, 具体的下载地 址是 https://my.vmware.com/cn/web/vmware/details?downloadGroup=WKST-902-WIN&produc tId=293&rPId=3526 如下图所示: 下载后在本地的保存如下图所示: 可以看出里面多了一个 keys.txt 文件,这个是安装 Vwware 时需要的序列码,读者需 要从网络上下载; 2. Ubuntu 的 ISO 镜像文件,家林这里使用的 ubuntu-12.10-desktop-i386,具体下载地址为: http://www.ubuntu.org.cn/download/desktop/alternative-downloads 如下图所示: 9 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 下载后,在本地电脑的保存为: 3. Java SDK 的支持,使用的是最新的“jdk-7u60-linux-i586.tar.gz”,具体的下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htm l 如下图所示: 点击下载,保存在了 Ubuntu 系统如下图所示: 10 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 4. 下载最新稳定版本的 Hadoop,下载的是“hadoop-1.1.2-bin.tar.gz ”,具体官方下载地址 为 http://mirrors.cnnic.cn/apache/hadoop/common/stable/ 下载后在本地的保存为: 11 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 第二步:安装每个软件 安装 Vmware 虚拟机 1. 点击“VMware-workstation-full-9.0.2-1031769”可执行文件,如下图所示: 点击“Next”进入下一步: 我们选择“Custom”进入下一步; 12 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 2. 选择所有的功能,如下所示: 点击”Next”进入如下图所示界面: 13 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 3. 改变默认的虚拟机存放的路径为自定义的路径,家林在这里存放到了“E:\VMware\VMs” 中,如下图所示: 点击“Next”进入下一步 14 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 点击”Next”进入下一步 点击“Next”进入下一步: 点击“Next”进入下一步: 15 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 点击“Next”进入下一步 4. 输入产品序列码: 16 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 此时输入产品的序列码,如下所示: 点击“Enter”进入下一步 5. 完成安装: 17 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 点击“Finish”完成安装; 6. Vmware 安装完成后启动的主界面: 安装 Ubuntu 系统 Unbuntu 系统是我们开发 Hadoop 时最常用的操作系统,下面带领大家一步步完成 Vmware 虚拟机下 Unbuntu 系统的安装 18 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 1. 创建 Vmware 中的虚拟系统: 我们选择的是“Typical”的方式,点击“Next”进入下一步: 选择稍后安装操作系统,点击“Next”进入下一步: 19 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 选择安装 Linux 系统的 Ubuntu 版本,点击“Next”进入下一步: 家林这里选择了自定义系统的存放路径为“E:\VMware\Virtual Machines\Master” 如下图所示: 20 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 点击“Next”进入下一步: 点击“Next”进入下一步; 2. 完成操作系统所在虚拟系统的创建并设置 Ubuntu 的 ISO 镜像路径 21 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 3. 点击“Finish”完成虚拟系统的创建,如下图所示: 点击我们创建的 Ubuntu,如下所示 22 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 点击“CD/DVD(IDE)”进入如下界面 选择我们的 Ubuntu 的 ISO 的具体存放路径,选择好后如下图所示: 点击“OK”完成设置; 点击“Memory”,进入如下界面: 23 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 此时把我们虚拟的内存设置为 2G,如下所示: 点击“OK”完成设置。 4. 启动虚拟机,正是开启 Ubuntu 系统的安装! 点击“Power on this virtual machine”启动虚拟机,此时进入 Ubuntu 的安装 24 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 等待一段时间后虚拟机自动进入如下界面: 点击“Install Ubuntu”进入 Ubuntu 的安装 25 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 点击“Continue”进入下一步: 点击“Continue”进入下一步 26 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 点击“Continue”进入下一步 点击“Continue”进入下一步 27 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 设置好用户名和密码等信息,如下图所示: 点击“Continue”进入自动安装过程: 28 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 一直等待这个自动安装的过程,在家林的机器上等待了大约 5 分钟完成了安装,如下 图所示: 29 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 点击“Restart Now”重启启动系统 输入自己的密码,进入 Ubuntu 系统 点击“Firefox Web Browser”进入如下视图 30 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 我们成功的访问了网络,表明我们的 Ubuntu 系统安装成功。 为了简化权限等问题,下面我们以 root 用户的身份登录和使用 Ubuntu 系统,而 Ubuntu 在默认情况下并没有开启 root 用户,这需要我们做如下设置: • sudo -s 进入 root 用户权限模式 • vim /etc/lightdm/lightdm.conf [SeatDefaults] greeter-session=unity-greeter user-session=ubuntu greeter-show-manual-login=true #手工输入登陆系统的用户名和密码 allow-guest=false #不允许 guest 登录 • 启动 root 帐号:sudo passwd root 下面看家林的具体的操作: 第一步:进入 root 用户权限: • 通过 sudo -s 进入 root 用户权限模式 31 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 • 输入密码,进入 root 模式: 此时我们发现已经是 root 用户了。 第二步:修改“/etc/lightdm/lightdm.conf”文件: 此时系统提示我们没有 vim 编辑器,安装 vim 编辑器: 32 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 输入“Y”完成安装。 此时再次修改“/etc/lightdm/lightdm.conf”文件: 进入文件: 33 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 此时输入“i”进入插入修改模式,把文件具体修改为: 按下“esc”,输入“:wq”保存退出 第三步:启动 root 帐号:sudo passwd root 按下回车: 34 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 此时要求输入 root 账号的密码,设置好即可: 重新启动系统: 此次系统进入界面如下: 点击“Login”: 35 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 输入“root”账户: 输入密码登录进系统: 此时发现我们登录进的账户为 root 账户。 36 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 安装 Java 1. 打开终端,建立新目录“/usr/lib/java”,如下图所示: 2. 把下载的 JDK 文件移到刚刚创建的“/usr/lib/java”中,如下图所示 3. 解压 JDK 文件,如下图所示: 37 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 解压完成的文件目录如下图所示: 4. 修改环境变量: 进入如下图所示的配置文件中: 按下“i”进入 INSERT 模式,把 Java 的环境编写信息加入其中,如下图所示: 38 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 按下“esc“键回到正常模式,保存并退出配置文件: 执行以下命令是配置文件的修改生效: 5. 在终端中显示刚刚安装的 Java 版本,如下图所示 我们的 Java 安装结束。 第三步:配置 Hadoop 单机模式并运行 Wordcount 示例 1. 安装 ssh Hadoop 是采用 ssh 进行通信的,此时我们要设置密码为空,即不需要密码登陆,这 样免去每次通信时都输入秘密,安装如下: 39 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 输入“Y”进行安装并等待自动安装完成。 40 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 安装 ssh 完成后启动服务 以下命令验证服务是否正常启动: 可以看到 ssh 正常启动; 设置免密码登录,生成私钥和公钥: 在/root/.ssh 中生成两个文件:id_rsa 和 id_rsa.pub,id_rsa 为私钥,id_rsa.pub 为 公钥,我们将公钥 id_rsa.pub 追加到 authorized_keys 中,因为 authorized_keys 用于保 存所有允许以当前用户身份登录到 ssh 客户端用户的公钥内容: 看看现在能否免密码登录 ssh: 41 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 输入“yes”继续登录: 表明我们成功登录; 使用以下命令可以退出 localhost 再次登录进 localhost 的时候就不需要密码了,如下图所示: 42 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 2. 安装 rsync 我们的Ubuntu 12.10版本默认安装了rsync,我们可以通过以下命令来安装或者更新rsync 3. 安装 hadoop,家林把下载下来的最新稳定版本的 hadoop 保存在电脑本地的以下位 置: 创建/usr/local/hadoop 目录并把下载下来的 Hadoop 解压/usr/local/hadoop 中: 43 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 4. 在 hadoop-env.sh 配置 Java 安装信息. 进入/usr/local/Hadoop/Hadoop-1.2.1/conf 打开 hadoop-env.sh: 按下回车即可进入该配置文件: 在前面我们安装 Java 的时候把 Java 安装在了“/usr/lib/java/jdk1.7.0_60”,此时我们 在 hadoop-env.sh 配置文件加入如下配置信息 44 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 保存退出. 使用 source 命令使 hadoop-env.sh 配置信息生效: 此时 Hadoop 的单机模式配置成功! 为了方便我们在开机启动后也可以立即使用 Hadoop 的 bin 目录下的相关命令,可以 把 bin 目录配置到“~/.bashrc”文件中,此时开启启动后系统自动读取“~/.bashrc”文 件的内容,我就就可以随时使用 Hadoop 的命令了: 修改后的文件内容: 保存退出,使用下面的命令使配置生效: 5. 验证 Hadoop 的版本信息,使用“hadoop version”命令即可: 6. 运行 Hadoop 自带的 WordCount 例子: 首先在 hadoop 的目录下创建一个 input 目录并把 conf 下的所有文件 copy 到该目录 下,需要如下命令即可: 45 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐 书籍 使用 hadoop 命令运行自带的 wordcount 程序并把结果输出到 output 中: 运行过程如下: 一直运行知道完成(因为运行过程有些长,中间省略了一些运行过程,只截取了开始和 结束部分): 46 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 查看运行结果: 该命令执行后即显示出 Wordcount 运行 input 中若干个文件中单词统计结果,如下所 示(直截取了其中一部分): 至此,单机模式的构建、配置和运行测试彻底成功! 47 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 第四步:配置 Hadoop 伪分布模式并运行 Wordcount 示例 伪分布模式主要涉及一下的配置信息: 1. 修改 Hadoop 的核心配置文件 core-site.xml,主要是配置 HDFS 的地址和端口号; 2. 修改 Hadoop 中 HDFS 的配置文件 hdfs-site.xml,主要是配置 replication; 3. 修改 Hadoop 的 MapReduce 的配置文件 mapred-site.xml,主要是配置 JobTracker 的地址和端口; 在具体操作前我们先在 Hadoop 目录下创建几个文件夹: 下面开始构建具体的伪分布式的过程并进行测试: 首先配置 core-site.xml 文件: 进入 core-site.xml 文件: 48 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 配置后文件的内容如下所示: 使用“:wq”命令保存并退出。 接下来配置 hdfs-site.xml,打开文件: 49 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐 书籍 打开后的文件: 配置后的文件: 50 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 输入“:wq”保存修改信息并退出。 接下来修改 mapred-site.xml 配置文件: 进入配置文件: 修改后的 mapred-site.xml 配置文件的内容为: 51 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 使用“:wq”命令保存并退出。 通过上面的配置,我们完成了最简单的伪分布式配置。 接下来进行 hadoop 的 namenode 格式化: 输入“Y”,完成格式化过程: 接下来启动 Hadoop! 启动 Hadoop,如下所示: 52 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 使用 java 自带的 jps 命令查询出所有的守护进程: 启动 Hadoop!!! 接下来使用 Hadoop 中用于监控集群状态的 Web 页面查看 Hadoop 的运行状况,具 体的页面如下: http://localhost:50030/jobtracker.jsp http://localhost:50060/tasttracker.jsp http://localhost:50070/dfshealth.jsp 53 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐 书籍 上述 Hadoop 运行状态监控页面表明我们的伪分布式开发环境完全搭建成功! 54 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 接下来我们使用新建的伪分布式平台运行 wordcount 程序: 首先在 dfs 中创建 input 目录: 此时创建的文件因为没有指定 hdfs 具体的目录,所以会在当前用户“rocky”下创建 “input”目录,查看 Web 控制台: 执行文件拷贝操作 拷贝后的“input”文件夹的内容如下所示: 55 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐书籍 和我们的 hadoop 安装目录下的“conf”文件的内容是一样的。 现在,在我们刚刚构建的伪分布式模式下运行 wordcount 程序: 56 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 运行完成后我们查看一下输出的结果: 57 / 58 云计算分布式大数据 Spark 实战高手之路 第一章:构建 Spark 集群 QQ 交流群: 317540673 年度推荐 书籍 部分统计结果如下: 此时我们到达 Hadoop 的 web 控制台会发现我们提交并成功的运行了任务: 58 / 58 Spark 从入门到精通 Life is short, you need spark! www.sparkinchina.com TEL: 4006-998-758 最后在 Hadoop 执行完任务后,可以关闭 Hadoop 后台服务: 至此,Hadoop 伪分布式环境的搭建和测试你完全成功! 至此,我们彻底完成了实验。 Spark 亚太研究院 Spark 亚太研究院,提供 Spark、Hadoop、Android、Html5、云计算和移动互联网 一站式解决方案。以帮助企业规划、部署、开发、培训和使用为核心,并规划和实施人才培 训完整路径,提供源码研究和应用技术训练。 近期活动及相关课程 决战云计算大数据时代 Spark 亚太研究院 100 期公益大奖堂 每周四晚上 20:00—21:00 课程介绍:http://edu.51cto.com/course/course_id-1659.html#showDesc 报名参与:http://ke.qq.com/cgi-bin/courseDetail?course_id=6167 【Spark 公开课】 Spark 深入浅出 7 月 19-20 日 北京 18 小时内掌握 Spark,把云计算大数据速度提升 100 倍以上 8 月 10-12 日 深圳 报名咨询:4006-998-758 QQ 学习交流群号:317540673
还剩57页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 8 金币 [ 分享pdf获得金币 ] 17 人已下载

下载pdf