大数据部署实施新思维


Hadoop之新思维 重新认识大数据平台 数据平台从数据角度来看,其本质是处理非 结构化数据的一套规范化,标准化的模式 打破规模的藩篱,各种数据规模都可以 数据平台本身就是很廉价的 让所有人都来拥抱大数据 Hadoop之新思维 Hadoop 安装之知其所以然 网络上标准Hadoop安装方式 • 免密码登录配置 • Hostname 设置 • 将hadoop解压文件分发到所有服务器 • 手动修改一堆的Hadoop配置文件 • 分发配置到所有服务器上 • 格式化Namenode • 启动dfs • 启动yarn 为什么要无密码登录 • 方便文件传输(比如scp命令) • hadoop/sbin/ 下的文件基本都需要无密码登 录方便登录到其他机器执行指令 • 知道了这个,我们完全可以不用设置无密 码登录 • 在每个节点单独执行也是可以的,为了方 便我们使用一个分布式Shell执行引擎就好 NameNode format都做了什么 • Name node 元数据有三个: fsimage/edits/Shared Edits • Format 就是为了生成这些目录 • NameNode 节点有两个,Active/Standby • 他们都需要格式化 • 通过clusterId 保持一致 配置文件都要改什么(一) • 集群由什么构成的:存储/资源管理/计算模 型 • 存储由什么构成的:元数据节点/存储数据 节点/元数据共享存储/元数据节点FailOver • 资源调度由什么构成: 调度节点/资源分配 节点 • 计算模型由什么构成: 任务相关资源,工 作目录等 配置文件都要改什么(番外篇) • 安装个Hadoop,其实是安装了三套系统。他 们本身都是独立的 • 安装分布式存储系统(HDFS) • 安装分布式资源管理(Yarn) • 安装分布式计算模型(MR) • 单个系统就一个配置文件,真心不繁杂! 配置文件都要改什么(二) • Hadoop由什么构成的:存储(HDFS)/资源管理 (Yarn)/计算模型(MR) • HDFS由什么构成的:元数据节点(NameNode)/ 存储数据节点(DataNode)/元数据共享存储 (NFS,QJM,Bookeeper)/元数据节点FailOver(ZKFC) • 资源调度由什么构成: 调度节点 (ResourceManager)/资源分配节点 (NodeManager) • 计算模型由什么构成: 任务相关资源,工作 目录等 配置文件都要改什么(三) • Hadoop由什么构成的:存储(HDFS)/资源管理 (Yarn)/计算模型(MR) • HDFS由什么构成的:元数据节点(NameNode)/ 存储数据节点(DataNode)/元数据共享存储 (NFS,QJM,Bookeeper)/元数据节点FailOver(ZKFC) • 资源调度由什么构成: 调度节点 (ResourceManager)/资源分配节点 (NodeManager) • 计算模型由什么构成: 任务相关资源,工作 目录等 配置文件都要改什么(四) • 存储HDFS => hdfs-site.xml • 资源管理(Yarn) => yarn-site.xml • 计算模型(MR) => mapred-site.xml • 看,其实就三个配置文件 • 为什么还有slaves,exludets之类的文件 如何新增节点 • 所谓新增节点,你新增的是什么节点 • 数据节点 DataNode • 资源管理节点 NodeManager • 拷贝已有的安装目录,启动DataNode或者 NodeManager就行(为什么可行) 总结 • 集群无非涉及到: 存储/资源管理/计算模 型/高可用相关 • Master-Slaves 模型注定新增/删除Slave变得 容易 • 一个复杂的集群,本质上是其涵盖了存储, 资源管理,计算模型等多个领域 Hadoop之新思维 Hadoop与Docker的火花 Docker定义 • 虚拟技术 • 资源隔离 Docker状态 Docker相关的技术由来已久 Docker状态 • Docker在爆发期 • 大家拿着Docker这个锤子,看到什么都是 钉子 • 一个新技术的兴起,必然有这种过程,然 后找到真的适合的地方 Docker的好搭档是谁 • Mesos • Google的Borg • 百度的 Matrix • Hadoop 的Yarn • 这些平台一定需要资源隔离,Docker则是为 资源隔离而生,必定取代他们原有的容器 技术 Docker无法简化Hadoop的部署 • 我要个Nginx,那么Pull一个下来开箱即用 • 我下个Hadoop镜像,却做不到开箱即用 • 我们知道Hadoop是三个系统组成,每个系 统都是Master-Slave结构,不是平等的。 • Hadoop镜像的构建方式,依然繁琐 Docker可以实现计算节点和存储节点 的分离 Yarn作为资源管理组件,可以调度 Docker 可以实现离线在线混合调度 来一个完整的方案
还剩25页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 6 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

fg68

贡献于2015-08-17

下载需要 6 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf