实际环境是开发使用的两台服务器,每个服务器上是三个集群容器节点,总共六个节点,使用weave实现跨主机的通信,并且利用小插件可以实现在局域网或者是在外网查看监控集群的webUI和开放7077等关键端口进行程序远程调试功能。
为了完成计算机综合实验的考核,折腾了三天,终于完成了在Hadoop集群上完成了Mapreduce的实验。但是,后面的考试接踵而至,也就没能及时写下心得,考试结束了。赶紧把过程中的步骤和遇到的困难记录下来,跟大家分享交流一下,废话少说,入正题。
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
1.x版本,比较经典,使用者很多。2.x版本,和1.x并不兼容。2.x完全推翻了1.x的代码,重新编写的。内部思想有借鉴。
mongodb+sharding(集群的配置步骤和真实生产环境的搭建过程)
熟悉ZooKeeper的朋友都清楚,这是一个好东西。只是搭建ZooKeeper集群却不是一件容易的事。使用数人云部署ZooKeeper集群?那就是分分钟的事。
Redis的复制功能是完全建立在之前我们讨论过的基于内存快照的持久化策略基础上的,也就是说无论你的持久化策略选择的是什么,只要用到了Redis的复制功能,就一定会有内存快照发生,那么首先要注意你的系统内存容量规划,原因可以参考我上一篇文章中提到的Redis磁盘IO问题。
准备好源资源服务器,我使用之前的一台node4,配置都是1GB内存20GB存储 集群最好的安装方式一定是通过本地源的,如果是公共源,那么网络将会严重影响我们的安装进度。所以制作本地源是每一个大数据工作者的必会技能。
网上教程有很多关于Hadoop配置的,但是每一个教程都对应了一个版本信息,有一些教程也存在很大的问题,配置环境,系统环境都没说清楚。在此我将记录下来从零搭建Hadoop2.7.1的过程,以及搭建过程中所遇到的一些问题。
【原文编者的话】 我来自上海Hypers 国内顶尖的大数据分析公司,参加过“云雀Docker巨好玩”并获得一等奖,年纪尚小请大家多多指教。因为有人提出了这个想法,我之前已经成功实践过这些 实验,自己也就把百度和Google不到的私房菜贡献出来,只有一个要求,希望大家互相帮助,不要自吹自擂就行,多多分享。
问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行“随机读写”的原因是什么? 3.kafka集群consumer和producer状态信息是如何保存的? 4.partitions设计的目的的根本原因是什么?
本文会讨论一下Redis的复制功能以及Redis复制机制本身的优缺点以及集群搭建问题。
hadoop2.0集群搭建详解
Hadoop,ZooKeeper,HBase分布式搭建前提准备注:hbase的安装需要hadoop和zookeeper和hbase,生产环境下需要将zookeeper独立安装,hbase软件选择cloudera的cdh3u0,这样不会出现版本不兼容等问题。apache的版本需要重新编译hadoop0.20.2-appender版以保证没有数据丢失。1、机器集群结构分布使用8台曙光服务器搭建集群,ip为*.*.83.1-8,hostname为hadoop-node1到hadoop-node8
Redis目前版本是没有提供集群功能的,如果要实现多台Redis同时提供服务只能通过客户端自身去实现(Memchached也是客户端实现分布式)。目前根据文档已经看到Redis正在开发集群功能,其中一部分已经开发完成,但是具体什么时候可以用上,还不得而知。
Apache+ Tomcat整合的目标:<br> (1) 可以提高整体web服务器性能,将动态页面交给tomcat处理,将静态文件交给apache处理,可以大大提高服务器的静态文件处理性能。<br> (2) 可以实现web服务器的负载均衡,服务器可采用集群的方式来响应客户端请求。Apache的作用是做代理,将请求分发给各个tomcat处理,tomcat作为集群服务器处理请求。这样可以提高整体web服务器性能和访问量。<br> (3) 可以实现无缝升级应用程序和容错处理,在tomcat集群中如果有一个tomcat挂掉了,用户还可以通过其他tomcat来进行访问,同时如果我们想升级应用程序,我们可以通过升级每个tomcat的应用程序来实现升级,在升级的过程中不会影响web服务器的访问。 <br> 下面就是以1个apache+2个tomcat配置集群的例子。
memcache 是一个分布式的缓存系统,但是本身没有提供集群功能,在大型应用的情况下容易成为瓶颈。但是客户端这个时候可以自由扩展,分两阶段实现。第一阶段:key 要先根据一定的算法映射到一台memcache服务器。
Hadoop集群搭建机器规格CPU:2个四核2~2.5GHzCPU内存:8~16GBECCRAM(非ECC会产生校验和错误)存储器:4*1TSATA硬盘(硬盘大小一般是数据量的3—5倍)网络:千兆以太网PS:namenode一般采用64位硬件,避免32位机java堆3g限制具体规格情况跟数据量有关。
高性能计算集群,简称HPC集群。这类集群致力于提供单个计算机所不能提供的强大计算能力,包括数值计算和数据处理,并且倾向于追求综合性能。HPG与超级计算类似,但是又有不同,计算速度是超级计算追求的第一目标。最快的速度、最大的存储、最庞大的体积、最昂贵的价格代表了超级计算的特点。随着人们对计算速度需求的提高,超级计算也应用到各个领域,对超级计算追求单一计算速度指标转变为追求高性能的综合指标,即高性能计算。
双机热备份方式的集群完全通过操作系统的cluster软件来实现,在同一个时刻,只有一台机器对数据库作操作,当这台机器发生故障以后,由操作系统cluster将所有资源切换到两外一个节点,防止单节点数据库故障。 双机集群方式(RAC),在10g以后,通过ORACLE自身提供的CRS来实现集群的功能。在同一个时刻,所有的机器都对数据库作操作,当某台机器发生故障后,其他机器接管该机器的工作。这种方式不但能够防止单节点数据库故障,还能够实现负载均衡。因为两个机器对同一个数据库操作,因此数据库文件一般无法使用传统的文件系统方式存储。