0推荐
17K 浏览

Storm集群的DRPC模式

storm的DRPC模式的作用是实现从远程调用storm集群的计算资源,而不需要连接到集群的某一个节点。OK。那么storm实现DRPC主要是 使用LinearDRPCTopologyBuilder这个类
0推荐
18K 浏览

ZooKeeper伪分布式集群安装

获取ZooKeeper安装包 下载地址:http://apache.dataguru.cn/zookeeper 选择一个稳定版本进行下载,我这里下载的是zookee...
0推荐
35K 浏览

实时大数据分析平台:Ebay Pulsar

Pulsar 是 eBay 开源的实时大数据分析平台。 作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。 基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需...
0推荐
64K 浏览

Zookeeper的Java客户端

zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,由...
0推荐
38K 浏览

配置高可用的Hadoop平台

在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN
0推荐
18K 浏览

分布式计算系统:Onyx

Onyx 是一个无中心、支持云、容错的分布式计算系统 使用 Clojure 编写
0推荐
16K 浏览

大规模Docker集群助力微博迎接春晚峰值挑战

羊年的春晚与往年的春晚一样,却又不太一样。一样的是服务器君仍要应对全民“DDOS攻击”,不一样的是今年无法通过简单的扩容抵御峰值。今年不但主信息流日常用户活跃度已经达到了去年春晚的峰值,同时渣浪...
0推荐
46K 浏览

如何挑选合适的大数据或Hadoop平台?

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产...
0推荐
36K 浏览

介绍两款大数据清洗工具 - DataWrangler、Google Refine

在进行数据分析和可视化之前,经常需要先“清洗”数据。这意味着什么?可能有些词条列表里是“New York City”,而其他人写成“New York, NY”。然而,你在看到某些模式前得将各种各...
0推荐
40K 浏览

Spark on Yarn: Cluster模式Scheduler实现

Spark on Yarn分yarn-cluster和yarn-client两种模式。 本文通过Cluster模式的TaskScheduler实现入手,梳理一遍spark on yarn的大致实现逻辑。
0推荐
14K 浏览

Hadoop初步体验(安装与测试)

简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。 物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户
0推荐
21K 浏览

Spark on Mesos: 粗粒度与细粒度实现分析

顺着昨天spark standalone实现那篇文章继续扯淡,看看Mesos Scheduler的两种实现的异同。 对我来说,回过头再仔细看Spark在这一层的实现,思路又清晰了许多。
0推荐
14K 浏览

梳理对Spark Standalone的理解

本文不打算从源码分析的角度看standalone如何实现,甚至有的模块和类在分析中都是忽略掉的。 本文目的是透过spark的standalone模式,看类似spark这种执行模式的系统,...
0推荐
29K 浏览

Hadoop安装部署

使用VirtualBox安装CentOS6.4,存储为30G,内存为1G,并使用复制克隆出两个新的虚拟机,这样就存在3台虚拟机,设置三台虚拟机的主机名称,如:master、slaver1、slaver2
0推荐
21K 浏览

最夯的大数据分析工具-Apache Spark

大家好!我是猫大,大家还记得我的好友咪咪(那位想要知道自己养的猫,会不会抓老鼠的那位爱猫人士)吗?在过去文章什么 ? SVM会赚钱 !中猫大介绍了SVM的概念,以及如何通过LIBSVM,帮助使用...
0推荐
98K 浏览

使用Ceph作为OpenStack的后端存储

libvirt配置了librbd的QEMU接口,通过它可以在OpenStack中使用Ceph块存储。Ceph块存储是集群对象,这意味着它比独立的服务器有更好的性能。 在Ope...
0推荐
54K 浏览

6个用于大数据分析的最好工具

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些 数据集收集自各种各样的来源:传感器,气候信息,公开的...
0推荐
20K 浏览

Spotify如何对Apache Storm进行规模扩展

【编者的话】Spotify是一家音乐流媒体服务商,最新的数据显示他们已经有6000万用户。 Spotify内部使用 Apache Storm来构建实时类系统,包括广告定位、音乐推荐以及数据可视化...
0推荐
49K 浏览

大数据的OLAP技术

和企业私有云的架构一样,对企业的大数据平台,我们很难直接去简单复制互联网的海量存储或计算平台技术,如Hadoop、HBase、 Spark;因为这些技术搭建的只是一个数据的基础设施,要在传统企业...
0推荐
61K 浏览

Flume-ng的原理和使用

Flume 是 Cloudera 提供的日志收集系统,具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定制各类数据发送方,同时,Flume提供对数据进...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档