分布式消息发布订阅系统,Apache Kafka 0.9.0.1 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2016-02-19   11214   0

Revolution R Enterprise现已命名为Microsoft R Server 资讯

Server。除了Windows之外,Microsoft R Server还能够运行在Linux(SUSE/Red Hat)、Hadoop(仅限Red Hat)和Teradata DB环境中。 与开源版本的R相比,Revolution

jopen 2016-02-21   13719   0

开源云计算系统 Spark 经验

Spark是一个开源的集群计算系统,用于快速数据分析,包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某

fmms 2012-01-05   104657   0

分布式发布订阅消息系统,Apache Kafka 0.8.2.2 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-10-04   10585   0

用Spark进行大数据处理之机器学习篇 经验

在本篇文章,作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。 1.引言 Spark机器学习API包含两个package:spark

co880591 2016-06-01   148422   0
P136

  《中国电信eda总体规范-技术与架构分册》初稿 文档

库架构或hadoop架构的数据存储管理方式,存储了诸如用户话单、DPI等数据信息;消息类流数据采用流处理的数据处理方式,实时处理,实时对外共享结果,一般不做存储要求。大数据平台通过hadoop等技术对

allenlei 2016-09-13   1864   1

Confluent:在Kafka上飞驰的数据交换者 经验

Rao即将在 QCon北京2018 分享Apache Kafka的前世今生和未来的相关话题。 在整个Hadoop的生态圈里,Kafka是一款非常特殊的软件。它由LinkedIn于2011年开源,并在2012

CUDIon 2018-01-16   18016   0

Facebook如何实现PB级别数据库自动化备份 经验

数据保留问题,因为他们有措施2。 措施2:Hadoop DFS 在每个备份和二进制日志收集完成后,他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集,并有固

jopen 2013-03-03   11382   0
备份  

日志系统之Flume采集加morphline解析 经验

morphline是由flume的母公司cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行 ETL(extract、transfer、load)的流式处理程序。(值得一提的是flu

jopen 2015-11-21   30106   0

[Apache Kafka]Kafka简介 经验

Kafka提供了实时发布订阅的解决方案,克服了实时数据消费和比实时数据更大数量级的数据量增长的问题。Kafka也支持Hadoop系统中的并行数据加载。下图展示了一种典型的使用Kafka消息系统的大数据聚合分析的场景。

jopen 2015-12-31   22385   0

你还需要知道的9个大数据技术 经验

Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。 1.Apache Flink 2

Facebook如何实现PB级别数据库自动化备份 经验

Facebook团队不会过分担心单个系统的数据保留问题,因为他们有措施2。 措施2:Hadoop DFS 在每个备份和二进制日志收集完成后,他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集,并有固定的保留时

jopen 2015-03-02   13293   0

Pinot-LinkedIn如何将大数据做到实时与民主化 资讯

析的复杂 度。 图1 2014年10月,我和Parveen在纽约举办的 Starta+Hadoop会议 上一起做了分享 。 做好数据分析,必先做好数据点采集的工作。对于Sponsored

jopen 2015-07-16   16088   0

给Java开发者的10个大数据工具和框架 经验

7、Hadoop ——用Java编写的开源软件框架,用于分布式存储,并对非常大的数据用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop

fkol7746 2017-05-16   44594   0

用Apache Kafka构建流数据平台 资讯

。 他们将该实时流数据中心称为流数据平台,其出现主要是由于需要: 在关系型OLTP数据库、Hadoop、Teradata、搜索系统、监控系统、OLAP数据库等若干不同的系统之间传递数据,而且这些系统处于地理上分散的环境中;

jopen 2015-03-03   19614   0

Hive运行架构及配置部署 经验

运行架构 由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具; 构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库; 设计目

jopen 2015-05-25   14402   0

Twitter 数据实时分析处理攻击 Storm 经验

Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算, Storm之于实时处理,就好比 Hadoop之于批处理 。 Storm保证每个消息都会得到处理 ,而且它很快——在一个小集群中,每秒可以处

jopen 2012-11-12   22492   0
P9

  构建Apache Mahout 文档

3)配置环境变量 图21-8:安装Maven配置环境变量 执行set命令,可以查到HADOOP_ CONF_DIR和HADOOP_HOME已经配置好。 图21-9:安装Maven配置好的环境变量 执行bin/mahout

css0613 2011-05-13   5186   0
P5

  Yarn 源代码分析 文档

来,一直利用业余时间学习hadoop生态系统的相关技术,学习的方式主要是跟踪业界大神的博客以及hadoop官方的文档,自己也利用公司淘汰下来的机器搭建了一个简单的hadoop集群来测试。当学习完系统架

光荣复兴 2014-03-30   2574   0

为什么我要用Yarn来做Docker容器调度引擎 经验

相比较而言,Mesos更像是一个已经做好的产品,部署了可以直接用,但是对二次开发并不友好。 生态优势 Yarn 诞生于Hadoop这个大数据的“始作俑者”项目,所以在大数据领域具有先天优势。 底层天然就是分布式存储系统HDFS,稳定高效。

ioriren 2016-02-16   9506   0
YARN   Docker  
1 2 3 4 5 6 7 8 9 10