开源项目,开源代码,开源文档,开源新闻,开源社区

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2016-02-19 11214 0

Server。除了Windows之外，Microsoft R Server还能够运行在Linux（SUSE/Red Hat）、Hadoop（仅限Red Hat）和Teradata DB环境中。与开源版本的R相比，Revolution

jopen 2016-02-21 13719 0

微软服务器

Spark是一个开源的集群计算系统，用于快速数据分析，包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某

fmms 2012-01-05 104657 0

Hadoop Scala 分布式/云计算/大数据

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-10-04 10585 0

Apache Kafk

在本篇文章，作者将讨论机器学习概念以及如何使用Spark MLlib来进行预测分析。后面将会使用一个例子展示Spark MLlib在机器学习领域的强悍。 1.引言 Spark机器学习API包含两个package：spark

co880591 2016-06-01 148422 0

数据挖掘 Spark 大数据分布式/云计算/大数据

P136

库架构或hadoop架构的数据存储管理方式，存储了诸如用户话单、DPI等数据信息；消息类流数据采用流处理的数据处理方式，实时处理，实时对外共享结果，一般不做存储要求。大数据平台通过hadoop等技术对

allenlei 2016-09-13 1864 1

网络技术

Rao即将在 QCon北京2018 分享Apache Kafka的前世今生和未来的相关话题。在整个Hadoop的生态圈里，Kafka是一款非常特殊的软件。它由LinkedIn于2011年开源，并在2012

CUDIon 2018-01-16 18016 0

Apache Kafka

数据保留问题，因为他们有措施2。措施2：Hadoop DFS 在每个备份和二进制日志收集完成后，他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集，并有固

jopen 2013-03-03 11382 0

备份

morphline是由flume的母公司cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行 ETL（extract、transfer、load）的流式处理程序。（值得一提的是flu

jopen 2015-11-21 30106 0

Flume 日志处理

Kafka提供了实时发布订阅的解决方案，克服了实时数据消费和比实时数据更大数量级的数据量增长的问题。Kafka也支持Hadoop系统中的并行数据加载。下图展示了一种典型的使用Kafka消息系统的大数据聚合分析的场景。

jopen 2015-12-31 22385 0

Kafka 消息系统

Hadoop是大数据领域最流行的技术，但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外，另外9个大数据技术也是必须要了解的。 1.Apache Flink 2

疯狂的蜗牛 2016-10-19 8756 0

大数据分布式系统分布式/云计算/大数据

Facebook团队不会过分担心单个系统的数据保留问题，因为他们有措施2。措施2：Hadoop DFS 在每个备份和二进制日志收集完成后，他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集，并有固定的保留时

jopen 2015-03-02 13293 0

Facebook

析的复杂度。图1 2014年10月，我和Parveen在纽约举办的 Starta+Hadoop会议上一起做了分享。做好数据分析，必先做好数据点采集的工作。对于Sponsored

jopen 2015-07-16 16088 0

大数据

7、Hadoop ——用Java编写的开源软件框架，用于分布式存储，并对非常大的数据用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop

fkol7746 2017-05-16 44594 0

分布式系统 Java Java开发 NOSQL

。他们将该实时流数据中心称为流数据平台，其出现主要是由于需要：在关系型OLTP数据库、Hadoop、Teradata、搜索系统、监控系统、OLAP数据库等若干不同的系统之间传递数据，而且这些系统处于地理上分散的环境中；

jopen 2015-03-03 19614 0

Apache Kafka

运行架构由Facebook开源，最初用于解决海量结构化的日志数据统计问题：ETL工具；构建于Hadoop的HDFS和MapReduce智商，用于管理和查询结构化/非结构化数据的数据仓库；设计目

jopen 2015-05-25 14402 0

Hive 分布式/云计算/大数据

Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算， Storm之于实时处理，就好比 Hadoop之于批处理。 Storm保证每个消息都会得到处理，而且它很快——在一个小集群中，每秒可以处

jopen 2012-11-12 22492 0

Twitter 分布式/云计算/大数据

P9

3）配置环境变量图21-8：安装Maven配置环境变量执行set命令，可以查到HADOOP_ CONF_DIR和HADOOP_HOME已经配置好。图21-9：安装Maven配置好的环境变量执行bin/mahout

css0613 2011-05-13 5186 0

分布式/云计算/大数据 Apache

P5

来，一直利用业余时间学习hadoop生态系统的相关技术，学习的方式主要是跟踪业界大神的博客以及hadoop官方的文档，自己也利用公司淘汰下来的机器搭建了一个简单的hadoop集群来测试。当学习完系统架

光荣复兴 2014-03-30 2574 0

分布式/云计算/大数据

相比较而言，Mesos更像是一个已经做好的产品，部署了可以直接用，但是对二次开发并不友好。生态优势 Yarn 诞生于Hadoop这个大数据的“始作俑者”项目，所以在大数据领域具有先天优势。底层天然就是分布式存储系统HDFS，稳定高效。

ioriren 2016-02-16 9506 0

YARN Docker

分布式消息发布订阅系统，Apache Kafka 0.9.0.1 发布资讯

Revolution R Enterprise现已命名为Microsoft R Server 资讯

开源云计算系统 Spark 经验

分布式发布订阅消息系统，Apache Kafka 0.8.2.2 发布资讯

用Spark进行大数据处理之机器学习篇经验

《中国电信eda总体规范-技术与架构分册》初稿文档

Confluent：在Kafka上飞驰的数据交换者经验

Facebook如何实现PB级别数据库自动化备份经验

日志系统之Flume采集加morphline解析经验

[Apache Kafka]Kafka简介经验

你还需要知道的9个大数据技术经验

Facebook如何实现PB级别数据库自动化备份经验

Pinot-LinkedIn如何将大数据做到实时与民主化资讯

给Java开发者的10个大数据工具和框架经验

用Apache Kafka构建流数据平台资讯

Hive运行架构及配置部署经验

Twitter 数据实时分析处理攻击 Storm 经验

构建Apache Mahout 文档

Yarn 源代码分析文档

为什么我要用Yarn来做Docker容器调度引擎经验

hadoop 电影票房预测的相关搜索

关键词

分布式消息发布订阅系统，Apache Kafka 0.9.0.1 发布 资讯

Revolution R Enterprise现已命名为Microsoft R Server 资讯

开源云计算系统 Spark 经验

分布式发布订阅消息系统，Apache Kafka 0.8.2.2 发布 资讯

用Spark进行大数据处理之机器学习篇 经验

《中国电信eda总体规范-技术与架构分册》初稿 文档

Confluent：在Kafka上飞驰的数据交换者 经验

Facebook如何实现PB级别数据库自动化备份 经验

日志系统之Flume采集加morphline解析 经验

[Apache Kafka]Kafka简介 经验

你还需要知道的9个大数据技术 经验

Facebook如何实现PB级别数据库自动化备份 经验

Pinot-LinkedIn如何将大数据做到实时与民主化 资讯

给Java开发者的10个大数据工具和框架 经验

用Apache Kafka构建流数据平台 资讯

Hive运行架构及配置部署 经验

Twitter 数据实时分析处理攻击 Storm 经验

构建Apache Mahout 文档

Yarn 源代码分析 文档

为什么我要用Yarn来做Docker容器调度引擎 经验

hadoop 电影票房预测 的相关搜索

关键词

分布式消息发布订阅系统，Apache Kafka 0.9.0.1 发布资讯

分布式发布订阅消息系统，Apache Kafka 0.8.2.2 发布资讯

用Spark进行大数据处理之机器学习篇经验

《中国电信eda总体规范-技术与架构分册》初稿文档

Confluent：在Kafka上飞驰的数据交换者经验

Facebook如何实现PB级别数据库自动化备份经验

日志系统之Flume采集加morphline解析经验

[Apache Kafka]Kafka简介经验

你还需要知道的9个大数据技术经验

Facebook如何实现PB级别数据库自动化备份经验

Pinot-LinkedIn如何将大数据做到实时与民主化资讯

给Java开发者的10个大数据工具和框架经验

用Apache Kafka构建流数据平台资讯

Hive运行架构及配置部署经验

Yarn 源代码分析文档

为什么我要用Yarn来做Docker容器调度引擎经验

hadoop 电影票房预测的相关搜索