Oracle的NoSQL Database 经验

Appliance的其中一个组件,Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。 Oracle NoSQL

openkk 2011-12-01   86810   0

分布式发布订阅消息系统 Kafka 经验

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

fmms 2012-05-12   32054   0

Apache Spark 的R语言前端:SparkR 经验

Spark是一个开源的集群计算系统,用于快速数据分析,包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某

jopen 2014-01-21   54232   0

分布式消息系统,Apache Kafka 0.8.2.1 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 Apache Kafka 0.8.2.1 发布,该版本修复了 4 个关键 bug:

jopen 2015-03-11   12804   0

分布式发布订阅消息系统,Apache Kafka 0.7.0-incubating 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

openkk 2012-01-04   11935   0

分布式消息发布订阅系统,Apache Kafka 0.9.0.1 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2016-02-19   11214   0

Revolution R Enterprise现已命名为Microsoft R Server 资讯

Server。除了Windows之外,Microsoft R Server还能够运行在Linux(SUSE/Red Hat)、Hadoop(仅限Red Hat)和Teradata DB环境中。 与开源版本的R相比,Revolution

jopen 2016-02-21   13719   0

开源云计算系统 Spark 经验

Spark是一个开源的集群计算系统,用于快速数据分析,包括快速运行和快速写操作。Spark 是一种与 Hadoop 相似的开源云计算系统,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某

fmms 2012-01-05   104657   0

分布式发布订阅消息系统,Apache Kafka 0.8.2.2 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-10-04   10585   0

Confluent:在Kafka上飞驰的数据交换者 经验

Rao即将在 QCon北京2018 分享Apache Kafka的前世今生和未来的相关话题。 在整个Hadoop的生态圈里,Kafka是一款非常特殊的软件。它由LinkedIn于2011年开源,并在2012

CUDIon 2018-01-16   18016   0

Facebook如何实现PB级别数据库自动化备份 经验

数据保留问题,因为他们有措施2。 措施2:Hadoop DFS 在每个备份和二进制日志收集完成后,他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集,并有固

jopen 2013-03-03   11382   0
备份  

日志系统之Flume采集加morphline解析 经验

morphline是由flume的母公司cloudera开源的一个ETL框架。它用于构建、改变基于Hadoop进行 ETL(extract、transfer、load)的流式处理程序。(值得一提的是flu

jopen 2015-11-21   30106   0

[Apache Kafka]Kafka简介 经验

Kafka提供了实时发布订阅的解决方案,克服了实时数据消费和比实时数据更大数量级的数据量增长的问题。Kafka也支持Hadoop系统中的并行数据加载。下图展示了一种典型的使用Kafka消息系统的大数据聚合分析的场景。

jopen 2015-12-31   22385   0

你还需要知道的9个大数据技术 经验

Hadoop是大数据领域最流行的技术,但并非唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。 1.Apache Flink 2

Facebook如何实现PB级别数据库自动化备份 经验

Facebook团队不会过分担心单个系统的数据保留问题,因为他们有措施2。 措施2:Hadoop DFS 在每个备份和二进制日志收集完成后,他们会马上将其复制到他们的大型定制化Hadoop集群中。这些集群是非常稳定的复制数据集,并有固定的保留时

jopen 2015-03-02   13293   0

Pinot-LinkedIn如何将大数据做到实时与民主化 资讯

析的复杂 度。 图1 2014年10月,我和Parveen在纽约举办的 Starta+Hadoop会议 上一起做了分享 。 做好数据分析,必先做好数据点采集的工作。对于Sponsored

jopen 2015-07-16   16088   0

给Java开发者的10个大数据工具和框架 经验

7、Hadoop ——用Java编写的开源软件框架,用于分布式存储,并对非常大的数据用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop

fkol7746 2017-05-16   44594   0

用Apache Kafka构建流数据平台 资讯

。 他们将该实时流数据中心称为流数据平台,其出现主要是由于需要: 在关系型OLTP数据库、Hadoop、Teradata、搜索系统、监控系统、OLAP数据库等若干不同的系统之间传递数据,而且这些系统处于地理上分散的环境中;

jopen 2015-03-03   19614   0

Hive运行架构及配置部署 经验

运行架构 由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具; 构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库; 设计目

jopen 2015-05-25   14402   0

Twitter 数据实时分析处理攻击 Storm 经验

Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算, Storm之于实时处理,就好比 Hadoop之于批处理 。 Storm保证每个消息都会得到处理 ,而且它很快——在一个小集群中,每秒可以处

jopen 2012-11-12   22492   0
1 2 3 4 5 6 7 8 9 10