Spark Streaming使用Kafka保证数据零丢失 经验

通过上面描述,WAL有两个缺点: 降低了receivers的性能,因为数据还要存储到HDFS等分布式文件系统 对于一些resources,可能存在重复的数据,比如Kafka,在Kafka中存在一份数据,在Spark

jopen 2016-01-16   8823   0

Spark Streaming使用Kafka保证数据零丢失 经验

通过上面描述,WAL有两个缺点: 降低了receivers的性能,因为数据还要存储到HDFS等分布式文件系统 对于一些resources,可能存在重复的数据,比如Kafka,在Kafka中存在一份数据,在Spark

什么是Docker? 经验

的依赖包到一个标准化单元中用于软件开发。 Docker容器将一块应用打包到一个完成的文件系统中,在该文件系统中包含了该应用要运行的所有要求:代码,运行时,系统工具,系统库 - 任何你安装在服务器上

icm 2016-04-21   10154   0
Docker  
P43

  Hbase教案 文档

scalable, big data store. Apache Hbase 是hadoop数据库,一个分布式的,可扩展的大数据存储。 Use Apache HBase™ when you need random

hz.love 2017-08-03   866   0

大数据常见术语表 资讯

这类数据也被称为元数据(meta data),是描述数据的数据 云计算(Cloud computing) – 构建在网络上的分布式计算系统,数据是存储于机房外的(即云端) 聚类分析(Clustering analysis) –

jopen 2015-02-22   47724   0
P21

  MapReduce: simplified Data Processing on Large Clusters [翻译版---大规模集群上的简化数据处理] 文档

处理程序失效以及把控必要的系统内部交互。这个框架的优势在于使得程序员无需任何并行与分布式系统的经验就可以容易的掌控大型分布式系统的资源。  我们的MapReduce的实现是运行在商用机器的大规模集群之上,

76974930 2014-07-14   541   0

大数据工具比较:R语言和Spark谁更胜一筹? 资讯

[译[译者注 :RDD , Resilient Distributed Datasets , 弹性分布式数据集 ] 支持的基本框架和运算。然后也要弄明白Spark中不同的机器学习程序,并且在上面进行编程

jopen 2015-12-06   87108   0
R语言  

推荐引擎mahout安装与配置 经验

clusters-6 clusters-7 clusters-8 clusters-9 data 四、单节点向全分布式转换 Mahout没有Hadoop那么繁琐与复杂,只要你在一台单机上配好环境之后,当你将这个系

mx3y 2015-06-30   14524   0

Hadoop家族学习路线图 经验

Apache Hadoop : 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive : 是基于H

jopen 2013-11-10   199151   0

Hadoop生态系统学习路线 经验

Apache Hadoop : 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 Apache Hive : 是基于H

jopen 2014-10-29   43441   0
P65

  大型网站建设架构设计与实践-探讨 文档

缓存、本地数据缓存/数据库缓存减少对网站的访问减少对Web应用服务器的请求减少对数据库的查询减少文件系统I/O操作网站架构及其技术演进 19. ■[Step2.1]技术点—客户端(浏览器)缓存技术点说

cndkei 2016-02-08   665   0
P20

  Google MapReduce中文版 文档

集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。   我们的MapReduce实现运行在规模可以灵活调整的由普

wujianhai 2011-11-26   5219   0
Go  
P20

  Google MapReduce中文版 文档

集群中计算机之间必要的通信。采用MapReduce架构可以使那些没有并行计算和分布式处理系统开发经验的程序员有效利用分布式系统的丰富资源。   我们的MapReduce实现运行在规模可以灵活调整的由普

suncf1985 2014-05-08   305   0
P13

  云计算及其关键技术报告 文档

服务与相应的应用,当前云计算的关键技术以及云计算带来的影响。 关键词:云计算,Saas,GFS,分布式计算 目 录 1 绪论 1 2 云计算 2 2.1 云计算定义 2 2.2 云计算的特点 2 2.3

UCASIOT 2012-11-28   494   0

我在mesos上运行docker的经验 资讯

MapReduce 作业。我同时使用运行于 mesos 之上的 Kafka 和 Storm,与 MapR 文件系统一起使用,或跟当前环境协同使用。 MapR 提供了极大的帮助当其运行 mesos 之上 Docker

jopen 2015-07-07   7919   0
Mesos  

Apache Spark 1.6.1 发布,集群计算环境 资讯

可以像操作本地集合对象一样轻松地操作分布式数据集。 尽 管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos

jopen 2016-03-11   27731   0

优秀PHP程序员应具备的5大能力 问答

置并加以调试,分析数据库运行状态。 (4)精通:简单地说具备以上所有能力的同时,有多年高负载分布式环境下的优化管理经验。 据观察以及交往经验,70%的PHPer处在了解阶段,25%处于熟悉阶段

jopen 2015-01-08   11189   2
PHP   数据库   ci   缓存   C/C++  
P12

  Spark 核心技术剖析 文档

Lustre Page 4RDD Resilient Distributed Dataset 弹性分布式数据集 5. Spark RDD Page 5 6. How Spark Work Page 6 7

xcn4 2014-11-29   472   0

CouchDB地理位置索引插件 GeoCouch 资讯

项目,提供与MapReduce档案系统类似的功能。 Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。

fmms 2011-10-18   9327   0
CouchDB  

Git 简介 经验

宕机一小时,那么在这一小时内,谁都无法提交更新,也就无法协同工作。 三、分布式版本控制系统 分布式版本控制系统( Distributed Version Control System,简称DVCS

jopen 2012-02-04   31892   0
1 2 3 4 5 6 7 8 9 10