30分钟概览Spark分布式计算引擎 经验

本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。 详细内容可参考Spark入门教程-1 Spark是继Hadoop之后的下一代分布式内存计算引擎,于2009年诞生于加州大学伯克利分校AMPLab实验室,现在主

Hive任务优化 经验

2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b) 

qq3466460 2016-02-18   5840   0

我们总结了370个免费学习编程的国外大学公开课 经验

Programming Environment Data Management and Visualization Hadoop Platform and Application Framework Global Warming

hd_open 2017-03-08   12697   0

技术人必读:19本免费指南性编程书籍 资讯

6》一书。 Hadoop: 《 照亮Hadoop 征程 》 这部以Hadoop为核心内容的论著并不仅仅针对技术读者,同时也适用于其它缺乏技术知识储备但对大数据颇为关注的群体。《照亮Hadoop征 程》

jopen 2015-03-12   26664   0
编程  

Scala开发资源集合:Awesome Scala 经验

faster than Hadoop for iterative algorithms (memory caching) and up to 10x faster than Hadoop for single-pass

jopen 2014-10-11   83020   0

Pinterest 开源工作流管理 —— Pinball 经验

上不断变化的需求。特别是,当前可用的解决方案不是只支持一个特定类型的工作(例如 Apache Oozie 来优化Hadoop计算)或太过抽象难以扩展(例如单一的 Azkaban )。考虑到上述的情况,我们开始构建一个高

g4mm 2015-04-24   39953   0

分布式分析引擎 Apache Kylin v1.5.2 发布 资讯

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

jopen 2016-05-26   26899   0

用Apache Kafka构建流数据平台的建议 经验

明确语义:模式中每个字段的doc属性明确定义了字段的语义。 兼容性:模式处理数据格式变化,使像Hadoop或Cassandra这样的系统可以跟踪上游数据变化,只将有变化的数据传给它们自己的存储,而不必进行重新处理。

yne7 2015-03-30   20451   0

0x0E 大数据职位,数据场技能(上) 经验

了知道简单的统计外,根本不了解大数据是什么。甚至连Hadoop都不知为何物,更别谈机器学习了。 大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行的各种数据分析技术。包括

gptqw89y 2016-01-29   16057   0

记录一下互联网日志实时收集和实时计算的简单方案 经验

使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我们有了两个Hadoop集群,并且部署在不同的地方(北京和西安),而所有的日志收集服务器在北京,因此需要将日志数据通过外网传输到西安,于是有了这样的部署:

jopen 2015-11-30   50542   0

分布式计算框架 Fourinone 经验

在写这个框架之前,我对分布式计算进行了长时间的思考,也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时,似乎忘记了我们想解决问题的初衷:我们仅仅是想写个程序把几台甚至更多的机器一

fmms 2011-12-06   35341   0
P31

  Storm对于交通数据的处理 文档

processing 5. 背景:多种数据处理技术的出现过去的十年是数据处理变革的十年, MapReduce、 Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统

nd7b 2015-12-09   6303   0

Oozie 开源项目

Oozie是Yahoo针对 Apache Hadoop 开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上(包括:HDFS、Pig和MapReduce)的Jobs。Oozie是专为雅虎的

码头工人 2019-01-17   1380   0
P51

  自己动手写网络爬虫(二) 文档

URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class

Wyh_D_Void 2011-05-23   890   0

HDFS NameNode重启优化 经验

一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNode重启非常关键。

ReinaldoBoe 2017-03-06   8589   0

Apache Spark入门攻略 经验

和资金去储存和挖掘大量数据,并对其挖掘从而获得洞见。然而,被雅虎2009年开源的Apache Hadoop对这一状况产生了颠覆性的冲击——通过使用商用服务器组成的集群大幅度地降低了海量数据处理的门槛。因此,许多行业(比如Health

cebp 2015-07-12   61974   0

Scala 机器学习框架:Conjecture 经验

Conjecture 是 Esty 开发的构建机器学习模型框架,在 Hadoop 中使用 Scalding DSL 构建。Conjecture 的目的是允许静态统计模型在广泛的产品设置中作为可变组件。

jopen 2015-08-09   10770   0

Spark:一个高效的分布式计算系统 经验

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架, Spark基于map reduce算法实现的分布式计算 ,拥有Hadoop MapReduce所具有的优点;但

jopen 2014-05-27   14535   0
P16

  Hive 学习 文档

是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive

xsh1019 2013-01-05   692   0
P21

  分布式基础学习 文档

些实现的代码和示例,色彩有些斑驳,缺少了点感性。幸好我们还有OpenSource,还有HadoopHadoop是一个基于Java实现的,开源的,分布式存储和计算的项目。作为这个领域最富盛名的开源项目

hadoopfans 2010-11-20   5861   0
1 2 3 4 5 6 7 8 9 10