开源项目,开源代码,开源文档,开源新闻,开源社区

本文主要帮助初学者快速了解Spark，不会面面俱到，但核心一定点到。详细内容可参考Spark入门教程-1 Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学伯克利分校AMPLab实验室，现在主

jiushi506 2017-03-07 18089 0

Spark 分布式计算分布式/云计算/大数据

2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数 b)

qq3466460 2016-02-18 5840 0

分布式/云计算/大数据

Programming Environment Data Management and Visualization Hadoop Platform and Application Framework Global Warming

hd_open 2017-03-08 12697 0

软件开发

6》一书。 Hadoop: 《照亮Hadoop 征程》这部以Hadoop为核心内容的论著并不仅仅针对技术读者，同时也适用于其它缺乏技术知识储备但对大数据颇为关注的群体。《照亮Hadoop征程》

jopen 2015-03-12 26664 0

编程

faster than Hadoop for iterative algorithms (memory caching) and up to 10x faster than Hadoop for single-pass

jopen 2014-10-11 83020 0

Scala开发 Awesome Scala

上不断变化的需求。特别是，当前可用的解决方案不是只支持一个特定类型的工作（例如 Apache Oozie 来优化Hadoop计算）或太过抽象难以扩展（例如单一的 Azkaban ）。考虑到上述的情况，我们开始构建一个高

g4mm 2015-04-24 39953 0

Pinball 工作流引擎

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

jopen 2016-05-26 26899 0

分布式分析 Apache Kylin

明确语义：模式中每个字段的doc属性明确定义了字段的语义。兼容性：模式处理数据格式变化，使像Hadoop或Cassandra这样的系统可以跟踪上游数据变化，只将有变化的数据传给它们自己的存储，而不必进行重新处理。

yne7 2015-03-30 20451 0

Kafka 消息系统

了知道简单的统计外，根本不了解大数据是什么。甚至连Hadoop都不知为何物，更别谈机器学习了。大数据是一个概念也是一门技术，是在以Hadoop为代表的大数据平台框架上进行的各种数据分析技术。包括

gptqw89y 2016-01-29 16057 0

分布式/云计算/大数据

使用Flume将数据收集到HDFS，然后进行清洗和分析。后来，根据业务需要，我们有了两个Hadoop集群，并且部署在不同的地方（北京和西安），而所有的日志收集服务器在北京，因此需要将日志数据通过外网传输到西安，于是有了这样的部署：

jopen 2015-11-30 50542 0

日志日志处理

在写这个框架之前，我对分布式计算进行了长时间的思考，也看了老外写的其他开源框架,当我们把复杂的hadoop当作一门学科学习时，似乎忘记了我们想解决问题的初衷：我们仅仅是想写个程序把几台甚至更多的机器一

fmms 2011-12-06 35341 0

分布式分布式/云计算/大数据

P31

processing 5. 背景：多种数据处理技术的出现过去的十年是数据处理变革的十年， MapReduce、 Hadoop以及一些相关的技术使得我们能处理的数据量比以前要大得多得多。但是这些数据处理技术都不是实时的系统

nd7b 2015-12-09 6303 0

分布式/云计算/大数据报告 Apache Go

Oozie是Yahoo针对 Apache Hadoop 开发的一个开源工作流引擎。用于管理和协调运行在Hadoop平台上（包括：HDFS、Pig和MapReduce）的Jobs。Oozie是专为雅虎的

码头工人 2019-01-17 1380 0

工作流引擎

P51

URL; import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import org.apache.hadoop.io.IOUtils; public class

Wyh_D_Void 2011-05-23 890 0

爬虫网络爬虫

一、背景在Hadoop集群整个生命周期里，由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启，不论采用何种架构，重启期间集群整体存在可用性和可靠性的风险，所以优化NameNode重启非常关键。

ReinaldoBoe 2017-03-06 8589 0

HDFS 软件架构

和资金去储存和挖掘大量数据，并对其挖掘从而获得洞见。然而，被雅虎2009年开源的Apache Hadoop对这一状况产生了颠覆性的冲击——通过使用商用服务器组成的集群大幅度地降低了海量数据处理的门槛。因此，许多行业（比如Health

cebp 2015-07-12 61974 0

分布式/云计算/大数据 Apache Spark

Conjecture 是 Esty 开发的构建机器学习模型框架，在 Hadoop 中使用 Scalding DSL 构建。Conjecture 的目的是允许静态统计模型在广泛的产品设置中作为可变组件。

jopen 2015-08-09 10770 0

机器学习 Conjecture

Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架， Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但

jopen 2014-05-27 14535 0

Spark 分布式/云计算/大数据

P16

是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive

xsh1019 2013-01-05 692 0

分布式/云计算/大数据

P21

些实现的代码和示例，色彩有些斑驳，缺少了点感性。幸好我们还有OpenSource，还有Hadoop。Hadoop是一个基于Java实现的，开源的，分布式存储和计算的项目。作为这个领域最富盛名的开源项目

hadoopfans 2010-11-20 5861 0

分布式/云计算/大数据

30分钟概览Spark分布式计算引擎经验

Hive任务优化经验

我们总结了370个免费学习编程的国外大学公开课经验

技术人必读:19本免费指南性编程书籍资讯

Scala开发资源集合：Awesome Scala 经验

Pinterest 开源工作流管理 —— Pinball 经验

分布式分析引擎 Apache Kylin v1.5.2 发布资讯

用Apache Kafka构建流数据平台的建议经验

0x0E 大数据职位，数据场技能(上) 经验

记录一下互联网日志实时收集和实时计算的简单方案经验

分布式计算框架 Fourinone 经验

Storm对于交通数据的处理文档

Oozie 开源项目

自己动手写网络爬虫（二）文档

HDFS NameNode重启优化经验

Apache Spark入门攻略经验

Scala 机器学习框架：Conjecture 经验

Spark：一个高效的分布式计算系统经验

Hive 学习文档

分布式基础学习文档

K-means Hadoop 的相关搜索

关键词

30分钟概览Spark分布式计算引擎 经验

Hive任务优化 经验

我们总结了370个免费学习编程的国外大学公开课 经验

技术人必读:19本免费指南性编程书籍 资讯

Scala开发资源集合：Awesome Scala 经验

Pinterest 开源工作流管理 —— Pinball 经验

分布式分析引擎 Apache Kylin v1.5.2 发布 资讯

用Apache Kafka构建流数据平台的建议 经验

0x0E 大数据职位，数据场技能(上) 经验

记录一下互联网日志实时收集和实时计算的简单方案 经验

分布式计算框架 Fourinone 经验

Storm对于交通数据的处理 文档

Oozie 开源项目

自己动手写网络爬虫（二） 文档

HDFS NameNode重启优化 经验

Apache Spark入门攻略 经验

Scala 机器学习框架：Conjecture 经验

Spark：一个高效的分布式计算系统 经验

Hive 学习 文档

分布式基础学习 文档

K-means Hadoop 的相关搜索

关键词

30分钟概览Spark分布式计算引擎经验

Hive任务优化经验

我们总结了370个免费学习编程的国外大学公开课经验

技术人必读:19本免费指南性编程书籍资讯

分布式分析引擎 Apache Kylin v1.5.2 发布资讯

用Apache Kafka构建流数据平台的建议经验

记录一下互联网日志实时收集和实时计算的简单方案经验

Storm对于交通数据的处理文档

自己动手写网络爬虫（二）文档

HDFS NameNode重启优化经验

Apache Spark入门攻略经验

Spark：一个高效的分布式计算系统经验

Hive 学习文档

分布式基础学习文档