开源项目,开源代码,开源文档,开源新闻,开源社区

MapReduce：基于YARN的并行数据处理系统；其它基于Hadoop的项目（包括Pig，Hive，Spark等）。图片来源： Icons and Stencils for Hadoop 了解基本架构之后先在本地安装一下最新版本的

JaquelineEc 2016-03-04 22471 0

Hadoop 分布式系统分布式/云计算/大数据

574246 263.574246 如果使用Spark提供的Python Shell，同样编写Pandas加载数据，时间会短25秒左右，看来Spark对Python的内存使用都有优化。数据清洗

jopen 2015-02-25 125027 0

Python Python开发

用，它们应考虑将部分功能外包到云端。如果选择一种大数据即服务解决方案，可以处理像Hadoop、Spark和Hive等这些大数据技术很耗费资源、很耗费时间的操作方面，企业就能专注于大数据的好处，少关注枯燥乏味的工作。

jopen 2016-03-09 4973 0

大数据数据仓库 Hadoop

上就有很多开源项目，你可以选择一两个著名的，阅读源码，然后尝试自己也参与进去。说几个我比较感兴趣的开源项目吧：redis，spark。专业层面你对数据挖掘很精通，你对推荐系统很熟悉。你在 NIPS，SIGIR 上发表

jopen 2015-11-19 20981 0

程序员

P11

Hive，基于Mapreduce的SQL数据访问 ü Pig，脚本式数据处理 ü Storm，流式数据处理 ü Spark/Spark Streaming，内存计算框架 ü HBase，Key-Value数据存储 ü MapReduce，离线批处理计算框架

guet_lee 2017-01-12 1929 0

分布式/云计算/大数据方案

P28

特点二大数据处理特点开放型平台BS结构，一站式建模、评估、部署基于Spark平台内存计算运算速度快特点GBPB 13. 特点三大数据处理能力特点基于Spark平台内存计算执行数据挖掘时，方法论非常重要. 因为准确的方法论能够提高作业速度

guet_lee 2017-01-12 2620 0

分布式/云计算/大数据方案 Java Python Scala

Facebook开源 Shark http://shark.cs.berkeley.edu/ Spark上的SQL执行引擎 Pig http://pig.apache.org/ 基于Hadoop MapReduce的脚本语言

dgy7 2015-05-21 56121 0

开源分布式/云计算/大数据

等基本参数；最后只搭建好了 Mesos 集群是无法方便的使用集群资源的，我们需要 Marathon、Chronos、Spark 等调度器去调度资源，才能真正使用起这套东西。显然 Mesos 的配置要比 Docker Swarm

jopen 2015-12-28 28945 0

Docker Apache Mesos

次接入多次消费。实时计算，我们经过调研之后，选择基于Storm打造这个平台。这是参考了Spark Streaming和Storm的稳定性、社区活跃度以及它们在国内应用的现状。Storm应该是最

jopen 2015-12-18 33498 0

架构

doop/Hive。在2013年建立主要的大数据架构后，大众点评上线了HBase应用，并引入Spark/Shark以提高Ad Hoc Query执行时间。整个大数据架构采用开源+自研的形式。美团：

jopen 2015-10-14 38763 0

大众

接口（pydoop，hadoopy 等等）。 Hadoop MapReduce 的替代者，是号称快上 100 倍的 Spark ，其开发语言是 Scala，但是提供了 Scala，Java，Python 的开发接口，想要讨好那么多用

pm45e 2015-08-03 38813 1

Python

P25

资源利用率低多计算框架各自为战，数据共享困难 MR：离线计算框架 Storm：实时计算框架 Spark：内存计算框架 7. Hadoop2.0 新特性: YARN-架构及组件ResourceManager

pnx8 2014-08-17 3282 0

Hadoop 分布式/云计算/大数据方案 Apache Java

Hadoop(VectorH)5.0，这是该公司现已与Apache Spark集成起来的SQL-in-Hadoop数据库的新版本。与Spark集成起来后，就可以获取来自不同数据源、采用不同格式的数据，让

axcu9192 2016-07-05 27761 0

Hadoop 大数据分布式/云计算/大数据

Zeppelin提供了Kylin Interpreter，”，韩卿补充说，“并且，Kylin是Hadoop，Spark，Kafka，HBase和Zookeeper的大规模使用者，与这些大数据家庭的关键成员一起，Ap

jopen 2015-12-08 23929 0

Apache Kylin

o）。 Presto开源架构 Altiscale专为运行hadoop任务定制（或者Spark、或者能在YARN上运行的大多数任务），能够根据数据分析任务需要自动调整资源分配和管理。能够提高大数据分析的效率和可靠性。

jopen 2014-01-28 11222 0

Hadoop

值得关注的有：改进使用 Kafka 消息总线的性能和 offset 管理支持 Spark Streaming 的可靠接收器 Kryo 序列化的提升删除流时提供清理 Rabbit

dy223 2015-03-26 7175 0

Spring XD

Mesos是一个集群管理器提供了高效的资源隔离和共享在分布式应用程序和框架中。它可以运行Hadoop、 MPI、Hypertable、Spark（一个新框架用于低延迟交互和工作迭代）等。Mesos是Apache孵化器中的一个开源项目。它使用

码头工人 2019-01-17 530 0

其它开源项目

是一个集群管理器提供了高效的资源隔离和共享在分布式应用程序和框架中。它可以运行Hadoop、 MPI、Hypertable、Spark（一个新框架用于低延迟交互和工作迭代）等。Mesos是Apache孵化器中的一个开源项目。它使用

open23e 2012-01-08 41139 0

集群集群/负载均衡

DPark 是 Spark 的 Python 克隆，是一个Python实现的分布式计算框架，可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现，目前豆瓣内部的绝大多数数据分析都使用DPark

jopen 2013-06-06 47199 0

DPark 分布式/云计算/大数据

Glow 是使用 Go 编写的易用分布式计算系统，是 Hadoop Map Reduce，Spark，Flint，Samza 等等的替代品。 Glow 的目标是提供一个库，可以在并行线程或者分布式集群机器中进行更简单计算。

jopen 2015-10-30 12689 0

Go Glow 分布式/云计算/大数据

Hadoop 入门实践经验

使用Python Pandas处理亿级数据经验

指点迷津的现代数据数据架构之道资讯

程序员读研如何提高技术之我见资讯

大数据方案介绍文档

大数据分析技术架构解决方案文档

开源大数据利器汇总经验

Docker Swarm与Apache Mesos的区别经验

彦伟：京东实时数据平台架构设计与实现思路资讯

美团大众点评合并：背后技术力量的对比回顾资讯

大数据全栈式开发语言 – Python 资讯

Apache Hadoop2.0 下一代数据处理框架介绍文档

你应该知道的大数据领域12大动向经验

Apache 基金会宣布 Apache Kylin 成为顶级项目资讯

前雅虎 CTO 打造 Hadoop 大数据云计算平台资讯

Spring XD 1.1.1 发布，提升 Kafka 总线性能资讯

集群管理器Mesos 开源项目

集群管理器 Apache Mesos 经验

Python实现的分布式计算框架：DPark 经验

分布式计算系统：Go Glow 经验

Spark MLLib 的相关搜索

关键词

Hadoop 入门实践 经验

使用Python Pandas处理亿级数据 经验

指点迷津的现代数据数据架构之道 资讯

程序员读研如何提高技术之我见 资讯

大数据方案介绍 文档

大数据分析技术架构解决方案 文档

开源大数据利器汇总 经验

Docker Swarm与Apache Mesos的区别 经验

彦伟：京东实时数据平台架构设计与实现思路 资讯

美团大众点评合并：背后技术力量的对比回顾 资讯