开源项目,开源代码,开源文档,开源新闻,开源社区

P9

3）配置环境变量图21-8：安装Maven配置环境变量执行set命令，可以查到HADOOP_ CONF_DIR和HADOOP_HOME已经配置好。图21-9：安装Maven配置好的环境变量执行bin/mahout

css0613 2011-05-13 5186 0

分布式/云计算/大数据 Apache

P5

来，一直利用业余时间学习hadoop生态系统的相关技术，学习的方式主要是跟踪业界大神的博客以及hadoop官方的文档，自己也利用公司淘汰下来的机器搭建了一个简单的hadoop集群来测试。当学习完系统架

光荣复兴 2014-03-30 2574 0

分布式/云计算/大数据

相比较而言，Mesos更像是一个已经做好的产品，部署了可以直接用，但是对二次开发并不友好。生态优势 Yarn 诞生于Hadoop这个大数据的“始作俑者”项目，所以在大数据领域具有先天优势。底层天然就是分布式存储系统HDFS，稳定高效。

ioriren 2016-02-16 9506 0

YARN Docker

ix不仅使用 Hadoop、Hive、Pig、Parquet、Presto以及Spark等被广泛采用的开源技术，同时还开发并贡献了一些其他的工具和服务。 Genie ：专为Hadoop生态系统定制的一

jopen 2015-11-24 31689 0

Netflix

三、问题集锦 1.MongoDB在百度的使用场景及规模? 2.假设现在让你完全主导一个类似Hadoop的项目，你会选择哪种语言? 3.分享你在百度各种大数据项目中踩过的坑? 4.你所在团队在自研和使用开源方案的主要考虑因素

bwnx 2015-12-14 10649 0

百度

net/2015/07/26/impala-introduction/ Impala是hadoop上交互式MPP SQL引擎，也是目前性能最好的开源SQL-on-hadoop方案。如下图所示， impala性能超过SparkSQL、

er74 2015-07-26 61584 0

分布式/云计算/大数据 Impala

HBase是一款开源的非关系数据库，主要基于Google BigTable分布式数据库并使用Java语言编写，并运行在HDFS(Hadoop Distributed Filesystem)之上。HBase作为Apache软件基金会的一部分得到了众多开发者的支持。

jopen 2012-01-28 34341 1

开源

P15

1. Hive 2. hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点

vito2 2013-11-07 539 0

数据挖掘 SQL

meNode负载过高的应用，会影响到整个集群的服务能力； HDFS Federation是Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS

juce7588 2017-04-11 36681 0

HDFS 集群/负载均衡

些进展，了解下数据科学家这个职业的火热。在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点，分别请了四位专家：Hulu的董西成、明略数据的梁堰波、

jopen 2016-01-08 53926 0

大数据数据挖掘分布式系统

P9

2/MainStage/GregBattas_Hadoop_Relational_Database.pdf) 简单来说，这种处理方式基本就是把Hadoop和其它各类NewSQL，NoSQL方案以ETL

songyl525 2013-12-11 1649 0

P25

MapReduce 由Google提出的一种编程模式，用于大规模数据的并行运算。 l HDFS hadoop的分布式文件系统，源自Google的Google File System。 l Column Family/CF（列族、列簇）

xfei365 2014-01-03 623 0

NoSQL数据库报告 SQL

P2

的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是Tas

hadooper 2013-05-30 1983 0

分布式/云计算/大数据

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-02-04 12531 0

Apache Kafka

高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。支持通过kafka服务器和消费机集群来分区消息。支持Hadoop并行数据加载。卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-10-28 12625 0

Apache Kafka

。Mahout 包含许多实现，包括集群、分类、CP 和进化程序。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。 Mahout 项目是由 Apache Luce

xg48 2015-04-10 7214 0

Mahout

data sources 更多内容请看发行说明。 Apache Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在

jopen 2015-07-18 20371 0

Apache Spark

P15

HBase Features(Cont.)和Hadoop无缝集成 Hadoop分析后的结果可直接写入HBase；存放在HBase的数据可直接通过Hadoop来进行分析。 11. HBase能用于Online场景吗？Why

zhpboy 2013-10-12 2979 0

NoSQL数据库 SQL Basic

rded-proto" /> 四：配置Nginx 在http里面加入

jopen 2015-07-08 26349 0

Nginx Web服务器

MapReduce for C（MR4C）开源，此举可给Hadoop社区带来福音，因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了。 Hadoop是许多大数据应用的基础，它是由Apache

jopen 2015-02-24 25467 0

MapReduce

构建Apache Mahout 文档

Yarn 源代码分析文档

为什么我要用Yarn来做Docker容器调度引擎经验

Netflix的开源文化与技术资讯

百度运维专家：我在大数据项目中踩过的那些坑资讯

impala笔记经验

2011年最具影响力的16个开源项目资讯

Hive 文档文档

HDFS Federation在美团点评的应用与改进经验

解读2015之大数据篇：大数据的黄金时代资讯

大数据之惑文档

NoSQL 研究及选型报告文档

MapReduce 编程模型文档

分布式发布订阅消息系统，Apache Kafka 0.8.2.0 发布资讯

Apache Kafka 0.8.2-beta 发布资讯

机器学习库，Mahout 0.10.0 发布资讯

Apache Spark 1.4.1 发布，开源集群计算系统资讯

HBase 简介与实践分享文档

Nginx + Tomcat + Openssl 配置https的web服务经验

Google开源C/C++版MapReduce框架资讯

K-means Hadoop 的相关搜索

关键词

构建Apache Mahout 文档

Yarn 源代码分析 文档

为什么我要用Yarn来做Docker容器调度引擎 经验

Netflix的开源文化与技术 资讯

百度运维专家：我在大数据项目中踩过的那些坑 资讯

impala笔记 经验

2011年最具影响力的16个开源项目 资讯

Hive 文档 文档

HDFS Federation在美团点评的应用与改进 经验

解读2015之大数据篇：大数据的黄金时代 资讯

大数据之惑 文档

NoSQL 研究及选型报告 文档

MapReduce 编程模型 文档

分布式发布订阅消息系统，Apache Kafka 0.8.2.0 发布 资讯

Apache Kafka 0.8.2-beta 发布 资讯

机器学习库，Mahout 0.10.0 发布 资讯

Apache Spark 1.4.1 发布，开源集群计算系统 资讯

HBase 简介与实践分享 文档

Nginx + Tomcat + Openssl 配置https的web服务 经验

Google开源C/C++版MapReduce框架 资讯