P9

  构建Apache Mahout 文档

3)配置环境变量 图21-8:安装Maven配置环境变量 执行set命令,可以查到HADOOP_ CONF_DIR和HADOOP_HOME已经配置好。 图21-9:安装Maven配置好的环境变量 执行bin/mahout

css0613 2011-05-13   5186   0
P5

  Yarn 源代码分析 文档

来,一直利用业余时间学习hadoop生态系统的相关技术,学习的方式主要是跟踪业界大神的博客以及hadoop官方的文档,自己也利用公司淘汰下来的机器搭建了一个简单的hadoop集群来测试。当学习完系统架

光荣复兴 2014-03-30   2574   0

为什么我要用Yarn来做Docker容器调度引擎 经验

相比较而言,Mesos更像是一个已经做好的产品,部署了可以直接用,但是对二次开发并不友好。 生态优势 Yarn 诞生于Hadoop这个大数据的“始作俑者”项目,所以在大数据领域具有先天优势。 底层天然就是分布式存储系统HDFS,稳定高效。

ioriren 2016-02-16   9506   0
YARN   Docker  

Netflix的开源文化与技术 资讯

ix不仅使用 Hadoop、Hive、Pig、Parquet、Presto以及Spark等被广泛采用的开源技术,同时还开发并贡献了一些其他的工具和服务。 Genie :专为Hadoop生态系统定制的一

jopen 2015-11-24   31689   0
Netflix  

百度运维专家:我在大数据项目中踩过的那些坑 资讯

三、问题集锦 1.MongoDB在百度的使用场景及规模? 2.假设现在让你完全主导一个类似Hadoop的项目,你会选择哪种语言? 3.分享你在百度各种大数据项目中踩过的坑? 4.你所在团队在自研和使用开源方案的主要考虑因素

bwnx 2015-12-14   10649   0
百度  

impala笔记 经验

net/2015/07/26/impala-introduction/ Impala是hadoop上交互式MPP SQL引擎, 也是目前性能最好的开源SQL-on-hadoop方案。 如下图所示, impala性能超过SparkSQL、

er74 2015-07-26   61584   0

2011年最具影响力的16个开源项目 资讯

HBase是一款开源的非关系数据库,主要基于Google BigTable分布式数据库并使用Java语言编写,并运行在HDFS(Hadoop Distributed Filesystem)之上。HBase作为Apache软件基金会的一部分得到了众多开发者的支持。

jopen 2012-01-28   34341   1
开源  
P15

  Hive 文档 文档

1. Hive 2. hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点

vito2 2013-11-07   539   0

HDFS Federation在美团点评的应用与改进 经验

meNode负载过高的应用,会影响到整个集群的服务能力; HDFS Federation是Hadoop-0.23.0中为解决HDFS单点故障而提出的namenode水平扩展方案。该方案允许HDFS

juce7588 2017-04-11   36681   0

解读2015之大数据篇:大数据的黄金时代 资讯

些进展,了解下数据科学家这个职业的火热。 在关键技术进展部分我们在大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数据的梁堰波、

jopen 2016-01-08   53926   0
P9

  大数据之惑 文档

2/MainStage/GregBattas_Hadoop_Relational_Database.pdf) 简单来说,这种处理方式基本就是把Hadoop和其它各类NewSQL,NoSQL方案以ETL

songyl525 2013-12-11   1649   0
P25

  NoSQL 研究及选型报告 文档

MapReduce 由Google提出的一种编程模式,用于大规模数据的并行运算。 l HDFS hadoop的分布式文件系统,源自Google的Google File System。 l Column Family/CF(列族、列簇)

xfei365 2014-01-03   623   0
P2

  MapReduce 编程模型 文档

的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是Tas

hadooper 2013-05-30   1983   0

分布式发布订阅消息系统,Apache Kafka 0.8.2.0 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2015-02-04   12531   0

Apache Kafka 0.8.2-beta 发布 资讯

高吞吐量:即使是非常普通的硬件kafka也可以支持每秒数十万的消息。 支持通过kafka服务器和消费机集群来分区消息。 支持Hadoop并行数据加载。 卡夫卡的目的是提供一个发布订阅解决方案,它可以处理消费者规模的网站中的所有动作流数据。

jopen 2014-10-28   12625   0

机器学习库,Mahout 0.10.0 发布 资讯

。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。 Mahout 项目是由 Apache Luce

xg48 2015-04-10   7214   0
Mahout  

Apache Spark 1.4.1 发布,开源集群计算系统 资讯

data sources 更多内容请看 发行说明 。 Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在

jopen 2015-07-18   20371   0
P15

  HBase 简介与实践分享 文档

HBase Features(Cont.)和Hadoop无缝集成 Hadoop分析后的结果可直接写入HBase; 存放在HBase的数据可直接通过Hadoop来进行分析。 11. HBase能用于Online场景吗?Why

zhpboy 2013-10-12   2979   0

Nginx + Tomcat + Openssl 配置https的web服务 经验

rded-proto" /> 四:配置Nginx 在http里面加入

jopen 2015-07-08   26349   0

Google开源C/C++版MapReduce框架 资讯

MapReduce for C(MR4C) 开源,此举可给Hadoop社区带来福音,因为这样用户就可以在自己的Hadoop环境中运行原生的C及C++代码了。 Hadoop是许多大数据应用的基础,它是由Apache

jopen 2015-02-24   25467   0
1 2 3 4 5 6 7 8 9 10