开源项目,开源代码,开源文档,开源新闻,开源社区

n公司，用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序，提供友好的Web用户界面来维护和跟踪用户的工作流程。 YARN 是一种新的Hadoop资源管理器，它是一个通

jopen 2017-04-06 46308 0

分布式系统 Hadoop 开源

【编者的话】随着Hadoop 成为大数据的事实标准，Hadoop的生态环境也在不断膨胀，环境搭建的复杂性，给开发和测试带来了不便。如何用Docker来降低Hadoop 开发中的复杂性，Crayon 带来了他们的方案。

jopen 2016-01-31 7343 0

Docker MapReduce

LogFactory; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration;

jopen 2014-01-27 69731 0

分布式/云计算/大数据 Spark

致力于实现海量数据，单机无法处理情况下的机器学习工具。在目前阶段，这种可伸缩性由 java 实现，有些部分基于 Apache Hadoop 这个分布式计算框架实现。最后，Mahout 是 java 库。它不支持用户接口，预装好

jopen 2016-01-18 60026 0

推荐引擎

P3

Random; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor;

xnbw 2016-01-11 589 0

Eclipse开发工具

目的core部分的代码只有63个Scala文件，非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在

jopen 2014-05-30 29373 0

Spark

文章介绍了 Apache Hadoop，一个允许对大数据集进行分布式处理的框架，可能是这些工具中最为人熟知的一个了。除了提供强大的 MapReduce 实现和可靠的分布式文件系统——Hadoop 分布式文件系统

jopen 2014-04-13 13945 0

大数据

基于 Hadoop 的大数据的计算 / 扩展能力支持 SQL like 查询语言统一的元数据管理简单编程 Hive的安装 1.1在hadoop生态圈中属于数据仓库

jopen 2014-05-01 58657 0

Hive

HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横

lvwg4417 2016-02-19 37073 0

存储系统分布式/云计算/大数据

Next"按钮继续。图1.1-16 网络配置第十六步：对数据库语言编码进行设置，非常重要，因为Hadoop里默认编码为UTF-8，所以为了避免出现乱码，我们这里选择"UTF-8"作为MySQL数据库的语言编码。

jopen 2014-11-08 52451 0

MySQL 数据库服务器 MapReduce

介绍在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起，这样才能够达到目的。[1]在Hadoop生态圈中，有一种相对比较新的组件叫做Oozie[2]，它让我们可以把多个M

jopen 2014-11-17 28776 0

Oozie 分布式/云计算/大数据

s节点！集群上既部署有Hadoop，又部署有HBase，因为HBase存储是基于Hadoop HDFS的，所以先要移除HBase节点，之后再移除Hadoop节点。添加则反之。移除hbase

jopen 2015-11-30 23405 0

分布式/云计算/大数据 HBase

发布，此版本在可靠可扩展的 SQL-on-Hadoop上提升了安全性能，此外，它还解决了Hadoop上自助服务 SQL 查询的空缺，尤其复杂动态 NoSQL 数据类的查询。它的一大性能优势是能够访问Hadoop数据，和 Qlik

dcb3 2015-05-19 9015 0

Apache Drill

（1）在shell下，操作hadoop目录，批量命名或删除，最终的命令sed的正则贪婪替换，看下面的脚本： ‍ # 遍历 hadoop 目录下的文件名 for line in `hadoop fs -ls

jopen 2015-12-10 4691 1

Shell

这是一个关于两个孤立集群的故事。第一个是Apache Hadoop集群，它的资源与Hadoop进程完全隔离。另一个集群指代所有的资源，这些资源并不是Hadoop集群的一部分。通过这种方式来区分两个集群是因为Hadoop通过Apache YARN（Yet

jopen 2015-12-29 36140 0

YARN

P6

法，最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势，事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。

shuixian0626 2012-07-06 4913 0

分布式/云计算/大数据

对数据库性能进行了优化，提升了存储能力，并进行了新功能和 Hadoop 的整合。 2. Altiscale CEO: Raymie Stata Hadoop 在 2014 年很火，但是其大数据平台仍然十分复杂，并且很难用。这也是

jopen 2014-12-25 21239 0

大数据

一些方案来提高虚拟机的熵。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错，可在应用层面处理失败。Hadoop

jopen 2015-09-30 16390 0

Java Java开发

html 我们知道有eclipse的Hadoop插件，能够在eclipse上操作hdfs上的文件和新建mapreduce程序，以及以Run On Hadoop方式运行程序。那么我们可不可以直接在ec

ZXF0109521 2016-02-01 59440 0

Spark YARN Eclipse 分布式/云计算/大数据

一些方案来提高虚拟机的熵。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错，可在应用层面处理失败。Hadoop

jopen 2015-10-05 22580 0

Docker

盘点大数据开源软件Google Trends指数资讯

为什么我们选择Docker 来构建Crayon 的数据处理平台资讯

spark读取hbase数据做分布式计算经验

Mahout In Action-第一章：初识Mahout 经验

在eclipse中开发hbase程序的方法文档

分布式计算系统，Spark 发布1.0.0 版本资讯

大数据处理的开发经验资讯

Hive详细教程经验

大数据存储技术方案介绍经验

mysql的安装以及和mapreduce的交互经验

Oozie的学习笔记经验

Hbase/Hdfs删除节点经验

Apache Drill 1.0 发布，大型数据集分析系统资讯

几个有用的shell脚本代码段

Mesos 和YARN：两个集群的故事资讯

大数据下的数据分析平台架构文档

盘点2014：十家最酷的大数据创业公司资讯

基于Java的现成容器——第一部分经验

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

五个基于Java的Docker镜像资讯

hadoop 电影票房预测的相关搜索

关键词

盘点大数据开源软件Google Trends指数 资讯

为什么我们选择Docker 来构建Crayon 的数据处理平台 资讯

spark读取hbase数据做分布式计算 经验

Mahout In Action-第一章：初识Mahout 经验

在eclipse中开发hbase程序的方法 文档

分布式计算系统，Spark 发布1.0.0 版本 资讯

大数据处理的开发经验 资讯

Hive详细教程 经验

大数据存储技术方案介绍 经验

mysql的安装以及和mapreduce的交互 经验

Oozie的学习笔记 经验

Hbase/Hdfs删除节点 经验

Apache Drill 1.0 发布，大型数据集分析系统 资讯

几个有用的shell脚本 代码段

Mesos 和YARN：两个集群的故事 资讯

大数据下的数据分析平台架构 文档

盘点2014：十家最酷的大数据创业公司 资讯

基于Java的现成容器——第一部分 经验