盘点大数据开源软件Google Trends指数 资讯

n公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。 YARN 是一种新的Hadoop资源管理器,它是一个通

jopen 2017-04-06   46308   0

为什么我们选择Docker 来构建Crayon 的数据处理平台 资讯

【编者的话】随着Hadoop 成为大数据的事实标准,Hadoop的生态环境也在不断膨胀,环境搭建的复杂性,给开发和测试带来了不便。如何用Docker来降低Hadoop 开发中的复杂性,Crayon 带来了他们的方案。

jopen 2016-01-31   7343   0

spark读取hbase数据做分布式计算 经验

LogFactory; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration;

jopen 2014-01-27   69731   0

Mahout In Action-第一章:初识Mahout 经验

致力于实现海量数据,单机无法处理情况下的机器学习工具。 在目前阶段,这种可伸缩性由 java 实现,有些部分基于 Apache Hadoop 这个分布式计算框架实现。 最后,Mahout 是 java 库。它不支持用户接口,预装好

jopen 2016-01-18   60026   0
P3

  在eclipse中开发hbase程序的方法 文档

Random; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor;

xnbw 2016-01-11   589   0

分布式计算系统,Spark 发布1.0.0 版本 资讯

目的core部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在

jopen 2014-05-30   29373   0
Spark  

大数据处理的开发经验 资讯

文章介绍了 Apache Hadoop,一个允许对大数据集进行分布式处理的框架,可能是这些工具中最为人熟知的一个了。除了提供强大的 MapReduce 实现和可靠的分布式文件系统——Hadoop 分布式文件系统

jopen 2014-04-13   13945   0

Hive详细教程 经验

基于 Hadoop 的大数据的计算 / 扩展能力 支持 SQL like 查询语言 统一的元数据管理 简单编程 Hive的安装 1.1在hadoop生态圈中属于数据仓库

jopen 2014-05-01   58657   0
Hive  

大数据存储技术方案介绍 经验

HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储; 从逻辑上讲,HBase将数据按照表、行和列进行存储。 与hadoop一样,Hbase目标主要依靠横

lvwg4417 2016-02-19   37073   0

mysql的安装以及和mapreduce的交互 经验

Next"按钮继续。 图1.1-16 网络配置 第十六步 :对数据库语言编码进行设置,非常重要,因为Hadoop里默认编码为UTF-8,所以为了避免出现乱码,我们这里选择"UTF-8"作为MySQL数据库的语言编码。

jopen 2014-11-08   52451   0

Oozie的学习笔记 经验

介绍 在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较 新的组件叫做Oozie[2],它让我们可以把多个M

jopen 2014-11-17   28776   0

Hbase/Hdfs删除节点 经验

s节点! 集群上既部署有Hadoop,又部署有HBase,因为HBase存储是基于Hadoop HDFS的, 所以先要移除HBase节点,之后再移除Hadoop节点 。添加则反之。 移除hbase

jopen 2015-11-30   23405   0

Apache Drill 1.0 发布,大型数据集分析系统 资讯

发布,此版本在可靠可扩展的 SQL-on-Hadoop上提升了安全性能,此外,它还解决了Hadoop上自助服务 SQL 查询的空缺,尤其复杂动态 NoSQL 数据类的查询。它的一大性能优势是能够访问Hadoop数据,和 Qlik

dcb3 2015-05-19   9015   0

几个有用的shell脚本 代码段

(1)在shell下,操作hadoop目录,批量命名或删除,最终的命令sed的正则贪婪替换,看下面的脚本: ‍ # 遍历 hadoop 目录下的文件名      for line in `hadoop fs -ls

jopen 2015-12-10   4691   1
Shell  

Mesos 和YARN:两个集群的故事 资讯

这是一个关于两个孤立集群的故事。第一个是Apache Hadoop集群,它的资源与Hadoop进程完全隔离。另一个集群指代所有的资源,这些资源并不是Hadoop集群的一部分。通过这种方式来区分两个集群是因为Hadoop通过Apache YARN(Yet

jopen 2015-12-29   36140   0
YARN  
P6

  大数据下的数据分析平台架构 文档

法,最终落地于Hadoop平台之上。 Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。本文主要介绍一种基于Hadoop平台的多维分析和数据挖掘平台架构。

shuixian0626 2012-07-06   4913   0

盘点2014:十家最酷的大数据创业公司 资讯

对数据库性能进行了优化,提升了存储能力,并进行了新功能和 Hadoop 的整合。 2. Altiscale CEO: Raymie Stata Hadoop 在 2014 年很火,但是其大数据平台仍然十分复杂,并且很难用。这也是

jopen 2014-12-25   21239   0

基于Java的现成容器——第一部分 经验

一些方案来提高虚拟机的熵 。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错,可在应用层面处理失败。Hadoop

jopen 2015-09-30   16390   0

在Eclipse上运行Spark(Standalone,Yarn-Client) 经验

html 我们知道有eclipse的Hadoop插件,能够在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式运行程序。那么我们可不可以直接在ec

ZXF0109521 2016-02-01   59440   0

五个基于Java的Docker镜像 资讯

一些方案来提高虚拟机的熵 。 APACHE HADOOP Apache Hadoop 是个用于将大数据集分布到大量计算机中的开源框架。Hadoop 被设计成可以从一台主机扩展到数万台。Hadoop 不依赖硬件来达成容错,可在应用层面处理失败。Hadoop

jopen 2015-10-05   22580   0
Docker  
1 2 3 4 5 6 7 8 9 10