P14

  Oozie 安装配置手册(培训版) 文档

servlet容器中—即tomcat Oozie工作流是放置在控制依赖DAG(有向无环图)中的一组动作(hadoop的mapreduce作业,hive作业等),其中指定动作执行的顺序。 一 .Oozie workflow

huihui8510 2013-09-23   618   0

mapreduce实现"浏览该商品的人大多数还浏览了"经典应用 经验

apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path;

jopen 2013-10-10   14569   0
P16

  Map/Reduce工作原理 文档

Annotated Hadoop: 第一节 Hadoop是什么 Hadoop是什么 Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储

jsyzthz 2011-08-13   8574   0
P91

  数据挖掘十大经典算法 文档

Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive

n8uic 2014-03-20   885   0

Intel数据中心软件部首席架构师陈奇:IntelHadoop助推大数据社会 资讯

你可能就会记住 Intel Hadoop。 英特尔不光会做 CPU,不光会做硬件,特别是在大数据这个领域,更想建立 Hadoop 的基础架构,叫 Intel Hadoop。前面讲的智慧城市,物联网,云计算等等,

jopen 2013-11-13   19446   0
P4

  hbase错误小节 文档

重启网络服务:/etc/rc.d/init.d/network restart 3. org.apache.hadoop.hbase.NotServingRegionException: Region is not

taoxinrui 2013-08-20   2454   0

不同的瑞士军刀:对比 Spark 和 MapReduce 经验

Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark

jopen 2016-01-14   21447   0

Spark 是否真的比 MapReduce 技高一筹 资讯

Spak 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark

jopen 2016-02-19   29104   0

Hbase安装手册 经验

解压hbase-0.98.6-hadoop2.tar.gz到/home/hadoop/目录下 $tar -zxvf hbase-0.98.6-hadoop2.tar.gz /home/hadoop/ $mv hbase-0

jopen 2015-05-27   12062   0
P2

  big资料 文档

2. Hadoop生态圈 架构师和开发人员通常会使用一种软件工具,用于其特定的用途软件开发。例如,他们可能会说,Tomcat是Apache Web服务器,MySQL是一个数据库工具。 然而,当提到H

fangunun 2016-12-22   643   0

mapreduce实现全局排序 经验

直接附代码,说明都在源码里了。 package com.hadoop.totalsort; import java.io.IOException; import java.util.ArrayList;

jopen 2013-10-10   36005   0

storm集群搭建 经验

设置主机名 (1)执行命令hostname hadoop0 该操作只对当前会话有效 (2)编辑文件vi /etc/sysconfig/network 修改为hadoop0 验证:重启linux,查看是否生效

jopen 2015-12-31   14469   0

Hbase基于Mapreduce的编程 经验

由于用到rcfile格式需要导入hive-exce包,还需要加载hbase包,如果这两个包都已经被集群管理员放到各节点的hadoop/lib下那就可以省去这一步,废话不说,干货,看代码: package test.hbase;

openkk 2012-08-26   34241   0

RHadoop环境搭建 经验

如何搭建RHadoop开发环境? 2.搭建RHadoop和Hadoop环境搭建的区别? 3.如何执行rmr2任务? 4.hadoop命令与RHadoop命令有哪些区别? 环境准备

jopen 2014-10-31   21736   0

spark用程序提交任务到yarn 经验

先介绍官网提交的例子,我用的是spark 0.9.0 hadoop2.2.0 一.使用脚本提交 1.使用spark脚本提交到yarn,首先需要将spark所在的主机和hadoop集群之间hosts相互配置(也就是

jopen 2014-04-11   186436   0
P84

  Hahoop 实战培训 文档

亿= 420G, (3) 日志种类:5 种北京传智播客教育 www.itcast.cn 4. Hadoop能解决哪些问题海量数据需要及时分析和处理。 海量数据需要深入分析和挖掘。 数据需要长期保存 问题:

will_132 2013-11-20   2317   0
P15

  OGG HDFS Integration 文档

not, Hadoop.apache.org or Yahoo Developer Network are very good sources for learning about Hadoop and

ThinkJ 2015-04-08   2797   0

HBase编程实例 经验

二、简要介绍HBaseJava API 1,  HbaseConfiguration 关系:org.apache.hadoop.hbase.HBaseConfiguration 作用:通过此类可以对HBase进行配置

jopen 2014-08-24   23547   0
P14

  Mapred 程序开发常见问题及解决方法 文档

送到哪个reduce中。用户编写自定义的Partitioner类,需实现org.apache.hadoop.mapred.Partitioner接口,并实现configure(JobConf conf)和getPartition(K

zjjhit 2014-10-30   3139   0

[Apache Kafka]Kafka集成 经验

强制spout从最早的offset重启。 Hadoop集成Kafka 资源共享、稳定性、可用性、可伸缩性是分布式计算的挑战。现如今有多了一个:TB或PB级数据的处理。 Hadoop简介 Hadoop是个大规模分布式批处理框架,通过很多节点并行处理数据。

JoyceFKJ 2016-01-25   25575   0
1 2 3 4 5 6 7 8 9 10