使用 Apache Pig 处理数据 经验

是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig

openkk 2012-03-30   25820   0

MapReduce的数据流程、执行流程 经验

同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。 具体的例子: 是hadoop mapreduce example中的例子,自己改写了一下并加入的注释 import java

jopen 2013-11-27   19471   0

部署Spark 0.9集群 经验

预编译好的二进制包 如果你需要用到HDFS,则要针对Hadoop 1.x 和Hadoop 2.x 选择不同的版本。这里我选择 Hadoop 2.x 版。 spark@master $ wget h

jopen 2016-01-03   15823   0
P24

  大数据分析系统架构之探讨 文档

前言: 3 一、Hadoop生态圈: 3 Hadoop 4 HBase 5 Hive 6 Apache Pig: 6 Impala: 7 Flume: 7 Sqoop: 8 Chukwa: 8 Mahout:

guet_lee 2017-01-12   2237   0
P24

  大数据分析系统架构 文档

前言: 3 一、Hadoop生态圈: 3 Hadoop 4 HBase 5 Hive 6 Apache Pig: 6 Impala: 7 Flume: 7 Sqoop: 8 Chukwa: 8 Mahout:

wzf1118 2016-11-04   2940   0

开源大数据利器汇总 经验

edu/ Spark上的SQL执行引擎 Pig http://pig.apache.org/ 基于Hadoop MapReduce的脚本语言 Cloudera Impala http://www.cloudera

dgy7 2015-05-21   56121   0
P6

  无线音乐俱乐部wap门户日志系统云计算应用解决方案 文档

。 Ø hadoopHadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分布式文件系统,与MapReduce和Google档案系统的概念类似。 Ø HDFS(Hadoop Distributed

iloveyepp 2012-11-07   436   0
P11

  迅捷英翔-12530云计算平台解决方案 文档

",和他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。 Ø hadoopHadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分布式文件系统,与MapRed

iloveyepp 2012-11-07   4390   0

MapReduce业务 - 图片关联计算 经验

write(key, new Text(common)); } } 完整示例 package cn.hadoop.hdfs.example; import java.io.IOException; import

jopen 2015-09-02   13564   0

推荐引擎mahout安装与配置 经验

04-desktop-i386 jdk安装版本 :jdk-7u51-linux-i586 Hadoop版本 :Hadoop-1.1.1(一个Namenode,三个Datanode部署) 二、安装步骤 在

mx3y 2015-06-30   14524   0
P16

  3、CDH4.1 介绍与环境搭建 文档

介绍与环境搭建 2. 技术基础Linux 中等 Java 最好有些基础,一般水平 关系数据库 sql 3. Hadoop介绍核心组件: HDFS :分布式存储系统 Mapreduce :分布式计算模块 分布式:廉价小型机

lxj2008 2014-01-17   1737   0
P7

  Sqoop 环境搭建和使用手册 文档

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

z_vv 2013-11-19   3969   0
手册  
P16

  4、cdh4.1 环境搭建二 文档

环境搭建二 2. 技术基础Linux 中等 Java 最好有些基础,一般水平 关系数据库 sql 3. Hadoop介绍核心组件: HDFS :分布式存储系统 Mapreduce :分布式计算模块 分布式:廉价小型机

lxj2008 2014-01-17   584   0
P2

  Spark 部署与实践 文档

k2,IP地址分别为1**.1*.**.******。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署。 2. 安装Scala2.9.3

yxwpx 2015-07-21   506   0
P10

  大数据平台技术框架选型分析 文档

全机制等 五、 选型需要考虑 简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数据作业。自己

guet_lee 2017-01-12   675   0
P9

  MapRedue 作业过程 文档

 MapRedue作业过程 1. Hadoop 作业构成 1.1 Hadoop作业执行流程 用户配置并将一个Hadoop作业提到Hadoop框架中,Hadoop框架会把这个作业分解成一系列map tasks

grid2012 2012-08-28   1979   0

Spark 伪分布式 & 全分布式 安装指南 经验

one Deploy Mode;二、Amazon EC2 ;三、Apache Mesos;四、Hadoop YARN。第一种方式是单机部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。

jopen 2015-04-02   84283   0
P13

  搜索相关笔记(Nutch) 文档

擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码,

q985962490 2012-02-29   724   0
P9

  Hbase分布式多结点安装运行手册 文档

6,其他版本的Linux应该也可以。       jdk:sun jdk 1.6 32bit       hadoop:apache hadoop 1.0.4       hbase:apache hbase 0.94 实验环

lison4open 2015-01-01   340   0

Java实现的网络爬虫,Apache Nutch v2.3 发布 资讯

Nutch的创始人是 Doug Cutting ,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1

m4ed 2015-01-31   18141   0
1 2 3 4 5 6 7 8 9 10