开源项目,开源代码,开源文档,开源新闻,开源社区

是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。本文将探索 Pig

openkk 2012-03-30 25820 0

Pig 分布式/云计算/大数据

同样注意输入与输出的类型必须与自定义的Reducer中声明的一致。具体的例子：是hadoop mapreduce example中的例子，自己改写了一下并加入的注释 import java

jopen 2013-11-27 19471 0

MapReduce

预编译好的二进制包如果你需要用到HDFS，则要针对Hadoop 1.x 和Hadoop 2.x 选择不同的版本。这里我选择 Hadoop 2.x 版。 spark@master $ wget h

jopen 2016-01-03 15823 0

分布式/云计算/大数据

P24

前言: 3 一、Hadoop生态圈： 3 Hadoop 4 HBase 5 Hive 6 Apache Pig: 6 Impala： 7 Flume： 7 Sqoop: 8 Chukwa： 8 Mahout:

guet_lee 2017-01-12 2237 0

分布式/云计算/大数据

P24

前言: 3 一、Hadoop生态圈： 3 Hadoop 4 HBase 5 Hive 6 Apache Pig: 6 Impala： 7 Flume： 7 Sqoop: 8 Chukwa： 8 Mahout:

wzf1118 2016-11-04 2940 0

分布式/云计算/大数据

edu/ Spark上的SQL执行引擎 Pig http://pig.apache.org/ 基于Hadoop MapReduce的脚本语言 Cloudera Impala http://www.cloudera

dgy7 2015-05-21 56121 0

开源分布式/云计算/大数据

P6

。 Ø hadoop：Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分布式文件系统，与MapReduce和Google档案系统的概念类似。 Ø HDFS（Hadoop Distributed

iloveyepp 2012-11-07 436 0

分布式/云计算/大数据方案

P11

"，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。 Ø hadoop：Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分布式文件系统，与MapRed

iloveyepp 2012-11-07 4390 0

分布式/云计算/大数据方案

write(key, new Text(common)); } } 完整示例 package cn.hadoop.hdfs.example; import java.io.IOException; import

jopen 2015-09-02 13564 0

MapReduce 分布式/云计算/大数据

04-desktop-i386 jdk安装版本：jdk-7u51-linux-i586 Hadoop版本：Hadoop-1.1.1（一个Namenode，三个Datanode部署）二、安装步骤在

mx3y 2015-06-30 14524 0

推荐引擎 Mahout

P16

介绍与环境搭建 2. 技术基础Linux 中等 Java 最好有些基础，一般水平关系数据库 sql 3. Hadoop介绍核心组件： HDFS ：分布式存储系统 Mapreduce ：分布式计算模块分布式：廉价小型机

lxj2008 2014-01-17 1737 0

分布式/云计算/大数据 x86 Java

P7

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中

z_vv 2013-11-19 3969 0

手册

P16

环境搭建二 2. 技术基础Linux 中等 Java 最好有些基础，一般水平关系数据库 sql 3. Hadoop介绍核心组件： HDFS ：分布式存储系统 Mapreduce ：分布式计算模块分布式：廉价小型机

lxj2008 2014-01-17 584 0

分布式/云计算/大数据 x86 Java

P2

k2，IP地址分别为1**.1*.**.******。JDK版本为1.7。集群上已经成功部署了Hadoop2.2，详细的部署过程可以参见另一篇文档Yarn的安装与部署。 2. 安装Scala2.9.3

yxwpx 2015-07-21 506 0

分布式/云计算/大数据

P10

全机制等五、选型需要考虑简单性：亲自试用大数据套件。这也就意味着：安装它，将它连接到你的Hadoop安装，集成你的不同接口（文件、数据库、B2B等等），并最终建模、部署、执行一些大数据作业。自己

guet_lee 2017-01-12 675 0

分布式/云计算/大数据

P9

MapRedue作业过程 1. Hadoop 作业构成 1.1 Hadoop作业执行流程用户配置并将一个Hadoop作业提到Hadoop框架中，Hadoop框架会把这个作业分解成一系列map tasks

grid2012 2012-08-28 1979 0

分布式/云计算/大数据

one Deploy Mode；二、Amazon EC2 ；三、Apache Mesos；四、Hadoop YARN。第一种方式是单机部署，不需要有依赖的资源管理器，其它三种都需要将spark部署到对应的资源管理器上。

jopen 2015-04-02 84283 0

Spark 分布式/云计算/大数据

P13

擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。Nutch 0.8 完全使用Hadoop重写了骨干代码，

q985962490 2012-02-29 724 0

搜索引擎 nutch

P9

6，其他版本的Linux应该也可以。 jdk:sun jdk 1.6 32bit hadoop:apache hadoop 1.0.4 hbase：apache hbase 0.94 实验环

lison4open 2015-01-01 340 0

NoSQL数据库手册

Nutch的创始人是 Doug Cutting ，他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch 诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1

m4ed 2015-01-31 18141 0

Apache Nutch

使用 Apache Pig 处理数据经验

MapReduce的数据流程、执行流程经验

部署Spark 0.9集群经验

大数据分析系统架构之探讨文档

大数据分析系统架构文档

开源大数据利器汇总经验

无线音乐俱乐部wap门户日志系统云计算应用解决方案文档

迅捷英翔-12530云计算平台解决方案文档

MapReduce业务－图片关联计算经验

推荐引擎mahout安装与配置经验

3、CDH4.1 介绍与环境搭建文档

Sqoop 环境搭建和使用手册文档

4、cdh4.1 环境搭建二文档

Spark 部署与实践文档

大数据平台技术框架选型分析文档

MapRedue 作业过程文档

Spark 伪分布式 & 全分布式安装指南经验

搜索相关笔记(Nutch) 文档

Hbase分布式多结点安装运行手册文档

Java实现的网络爬虫，Apache Nutch v2.3 发布资讯

hadoop 电影票房预测的相关搜索

关键词

使用 Apache Pig 处理数据 经验

MapReduce的数据流程、执行流程 经验

部署Spark 0.9集群 经验

大数据分析系统架构之探讨 文档

大数据分析系统架构 文档

开源大数据利器汇总 经验

无线音乐俱乐部wap门户日志系统云计算应用解决方案 文档

迅捷英翔-12530云计算平台解决方案 文档

MapReduce业务 － 图片关联计算 经验

推荐引擎mahout安装与配置 经验

3、CDH4.1 介绍与环境搭建 文档

Sqoop 环境搭建和使用手册 文档

4、cdh4.1 环境搭建二 文档

Spark 部署与实践 文档

大数据平台技术框架选型分析 文档

MapRedue 作业过程 文档

Spark 伪分布式 & 全分布式 安装指南 经验

搜索相关笔记(Nutch) 文档

Hbase分布式多结点安装运行手册 文档

Java实现的网络爬虫，Apache Nutch v2.3 发布 资讯

hadoop 电影票房预测 的相关搜索

关键词

使用 Apache Pig 处理数据经验

MapReduce的数据流程、执行流程经验

部署Spark 0.9集群经验

大数据分析系统架构之探讨文档

大数据分析系统架构文档

开源大数据利器汇总经验

无线音乐俱乐部wap门户日志系统云计算应用解决方案文档

迅捷英翔-12530云计算平台解决方案文档

MapReduce业务－图片关联计算经验

推荐引擎mahout安装与配置经验

3、CDH4.1 介绍与环境搭建文档

Sqoop 环境搭建和使用手册文档

4、cdh4.1 环境搭建二文档

Spark 部署与实践文档

大数据平台技术框架选型分析文档

MapRedue 作业过程文档

Spark 伪分布式 & 全分布式安装指南经验

Hbase分布式多结点安装运行手册文档

Java实现的网络爬虫，Apache Nutch v2.3 发布资讯

hadoop 电影票房预测的相关搜索