Hadoop数据分析平台 第8周


DATAGURU专业数据分析网站 2012.10.23 Hadoop数据分析平台 第8周 DATAGURU专业数据分析网站 2012.10.23 pig  Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作  Pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理  Pig latin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这 是一种面向数据分析处理的轻量级脚本语言  Pig可以看做是pig latin到map-reduce的映射器 2 DATAGURU专业数据分析网站 2012.10.23 Pig框架 3 DATAGURU专业数据分析网站 2012.10.23 安装pig  下载并解压pig安装包( http://pig.apache.org/)  设置环境变量  进入grunt shell验证 4 DATAGURU专业数据分析网站 2012.10.23 下载并解压pig安装包 5 DATAGURU专业数据分析网站 2012.10.23 编辑环境变量 6 DATAGURU专业数据分析网站 2012.10.23 重新登录使环境变量生效  用set命令检查环境变量 7 DATAGURU专业数据分析网站 2012.10.23 进入grunt shell 8 DATAGURU专业数据分析网站 2012.10.23 Pig工作模式  本地模式:所有文件和执行过程都在本地,一般用于测试程序  Mapreduce模式:实际工作模式 9 DATAGURU专业数据分析网站 2012.10.23 配置pig的map-reduce模式  设置PATH,增加指向hadoop/bin  设置PIG_CLASSPATH环境变量  修改hosts文件  启动pig 10 DATAGURU专业数据分析网站 2012.10.23 设置PIG_CLASSPATH环境变量  设置完成后重新登录使环境变量生效 11 DATAGURU专业数据分析网站 2012.10.23 修改hosts文件 12 DATAGURU专业数据分析网站 2012.10.23 启动grunt shell 13 DATAGURU专业数据分析网站 2012.10.23 Pig参考文档大全 14 DATAGURU专业数据分析网站 2012.10.23 Pig的运行方法  脚本  Grunt  嵌入式 15 DATAGURU专业数据分析网站 2012.10.23 Grunt  自动补全机制  Autocomplete文件  Eclipse插件PigPen 16 DATAGURU专业数据分析网站 2012.10.23 Grunt shell命令 17 DATAGURU专业数据分析网站 2012.10.23 ls、cd、cat 18 DATAGURU专业数据分析网站 2012.10.23 copyToLocal 19 DATAGURU专业数据分析网站 2012.10.23 执行操作系统命令:sh 20 DATAGURU专业数据分析网站 2012.10.23 Pig数据模型  Bag:表  Tuple:行,记录  Field:属性  Pig不要求同一个bag里面的各个tuple有相同数量或相同类型的field 21 DATAGURU专业数据分析网站 2012.10.23 Pig latin常用语句  LOAD:指出载入数据的方法  FOREACH:逐行扫描进行某种处理  FILTER:过滤行  DUMP:把结果显示到屏幕  STORE:把结果保存到文件 22 DATAGURU专业数据分析网站 2012.10.23 LOAD、FOREACH、STORE三部曲 23 DATAGURU专业数据分析网站 2012.10.23 结果 24 DATAGURU专业数据分析网站 2012.10.23 UDF  支持使用Java、Python、Javascript三种语言编写UDF  Java自定义函数较为成熟,其它两种功能还有限 25 DATAGURU专业数据分析网站 FAQ时间 26
还剩25页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 5 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

风颖尘

贡献于2014-08-14

下载需要 5 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf