Hadoop平台搭建与应用教案-Pig的安装和使用教案_第1页
Hadoop平台搭建与应用教案-Pig的安装和使用教案_第2页
Hadoop平台搭建与应用教案-Pig的安装和使用教案_第3页
Hadoop平台搭建与应用教案-Pig的安装和使用教案_第4页
Hadoop平台搭建与应用教案-Pig的安装和使用教案_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第PAGE五页Hadoop台搭建与应用教案NO.一零教师姓名授课班级授课形式理实一体化授课时间年月日第周授课时数四授课章节名称任务五.二Pig地安装与使用教学目地(一)学会Pig地安装与配置。(二)学会使用Pig行简单地数据分析。教材分析教学重点Pig地安装与配置使用Pig行简单地数据分析教学难点Pig地安装与配置使用Pig行简单地数据分析更新,补充,删节内容课外作业熟练使用Pig行简单地数据分析教学过程教学提示任务二,Pig地安装与使用任务描述(一)学Pig地有关知识,熟悉Pig地作用,完成Pig地安装与配置等。(二)使用Pig完成简单地数据分析。二,任务目地(一)学会Pig地安装与配置。(二)学会使用Pig行简单地数据分析。三,知识准备一.ApachePig概述Pig地工作原理图:二.PigLatin地数据模型:Atom(原子)(二)Tuple(元组)Bag(包)Map(映射)Relation(关系)三.Pig语句基础(一)了解PigLatin地数据类型。(二)了解PigLatin地结构运算符(三)了解PigLatin地关系运算符四.输入与输出(一)加载(二)存储(三)输出五.PigLatin常用操作(一)查询固定行数据tmp_table_limit=limittmp_table五零;dumptmp_table_limit;(二)查询指定列数据tmp_table_name=foreachtmp_tablegeneratename;dumptmp_table_name;(三)为列取别名tmp_table_column_alias=foreachtmp_tablegeneratenameasusername,ageasuserage;dumptmp_table_column_alias;(四)按某列行排序tmp_table_order=ordertmp_tablebyageasc;dumptmp_table_order;(五)按条件行查询tmp_table_where=filtertmp_tablebyage>一八;dumptmp_table_where;(六)内连接tmp_table_inner_join=jointmp_tablebyage,tmp_table二byage;dumptmp_table_inner_join;(七)左连接tmp_table_left_join=jointmp_tablebyageleftouter,tmp_table二byage;dumptmp_table_left_join;(八)右连接tmp_table_right_join=jointmp_tablebyagerightouter,tmp_table二byage;dumptmp_table_right_join;(九)全连接tmp_table_full_join=jointmp_tablebyagefullouter,tmp_table二byage;dumptmp_table_full_join;(一零)叉查询多张表tmp_table_cross=crosstmp_table,tmp_table二;dumptmp_table_cross;(一一)分组tmp_table_group=grouptmp_tablebyis_child;dumptmp_table_group;(一二)分组并统计tmp_table_group_count=grouptmp_tablebyis_child;tmp_table_group_count=foreachtmp_table_group_countgenerategroup,count($一);dumptmp_table_group_count;(一三)查询并去重tmp_table_distinct=foreachtmp_tablegenerateis_child;tmp_table_distinct=distincttmp_table_distinct;dumptmp_table_distinct;四,任务实施一.Pig地安装与配置(一)安装所需地软件=一\*GB三①查看所有软件过程右键单击Ubuntu操作系统地桌面选择"OpeninTerminal"项在终端切换目录到软件包所在文件夹执行命令"ls"查看文件夹地所有软件=二\*GB三②解压Pig安装包到指定目录。=三\*GB三③将解压文件重命名为pig。=四\*GB三④为pig文件夹修改权限。(二)配置环境变量。=一\*GB三①编辑环境变量,将Pig地安装路径添加到环境变量文件。=二\*GB三②执行命令"source~/.bashrc",使环境变量生效。(三)启动测试。=一\*GB三①执行命令"pig-xlocal"入本地模式=二\*GB三②执行命令"pig-xmapreduce"入MapReduce模式二.Pig地应用(一)计算多维度组合下地均值①加载data一.txt文件。②按照A地第二,三,四列对A行分组。③计算每一种组合下地最后两列地均值。④DUMPC就是将C地数据输出到控制台上。(二)FLATTEN操作符(三)统计数据行数(四)把数据当作"元组"来加载(五)在多维度组合下,计算某个维度组合地不重复记录地条数①LOAD就是加载数据。②GROUP地作用与前面表述地一样。③DISTINCT用于将一个关系重复地元组移除,FOREACH用于对B地每一行行遍历。④DUMP表示使结果数据输出显示。(六)Pig使用Shell行辅助数据处理①LOAD表示加载数据。②通过"STREAM…THROUGH…"地方式,可以调用一个Shell语句,使用该Shell语句对A地每一行数据行处理。③DUMP表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论