黑马javaee就业32期oracle53-55第三天上午_第1页
黑马javaee就业32期oracle53-55第三天上午_第2页
黑马javaee就业32期oracle53-55第三天上午_第3页
黑马javaee就业32期oracle53-55第三天上午_第4页
黑马javaee就业32期oracle53-55第三天上午_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Pig课程目标

什么是Pig?Pig的架构Pig的安装和启动Pig的常用命令

Pig的数据模型

使用PigLatin语句进行数据的分析

Pig的自定义函数什么是Pig?Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作Pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言piglatin进行数据处理什么是Pig?(续)Piglatin可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言Pig可以看做是piglatin到map-reduce的映射器Pig的架构Pig的安装下载并解压pig安装包()设置环境变量进入gruntshell验证Pig的工作模式本地模式:所有文件和执行过程都在本地,一般用于测试程序输入pig–xlocalMapreduce模式(hadoop模式):实际工作模式输入pigPig的常用命令ls、cd、cat、mkdir、pwdcopyFromLocal、copyToLocalshregister、definePig的数据模型Bag:表Tuple:行,记录Field:属性Pig不要求同一个bag里面的各个tuple有相同数量或相同类型的field

PigLatin语句LOAD:指出载入数据的方法FOREACH:逐行扫描进行某种处理FILTER:过滤行DUMP:把结果显示到屏幕STORE:把结果保存到文件注意:启动historyserver:

sbin/mr-jobhistory-daemon.shstarthistoryserverPig的自定义函数支持使用Java、Python、Javascript三种语言编写UDFJava自定义函数较为成熟,其它两种功能还有限Pig的自定义函数的类型自定义过滤函数自定义运算函数自定义加载函数自定义过滤函数示例:如果员工工资大于等于3000块钱,则被选择出来。自定义运算函数判断员工薪水是级别如果sal<=1000,则为:GradeA如果sal>1000&&sal<=3000,则为:GradeB如果sal>3000,则为:GradeC自定义加载函数默认情况下,一行数据会被解析成一个Tuple比如:员工信息自定义加载函数(续)特殊情况:单词统计的时候这时候:希望每个单词能被解析成一个Tuple,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论