




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、IDC项目(二) 课程大纲数据采集脚本处理程序处理HUE应用总结说明 数据采集是项目中很重要的一环,在大批量的hadoop数据中,数据采集部分没有做好相关的把控和优化,会导致项目后续处理流程的时延增加、数据缺失、经常性补采等问题。IDC项目数据采集有三种处理方式使用shell脚本对数据进行put(写定时shell脚本)使用程序对数据进行put使用flume对数据进行put(项目三期)数据采集Shell脚本put数据: 本项目中节点数小于25的集群均采用put方式,大于25的采用程序put(部分省份与下游厂商有关系,不同厂商分析的指标不一样)优点: 1、开发简单,周期短 2、灵活性高,便于维护
2、3、补采数据时也方便缺点 1、不能动态检测文件新文件,只能机械的使用定时处理 2、实际使用中对于批量小文件数据put性能效率不高(发多次请求)shell脚本处理Shell脚本put数据: 采用此方式采集数据,尤为需要注意点有:1、原始数据的存储方式(通常以目录形式存储一个阶段的数据)2、数据的时间延迟3、按照时间定义目录名4、如何验证数据的完整性开发思想:1、编写shell脚本,定时调度进行put2、取当前时间减去对应的延迟处理时间,put上一个时间间隔的数据3、put过程中注意检验数据完整性(本项目由C+编写的接收程序,接收完成生产对应的.ok数据文件)shell脚本处理Shell脚本put
3、数据: shell脚本部署:1、创建 /watcher/目录2、编写putDataToHDFS.sh脚本3、配置crontab,内容如下:15 * * * * sh -xb /home/superman/idc/watcher1/test.sh 2&1 /home/superman/idc/watcher1/test.logshell脚本处理功能描述 动态监控数据目录的变化,将数据目录中新添加的文件,put的HDFS的对应目录。具体实现 使用JNotify完成动态监控功能。 JNotify是一个 Java 开发的用来监控文件系统事件的工具。能够监听文件夹下的文件的创建、删除、修改等功能。和ha
4、doop结合很好的解决了自定义数据采集中需要完成的文件新文件监听、文件合并、上传HDFS等功能程序处理程序开发1、创建工程filewatcher2、导入jnotify-0.94.jar包或者引人源码(方便修改)3、根据数据上来的文件格式可能需要一些工具类,本项目需要引入解压工具(原始数据是以压缩方式上来)程序部署 1、当前目录创建idc/watcher目录2、将程序打成相应的jar包( filewatcher.jar )和libjnotify.so一同放在idc/watcher目录下3、需要将libjnotify.so文件放入/opt/cloudera/parcels/CDH/lib/hado
5、op/lib/native/目录下(可以在下一步的脚本中写)4、本地创建目录如/srcdata/idcdata,HDFS下创建 idc/accesslogs/目录5、 idc/watcher目录下启动监控程序,启动命令如下(在命令后加符号&即可后台处理)启动命令:hadoop jar filewatcher.jar /accesslogs idccache/ 5 hour程序处理要点总结1、脚本put方式在put多个文件时和少量文件时,效率上有一定的差距,所以数据文件较多时尽量合并后再进行put2、脚本方式进行合并没有使用程序方式进行put方便控制3、脚本方式开发简单、灵活4、使用程序可以动态监控需要上传的目录下文件,脚本方式只能使用定时方式,易用性上略有不足问题总结什么是HUEHue是一个开源的Apache Hadoop UI系统。由Cloudera Desktop演化而来 由cloudera公司贡献给Apache,使用Python进行开发,使得web成为hadoop 系统的控制台,可以在HUE web系统中和hadoop组件进行交互。HUE的作用 1、作为HDFS的文件浏览器*2、Hive编辑器来开发和运行Hive查询*3、支持Metastore浏览器,可以访问Hive的元数据* 4、Impala的应用进行交互式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学习心理与教学方法的优化研究
- 混合学习未来教育的创新模式
- 全球化背景下国际教育的政策支持研究
- 中国教育培训机构市场竞争策略分析
- 心理驱动教育心理学在学生自我管理中的应用
- 教育技术趋势报告提升教学效果的科技工具
- 基于创新教育政策的科技产业未来规划及战略部署探讨
- 智慧办公未来校园管理的新趋势
- 商业培训中的教育创新提升培训效果的方法
- 教育科技与心理辅导的结合策略探索
- 企业宣传视频拍摄制作方案
- 贷款车电子合同模板
- 飞利浦CX50-说明书
- 四年级上册语文全册重点知识
- 火龙罐综合灸技术
- 盘扣式卸料平台计算书
- 体育训练馆维修改造工程钢结构网架屋面施工组织设计
- 广州市岁以下婴幼儿照护服务工作管理业务培训考试试题附有答案
- 电化学储能黑启动技术导则
- 《微电影创作》课程标准(含课程思政)
- 人教版小学3-6年级英语单词表-已A4排版-可直接打印
评论
0/150
提交评论