




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中科普开HADOOP大数据课程运用Hadoop开源技术
推动大数据落地大数据开源技术分析EasyHadoop社区创始人童小军EasyHadoop简介EasyHadoop让大数据更简单【软件社区】起源:一键Hadoop安装脚本。发展:暴风,蓝讯,优酷,亿赞普,人民搜索【聚会】立足:中小型,可落地的,10-500节点技术经验分享致力于在中国推广和普及Hadoop相关技术EasyHadoopOpenSourceCommunity个人介绍2012年5月2日-第一个在国内成功通过Cloudera认证考试,成为首位在国内获得美国Cloudera公司认证的ApacheHadoop开发工程师(ClouderaCertifiedDeveloperforApacheHadoop,CCDH)。作为ApacheHadoop在中国商业化的开始的标志。被列入Hadoop百度百科,Hadoop大事记中。社区Hadoop技术电子出版物EasyHadoop实战手册:Hadoop企业级部署实施指南EasyHive手册:Hive企业实施指南EasyHadoop社区技术聚会成功举办了七次Hadoop开发者活动。暴风、蓝讯、百度、淘宝、腾讯、阿里巴巴、
人民搜索、亿赞普等一线开发者的分享经验。我们如何才能做的更好?培训目标熟悉HADOOP应用背景123了解Hadoop应用案例了解Hadoop技术最佳实践培训目录大数据和数据仓库概述1Hadoop应用案例和云平台2Hadoop数据仓库[python/java]最佳实践3数据可视化案例4基于数据仓库平台改造变迁5阿里金融通过大数据整合掘金! 阿里金融的信用评估系统会自动分析小微企业的数据,例如企业通过支付宝,淘宝进行的支付数据,最终算出信用评估和放贷额度。 截止2011年底,阿里金融对近30万家小微企业进行信用评估。累计投放96800家,投放贷款154亿,坏账率为交易额的0.76%。阿里金融的实时业务墙阿里金融的的数据模型型任务(局局部)每个模型任任务都是面面向海量数数据的大规规模运算任任务。天猫/淘宝宝双十一191亿背后的开源源技术?@dbatools:双十十一一天时时间,支付宝核心心数据库集集群处理了了41亿个个事务,执行285亿次SQL,访问1931亿次内内存数据块块,13亿个物物理读,生成15TB日志。数据应用开开发平台——数据工场Hive报表需求(淘数据)Hbase即席查询(adhoc)数据分析数据挖掘数据产品淘宝数据云云梯平台-产品架构构实时计算底层平台数据开发平平台数据据应应用用是需求求驱驱动动技技术术,技技术术带带动动需需求求?思考考-云云计计算算技技术术有有两两极极3200台台主主机机Hadoop解解决决了了什么么难难题题?移动动计计算算而而非非移移动动数数据据,化化整整为为零零,分分片片处处理理。。本地地化化计计算算,并并行行IO,降降低低网网络络通通信信思考考-数数据据分分析析系系统统的的基基本本指指标标思考考-数数据据分分析析系系统统的的基基本本指指标标海量量用用户户大规规模模批批量量服服务务(服服务务1.0)决策策逻逻辑辑数据据库库用户户1逻辑辑1逻辑辑N数据据集集编辑辑人人员员用户户N编辑辑逻辑辑信息息生生产产者者信息息消消费费者者Mysql/Oracle大数据仓库海量用户大规模个性化化服务(服务务2.0)决策逻辑大数据库用户1逻辑1服务数数据1用户N逻辑N服务数数据N原始数数据N挖掘逻逻辑NHiveHbaseStormHadoop原始数数据1原始数数据2信息生生产产者/消费费者规则制制定上帝之之手本质:智能能组织织->智能能群体体实时思考-数据据分析析系统统的基基本指指标反馈决策周期!快反馈决决策粒度!细细反馈决决策准确性性!准准反馈总体成本!廉廉价数据统统计/分析析是一个个组织织自动控控制,自学习习,自自调整整系统统核心组组成部部分。机会会成本本!想想象象空间间!Hadoop前前的的数据据仓库库流程程反馈决决策周周期!!快?反馈决决策粒粒度!细细?反馈决决策准准确性性!准准?反馈总总体成成本!廉廉价?perl,shell,awkHadoop后后的数数据仓仓库流流程反馈决决策周周期!!快?反馈决决策粒粒度!细细?反馈决决策准准确性性!准准?反馈总总体成成本!廉廉价?持续扩扩展成成本??Hql,Pig,Mapreduce,工工作流流那些用用户需需要Hadoop((合合)技技术?案案例解解析UserCase1(网页页游戏戏)国内网网页游戏厂厂商百个服服/网网页游游戏,30-50个个库/服10G用户数据/天/游戏戏[十几几款游游戏]场景:游游戏玩玩家行行为分分析其他平平台:数据据无法法导出出中间数数据汇汇总丢丢弃,无法法用户户级分分析UserCase2(智智慧交交通)用户:最大城城市,交通领领域(Citytraffic)场景:车牌记录[CarLicencePlate],100亿[10Billion]/年需求:小时时级别->优化到分分钟级[Minute]->未来优优化到秒级级[Seconds]查询IntelligentTransportationSmarterCities场景:车辆异常快速识别VehicleAbnormal交通安全问问题Hadoop技术其其他应用用领域电信医疗交通公安航空电力金融搜索社交游戏视频民生核心基于hadoop的的数据平台台总体架构构Python结合合HadoopStreaming原原理解解析MapReduce基本流程程实现distinct一、日志格式::{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624使用python实实现distinct/count一、日志格式::{0E3AAC3B-E705-4915-9ED4-EB7B1E963590}{FB11E363-6D2B-40C6-A096-95D8959CDB92}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}{06F7CAAB-E165-4F48-B32C-8DD1A8BA2562}{B17F6175-6D36-44D1-946F-D748C494648A}B11E363-6D2B-40C6-A096-95D8959CDB9217F6175-6D36-44D1-946F-D748C494648AE3AAC3B-E705-4915-9ED4-EB7B1E9635906F7CAAB-E165-4F48-B32C-8DD1A8BA25624importsysforlineinsys.stdin:try:flags=line[1:-2]str=flags+'\t'+'1'printstrexceptException,e:printe#!/usr/bin/pythonimportsysres={}forlineinsys.stdin:try:flags=line[:-1].split('\t')iflen(flags)!=2:continuefield_key=flags[0]ifres.has_key(field_key)==False:res[field_key]=[0]res[field_key][0]=1exceptException,e:passforkeyinres:printkey(distinct\count)--map(distinct)--red#!/usr/bin/pythonimportsyslastuid=""num=1forlineinsys.stdin:uid,count=line[:-1].split('\t')iflastuid=="":lastuid=uidiflastuid!=uid:num+=1lastuid=uidprintnum(count的优化实现)--reduce基于PythonMapReduceStreaming快速速并行编编程一、单机机测试headtest.log|pythonmap.py|pythonred.py一、将文文件上传传到集群群/bin/hadoopfs-copyFromLocaltest.log/hdfs/三、运行行mapred/bin/hadoop-input/path/test.log-output/path/通过界面面查看任任务状态态Python快快速构建建数据据分析模模块ComETL软件地址址:/zhuyeqing/ComETL1.支持持简单工工作流2.支持持自动恢恢复3.支持持自定义义驱动4.支持持HiveMysqlMapReduce等模模式作者:赵赵修湘极少的代代码量,几万行行吧!类似系统统SqoopDataXOozieComEtl配配置样例例etl_op={"run_mode":'day',"delay_hours":2,"jobs":[{"job_name":"job1","analysis":[{'etl_class_name':'ExtractionEtl','step_name':'mysql_e_1','db_type':'hive','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_save_type':'SimpleOutput',"sql_assemble":'SimpleAssemble','sql':'select*fromtest.a2limit30',},],"transform":[{'etl_class_name':'TransformEtl','step_name':'transform1','data_source':[{"job_name":"job1","step_name":'mysql_e_1','data_field':''},],'data_transform_type':'SimpleTransform',},],"loading":[{'etl_class_name':'LoadingEtl','step_name':'load1','data_source':{"job_name":"job1","step_name":'transform1'},'db_type':'mysql','db_coninfo':[{'db_ip':'0','db_port':3306,'db_user':'jobs','db_passwd':'hhxxttxs','db_db':'test'}],'db_path':'test.a2','pre_sql':[],'post_sql':[],'data_load_type':'SplitLoad','data_field':'a|b'},]}}Pig内内嵌JPython实实现PageRank算法法JPython+pig代代码实现现演示/julienledem/Pig-scripting-examples/blob/其他PythonMapReduce框框架Pydoop-PythonAPIforHadoopMapReduceandHDFSdatafu-Pig算法法库linkedin/linkedin/datafu总体数据规模总空间150T以上,每日新增增数据0.5T20+服务器的的Hadoop/hive计计算平台台单个任务务优化从从7个个小时到到1个个小时每日Hive查询询1200+每天处理理3000+作业任务务每天处理理10T+数据集群资源利用率Page46Hadoop集集群监控控Cacti默认Cacti模板太太少增加模板板我们的模模板磁盘IO内内存详情情单单个内核核使用CPU总和和及IOWaitJMX支支持监控控HadoopHAProxy+Hive网网络拓拓扑QueriesHAProxyHAProxyHiveHiveHiveHiveHadoopHAProxy+Hive高高可用集群群数据平台技技术路线线发展PythonHadoop最佳实践践通过TornadoNginx接受日日志通过Scribe同同步数据据使用Python编编写加载载和清洗脚脚本使用ComEtl通通过Hive做ETL参考HappyEtl,Pydoop编写PythonStreaming使用CronHub做定时时调度使用phpHiveAdmin提供供自助查询询使用Mysql存存储中间间结果通过Tornado+highcharts/gnuplot提提供报表表展现使用Python+NagiosCactiGanglia监控集集群整体构建在在Hadoop+Hive+pig基础平台之之上。参加EasyHadoop聚聚会学习习使用EasyHadoop管管理集群HadoopJAVA数数据最佳实践通过Nginx+tomcat接受日志通过Scribe,Flume-Ng同步数据使用Jython编写加载载和清洗脚脚本使用Sqoop,DataX通过Hive做ETL参考JavaMapReduceAPI编写程序使用CronHub做定时时调度使用phpHiveAdmin+hive+haproxy提供自助查查询使用Mysql/Oracle存储中间结结果通过Spring+struts+highcharts/gnuplot/JFreeChart提供报表展展现使用Python+NagiosCactiGanglia监控集集群整体构建在在Hadoop+Hive+Pig基础平台之之上。参加EasyHadoop聚聚会学习习使用ClouderaManager管理集群基于云平台台构建的集集群性能?HDCluster:80Core,180GHZ,10TB20*AliyunStandardCCloudServer4GRAM,4Core*2.26GHz500GBHadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->Hadoop用EasyHadoop安安装和管理理节点启动100个Map生成100亿数据据通过100个Map用Perl随随机生成数数据准备,1kw,1亿亿,10亿亿,100亿,100GB数数据集通过Hive创建测测试库表结结构使用phpHiveadmin+HQL查询返返回结果PhpHiveAdmin界界面查询询SELECTidFROMTablewhereidlike'%JA-sq%';
(模糊糊匹配查询询出ID带带JA-sq的车牌号)1亿数据据,并行5Map进程,144w/s扫描描速度,69s返返回10亿数据据,并行46Map进程,800w/s扫扫描速度,117s返回100亿数数据,并行行453Map进程程,5400w/s扫描速速度,3分分钟返回,基本满足足需求。SELECTid,COUNT(*)FROMTableGROUPBYid(对每个车车牌号分组组归并,并并求出现次次数)1亿数据据,并行5Map进程,2Reduce进进程,104w/s处理速速度,96s返回回10亿数据据,并行46Map进程,13Reduce进进程,230w/s处理速速度,7分分钟返回100亿数数据,并行行453Map进程程,121Reduce进程程,500w/s处处理速度度,54分分钟返回。。Hadoop预算解解析
其他他方案的成成本对比!投入成本(10TB预算)IOE(IBM+Oracle+EMC)时时代(x)kw+自建Hadoop集集群(20*4w+4w)=80w+使用云主机构建Hadoop[20*7970=15.94w/年]转变转变千万时代百万时代十几万时代代初创型公司司中型技术型型公司政府,银行行,电信年成本:1.5w/T我们还有那那些成本压压缩空间?实施周期IBM+Oracle+EMC时代(月)自建Hadoop集集群(1年-半年)[学习和培培训]阿里云Hadoop时代(星星期/月)转变转变季度/月1年/半年年月/星期个人,初创创公司中型公司政府,银行行,电信月1年/半年年中型公司政府,银行行,电信维护成本IBM+Oracle+EMC时代(规规划,实施,维护,管理,)厂商专专业人员配合[每次次按小时收收
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论