课程一:运用Hadoop分布式架构补充传统架构迎战大数据70_第1页
课程一:运用Hadoop分布式架构补充传统架构迎战大数据70_第2页
课程一:运用Hadoop分布式架构补充传统架构迎战大数据70_第3页
课程一:运用Hadoop分布式架构补充传统架构迎战大数据70_第4页
课程一:运用Hadoop分布式架构补充传统架构迎战大数据70_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运用Hadoop分布式架构补充传统架构(IOE)迎战大数据童小军2013年3月提纲Hadoop补补充传统统架构应应对大数数据Hadoop云云计算架架构解析析Hadoop应应用案案例和云云平台EasyHadoop,RedHadoop介绍绍Hadoop是是什么??RedHadoop海海量数据据处理操操作系统统存储+计计算(HDFS+MapReduce)数据仓库库(Hive))数据库((Hbase))批处理((Pig)搜索(Solr)挖掘算法法(Mahout)BSP模模型(Hama)分布式锁锁(Zoomkeeper))大规模搜搜索(Nutch)SqoopFlume处理框架架->分分布式OS->>生态系系统更多Hadoop在在云计算算的位置置私有云公有云混合云InfrastructureasaService以服务的的形式提提供虚拟拟硬件资资源,如如虚拟主主机/存存储/网网络等资资源。用户无需需购买服服务器、、网络设设备、存存储设备备,只需需通过互互联网租租赁即可可搭建自自己的应应用系统统典型应用用:AmazonWebService((AWS)PlatformasaService提供应用用服务引引擎,如如互联网网应用编编程接口口/运行行平台等等。用户基于于该应用用服务引引擎,可可以构建建该类应应用。典型应用用:GoogleAppEngine,,F,MicrosoftAzure服务平平台SoftwareasaService用户通过过Internet((如浏浏览器))来使用用软件。。用户不不必购买买软件,,只需按按需租用用软件典型应用用:GoogleDoc,,S,OracleCRMOnDemand,OfficeLiveWorkspace面向外部部用户需需求,通通过开放放网络提提供云计计算服务务IDC,,GoogleApp,Saleforce在线线CRM大型企业业按照云云计算的的架构搭搭建平台台,面向向企业内内部需求求提供云云计算服服务企业内部部数据中中心等兼顾以上上两种情情况的云云计算服服务AmazonWebServer等既既为企业业内部又又为外部部用户提提供云计计算服务务按提供的的服务类类型按云服务务的对象象IAASPAASSAASIAAS分布存储储分布计算算云计算核核心技术术有两极极3200台主机机传统架构构(IOE)和和云计算算(虚拟拟化)的的主要瓶瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列列数据移动动EMC存存储OracleIBM磁盘IO瓶颈带宽瓶颈颈计算瓶颈颈传统架构构(IOE)和和云计算算(虚拟拟化)的的主要瓶瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列列数据移动动EMC存存储OracleIBM磁盘IO瓶颈带宽瓶颈颈计算瓶颈颈cpucpucpu基于共享享存储和和高性能能计算的的架构。。IO能力力和机器器数量成成非正比比计算能力力和机器器数量成成正比传统架构构(IOE)和和云计算算(虚拟拟化)的的主要瓶瓶颈数据移动动磁盘IO瓶颈带宽瓶颈颈计算瓶颈颈服务器存储cpu移动计算算而非移移动数据据,化整整为零((128m),,分片处处理;本地化计计算,并并行IO,降低低网络通通信服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu交换机HDFSMAPReduceIO能力力和机器器数量成成正比计算能力力和机器器数量成成正比Hadoop补补充IOE存储储架构应应对大数数据Hbase使用Hadoop补充充传统架架构(IOE))HiveHadoop处处于群雄雄逐鹿的的春秋战战国时代代Apache,,Cloudera,,MapR,HotonWorks,Intel->>发行行版本IBM,,HP,,Dell,浪浪潮,曙曙光,云云创存储储->>一体机机天云系((天云趋趋势,天天云科技技),友友友,云云创存储储->>解决方方案亚马逊,,百度云云,腾讯讯云,移移动打云云->>云服务务为何Intel会大力力扶植Hadoop??服务务硬件体体系的混混战(X86->Power)(PCServer->>小型型机)提纲Hadoop补补充传统统架构应应对大数数据Hadoop云云计算架架构解析析Hadoop应应用案案例和云云平台EasyHadoop,RedHadoop介绍绍Google云云计算平平台体系系结构::2003~2006年在多多篇学术术论文公公开后端系统统:Google数据据分析平平台Google集集群管管理系统统存储+计计算(HDFS+MapReduce)数据仓库库(Hive))数据库((Hbase))批处理((Pig)BSP模模型(Hama)分布式锁锁(Zoomkeeper))Hadoop是是Google三三架马马车的基基础HadoopHDFSGoogleGFS分布式文文件系统统HDFS2的模模块NameNode计计算DataNode存存储HadoopMapReduceGoogleMapReduce面向大规规模数据据处理的的并行编编程系统统14/32JobTrackerTaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)用户程序序(JobClient)中间结果果中间结果果中间结果果输出数据据输出数据据提交作业业任务调度度任务调度度状态监控控状态监控控Map任务从DFS/HugeTable等中读数据分片Map任务在本地写中间结果Reduce任务读Map输出的中间结果Reduce任务在DFS/HugeTable写输出数据MapReduce的的目标自动并行行化:开发者者不必关关心底层层并行处处理系统统的系统统自动可靠靠性处理理:开发者者不必关关心设备备、网络络的临时时/永久久的故障障编程接口口Java语言编编程接口口、C+++语言言编程接接口(Pipes)其他语言言编程接接口(Streaming)),可以以采用Python//Ruby/Shell等用户自定定义map函函数接收一个个输入对对<Key,Value>,产生一一个中间间对<K’,,V’’>用户自定定义reduce函函数接收一个个中间K’和对应的的V’集,合并V’集,形成一个个较小的的Value集HBaseGoogleBigTable海量结构构化数据据实时存存储访问问系统基于HDFS的的主备Master、、多个RegionSvr通通过ZK构成集集群数据按照照三级索索引组织织,三次次访问可可以定位位数据数据写操操作在内内存完成成,但是是需要对对文件实实施合并并操作提纲Hadoop补补充传统统架构应应对大数数据Hadoop云云计算架架构解析析Hadoop应应用案案例和云云平台EasyHadoop,RedHadoop介绍绍Hadoop//HiveCluster@aliyunUser->phpHiveAdmin-->HiveServer-->HadoopHDCluster:80Core,180GHZ,10TB4GRAM,,4Core**2.26GHz500GB启动100个Map生生成100亿数数据通过100个Map用用Perl随随机生生成数据据准备,1kw,,1亿,,10亿亿,100亿,,100GB数数据集通过Hive创创建测试试库表结结构使用phpHiveadmin+HQL查查询返回回结果SELECTidFROMTablewhereidlike'%%JA--sq%%';((模糊糊匹配查查询出ID带带JA-sq的车车牌号))1亿数数据,并并行5Map进程,,144w/s扫描描速度,,69s返回回10亿数数据,并并行46Map进程程,800w//s扫扫描速度度,117s返返回100亿亿数据,,并行453Map进进程,5400w/s扫描描速度,,3分钟钟返回,,基本满满足需求求。SELECTid,,COUNT((*)FROMTableGROUPBYid((对每个个车牌号号分组归归并,并并求出现现次数))1亿数数据,并并行5Map进程,,2Reduce进进程,104w/s处处理速速度,96s返返回10亿数数据,并并行46Map进程,,13Reduce进进程,230w/s处处理速速度,7分钟返返回100亿亿数据,,并行453Map进进程,121Reduce进进程,500w/s处处理速速度,54分钟钟返回。。Hadoop预预算,其其他方案案的成本本对比!!投入成本本(10TB预算))IOE((IBM+Oracle+EMC))时代((x))kw++自建Hadoop集群群(20*4w+4w)==80w+使用云主主机构建建Hadoop[20*7970=15.94w/年年]转变转变千万时代代百万时代代十几万时时代初创型公公司中型技术术型公司司政府,银银行,电电信年成本::1.5w/T我们还有有那些成成本压缩缩空间??实施周期期IBM++Oracle+EMC时时代(月月)自建Hadoop集群群(1年年-半年年)[学学习和培培训]阿里云Hadoop时时代(星星期/月月)转变转变季度/月月1年/半半年月/星期期个人,初初创公司司中型公司司政府,银银行,电电信月1年/半半年中型公司司政府,银银行,电电信维护成本本IBM++Oracle+EMC时时代((规划,,实施,,维护,,管理,,)厂厂商专业业人员配配合[每每次按小小时收费费]自建Hadoop集群群(学习习,经验验,人才才培育))Hadoop云云时代代(统统一专人人管理和和维护))转变转变统一维护护个人,初初创公司司厂商专业业支持自己培养养中型公司司政府,银银行,电电信使用开放放的技术术还是封封闭的技技术?Hadoop应应用案案例和云云平台UserCase1(智智慧交通通)用户:最最大城市市,交通通领域(Citytraffic)场景:车车牌记录录[CarLicencePlate]],100亿亿[10Billion]//年需求:小小时级别别->优优化到分分钟级[Minute]->未来来优化到到秒级[Seconds]查查询IntelligentTransportationSmarterCities场景:车车辆异异常快速速识别VehicleAbnormal交通安全全问题培训目录录移动,联联通公司司大数据据平台云计算案案例分析析—上海海公司基基于云计计算平台台的移动动用户行行为特征征分析移动用户户行为特特征分析析模型渠道偏好好分析客户细分分新业务关关联时间性能能:数据处处理性能能增加约约30倍倍,数据据挖掘性性能增加加约9倍倍,整个个应用性性能提高高约3--7倍成本优势势:成本降低低6倍,,运维耗耗电相当当,占用用机房面面积更少少,更高高的处理理能力正确度::符合商业业标准云计算案案例分析析—江苏苏公司基基于云计计算平台台的信令令监测系系统基于云计计算平台台的信令令监测系系统实验验基于BC-PDM的ETL进进行API级别别的二次次开发,,形成信信令信息息分析系系统功能包括括SMS信信令信息息分析SP提交交短信过过程分析析SP提交交短信成成功率分分析GPRS的GN接口信信令分析析GN接口口通信过过程分析析GN接口口信令过过程分析析正确性100%%,数据据查询、、统计性性能提高高7-15倍,,成本降降低4倍倍数据范围围:一个个月数据据查询案例例查询:返返回以上上功能的的某个时时段结果果组合查询询:满足足4个复复杂条件件的查询询实验条件件单位秒联通电信信详单查查询系统统业务问题题提供所有有手机用用户的详详单在线线查询系系统提供七大大种类信信息套餐及固固定费、、通话、、短/彩彩信、上上网、增增值业务务、代收收费用业务扣费费、其他他扣费高峰时期期提供千千万并发发用户在在线查询询请求已有方案案使用两台台IBMP5570小型型机作为为数据库库服务器器使用某关关系数据据库只存放3个月数数据最多提供供100查询//秒查询询需要限制制每个用用户每天天查询次次数来保保证系统统稳定服服务联通电信信详单查查询系统统(续))新方案数数据规模模可容纳360TB原始始数据存放半年年七大种种类详单单数据平均每天天2TB新增数数据导入入新方案构建80台双路路IA服服务器集集群,安安装英特尔Hadoop发发行版构构建分布布式数据据库集群群共提供400TB详单单数据存存储容量量集群提供供每秒80万条条详单数数据插入入集群可以以保证每每秒2万万条月详详单查询请求,,满足在在线用户户需要成功案例例二-联联通电信信详单查查询系统统(续))阿里淘宝宝的案例例每日新增增数据20T累积数据据14P3200+服务器的的云计算算平台每天处理理100,,000+作业任务务,包括括100++新增作业业任务每天处理理1P+数据,包包括0.5%%新增数据据总体数据据规模阿里金融融通过大大数据整整合掘金金!阿里金融融的信用用评估系系统会自自动分析析小微企企业的数数据,例例如企业业通过支支付宝,,淘宝进进行的支支付数据据,最终终算出信信用评估估和放贷贷额度。。截止2011年年底,阿阿里金融融对近30万家家小微企企业进行信用用评估。。累计投投放96800家,投放贷贷款154亿亿,坏账率率为交易易额的0.76%。阿里金融融的实时时业务墙阿里金融融的数据据模型任任务(局局部)每个模型型任务都都是面向向海量数数据的大大规模运运算任务务。天猫/淘淘宝双双十一191亿亿背后的开开源技术术?@dbatools::双十十一一天天时间,,支付宝核核心数据据库集群群处理了了41亿亿个事务务,执行285亿次次SQL,访问1931亿亿次内存存数据块块,13亿个个物理读读,生成15TB日日志。数据应用用开发平平台———数据工工场DataIntegrationDBsyncTTHiveHadoopMapReduceHadoopHDFSDatax报表需求求(淘数数据)Hbase即席查询询(adhoc)数据分析析数据挖掘掘数据产品品淘宝数据据平台——产品架架构实时计算算

底层平台台数据开发发平台数据应用用成功案例例四-暴暴风影音音从最早3个试验验节点,,到8个个线上节节点,到到现在的的30个个节点。。每天处理理日志1.2T,20亿行。。存储设设计容量量200TB对外提供供产品品分析,,广告分分析,用用户分析析服务务。每天处理理任务上上千个jobs数据系统统的进化化-一代代数据系统统的进化化-二代代数据系统统的进化化-三代代Hadoop技技术其其他应用用领域电信医疗交通公安航空电力金融搜索社交游戏视频民生核心大数据时时代需需要跨越越的巨大大障碍大数据((TB))大需求大集群((3台))原有系统统的改造造和迁移移运维方式式转变编程方式式转变平台的数数据迁移移人才的匮匮乏工具的缺缺乏厂商版本数据安全全商业模式式和模型型的转变变大量资金金的投入入无法的看看到产出出大数据思思维方式式和模式式转变海量用户户大规模批批量服务务(服务务1..0)决策逻辑辑数据库用户1逻辑1逻辑N数据集编辑人员员用户N编辑逻辑信息生产产者信息消费费者Mysql/Oracle大数据仓仓库海量用户户大规模个个性化服服务(服服务2.0))决策逻辑辑大数据库库用户1逻辑1服务数据据1用户N逻辑N服务数据据N原始数据据N挖掘逻辑辑NHiveHbaseStormHadoop原始数据据1原始数据据2信息生生产者//消费者者规则制定定上帝之手手本质:智智能组织织->智智能群体体实时由被动的的IT支支撑向主主动的以以数据为为核心的的IT服服务转型型深度拥抱抱互联网网提纲Hadoop补补充传统统架构应应对大数数据Hadoop云云计算架架构解析析Hadoop应应用案案例和云云平台EasyHadoop,RedHadoop介绍绍52研发难实施难管理难开源Hadoop软件需要更友好的用户接口和商业支持。市场需求求开源Hadoop之路路那些些难点??为什么推推出EasyHadoop版版产品开源hadoop的开开发困难难之处::1.难难安装,,部署,,配置2.难管管理,监监控3.难学学习,算算法开发发4.应用用少,难难使用5.找人人才难6.托管管难,管管理网络络难。EasyHadoop立志将Hadoop的[[易用性性,可用用性]做做到极极致!Hadoop类类似DOS、Linux,命命令行操操作界面化提提升Hadoop管理理1.HAProxy用作作Hive负载载均衡2.编编写Daemon程序序用作进进程监控控,防止止进程挂挂起3.编编写任务务监控脚脚本,失失败任务务自动重重试4.编编写集群群快速安安装部署署软件EasyHadoop5.编编写Hive查查询界面面phpHiveAdmin,做开开放数据据平台6.监监控工具具Cacti,,Ganglia,Nagios一一个都不不能少。。监控越详详细越好好。56Easyhadoop,RedHadoop产产品和社社区ChinaBigData社社区Easyhadoop社区RedHadoop培训讲座开源软件件开源社区区技术出版版物聚会沙龙龙RedHadoop一一体机RedHadoopCloudRedHadoop发发行版聚合和培培养客客户,用用户,合合作伙伴伴(品牌++渠道))打造高价价值产品品(产品))举办大会会咨询Hadoop核核心Apps管理理器Apps应用用程序理念:大大数据驱驱动智慧慧地球,,智慧城城市57行业解决决方案((电信,,医疗,,交通,,互联网网)Apps应用用层(AppsStore)phpHiveAdmin,,Rhadoop,EasyPig,CronHub,,ETL,ReportRedHadoop发行版方方案AppsManager管管理层层(用户户/权限限)核心算法法图像,视视频,文文本,挖挖掘Hadoop//Hbase核心存储和计计算虚拟化系系统管理理/NOVA海量数据据分布式式文件系系统HDFSRedHadoopBigDataCloud技技术架架构搜索引擎擎开源的Linux/Windows操作系系统基于Xen的虚虚拟机分布式并并发控制制/Zoomkeeper结构化海海量数据据管理Hbase并行程序序MapReduce数据挖掘掘工具库库OS-Mahout//pig搜索引擎擎核OS-SolrCloud云计算应应用层各类新型型IT支支撑系统统搜索引擎擎邮件件系统等等互联联网应用用云计算服服务层数据挖掘掘:挖掘掘应用的的算法工工具数据仓库库:提供供海量对对象存储储能力搜索引擎擎:提提供基本本的搜索索引擎能能力云计算平平台层MapReduce2+BSP:并并行程序序框架Hbase:结结构化数数据存储储HDFS:海量量数据的的分布式式文件系系统CloudFoundry:多语语言应用用部署平平台openstrack:Swift:海量量对象存存储系统统openstrack:NOVA::云计计算平台台系统管管理虚拟化资资源层构建在海海量同质质化的PC与不不可靠硬硬盘上使用开源源的openstrack++Xen提供计计算资源源的虚拟拟化运行于开开源的CentOSLinux系系统之上上对象存储储系统Swift并行程序序BSD++Hama+MPI数据仓库库/ETL/ReportOS-Hive/MRQLCloudFoundry/应用用部署广告引擎擎存储,搜搜索,语语音APIIOS,,Android本本地APP桌面,移移动浏览览器RedHadoop国国产安安全Hadoop发行行版本1.优先先解决数数据和平平台安全全问题。。3/1//2020RedHadoop存存储计算算一体机机交换机DataNode+JobTrackerHiveServerRedHadoop核核心节点点NameNode+JobTrackerApps管理理器Apps应用用程序DataNode+JobTrackerDataNode+JobTrackerDataNode+JobTracker产品特性性:集成RedHadoop正式式发行版版集成Habase数数据库发发行版集成phpHiveAdmin,,EasyHbase工具集集具备最高高上百T存储容容量DataNode+JobTracker4U45个磁磁盘180T存存储==5w实现高性性价比集集群命名节点点(NameNode)高密度计计算高密度存存储DataNode10TDataNode10TDataNode10TDataNode10TDataNode180TDataNode180T/data//back/集群内迁迁移3/1//2020Easy(Red)Hadoop社社区产产品线Hive平台化化EasyHaoop版版和Hadoop开源源版的区区别EasyHadoopappsManager[Hadoopapp安安装管理理平台,,解决Hadoopapps管管理问题题]集成软件件有:-EasyHadoop发发行版[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论