




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
运用Hadoop分布式架构补充传统架构(IOE)迎战大数据童小军2013年3月提纲Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop,RedHadoop介绍Hadoop是什么?RedHadoop海量数据处理操作系统存储+计算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)搜索(Solr)挖掘算法(Mahout)BSP模型(Hama)分布式锁(Zoomkeeper)大规模搜索(Nutch)SqoopFlume处理框架->分布式OS->生态系统更多Hadoop在云计算的位置私有云公有云混合云Infrastructureasa
Service以服务的形式提供虚拟硬件资源,如虚拟主机/存储/网络等资源。用户无需购买服务器、网络设备、存储设备,只需通过互联网租赁即可搭建自己的应用系统典型应用:AmazonWebService(AWS)PlatformasaService提供应用服务引擎,如互联网应用编程接口/运行平台等。用户基于该应用服务引擎,可以构建该类应用。典型应用:GoogleAppEngine,F,MicrosoftAzure服务平台Softwareasa
Service用户通过Internet(如浏览器)来使用软件。用户不必购买软件,只需按需租用软件典型应用:GoogleDoc,S,OracleCRMOnDemand,OfficeLiveWorkspace面向外部用户需求,通过开放网络提供云计算服务IDC,GoogleApp,Saleforce在线CRM大型企业按照云计算的架构搭建平台,面向企业内部需求提供云计算服务企业内部数据中心等兼顾以上两种情况的云计算服务AmazonWebServer等既为企业内部又为外部用户提供云计算服务按提供的服务类型按云服务的对象IAASPAASSAASIAAS分布存储分布计算云计算核心技术有两极3200台主机传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈cpucpucpu基于共享存储和高性能计算的架构。IO能力和机器数量成非正比计算能力和机器数量成正比传统架构(IOE)和云计算(虚拟化)的主要瓶颈数据移动磁盘IO瓶颈带宽瓶颈计算瓶颈服务器存储cpu移动计算而非移动数据,化整为零(128m),分片处理;本地化计算,并行IO,降低网络通信服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu交换机HDFSMAPReduceIO能力和机器数量成正比计算能力和机器数量成正比Hadoop补充IOE存储架构应对大数据Hbase使用Hadoop补充传统架构(IOE)HiveHadoop处于群雄逐鹿的春秋战国时代Apache,Cloudera,MapR,HotonWorks,Intel->发行版本IBM,HP,Dell,浪潮,曙光,云创存储->一体机天云系(天云趋势,天云科技),友友,云创存储->解决方案亚马逊,百度云,腾讯云,移动打云->云服务为何Intel会大力扶植Hadoop?服务硬件体系的混战(X86->Power)(PCServer->小型机)提纲Hadoop补充传统架架构应对大数数据Hadoop云计算架构构解析Hadoop应用案例例和云平台EasyHadoop,RedHadoop介介绍Google云计算平台台体系结构::2003~2006年年在多篇学术术论文公开后端系统:Google数据分析平平台Google集群管理理系统存储+计算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)BSP模型(Hama)分布式锁(Zoomkeeper)Hadoop是Google三三架马车的的基础HadoopHDFSGoogleGFS
分布式式文件系统HDFS2的的模块NameNode计计算DataNode存储储HadoopMapReduceGoogleMapReduce面向大规模数数据处理的并并行编程系统统14/32JobTrackerTaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)用户程序(JobClient)中间结果中间结果中间结果输出数据输出数据提交作业任务调度任务调度状态监控状态监控Map任务从DFS/HugeTable等中读数据分片Map任务在本地写中间结果Reduce任务读Map输出的中间结果Reduce任务在DFS/HugeTable写输出数据MapReduce的目目标自动并行化:开发者不必必关心底层并并行处理系统统的系统自动可靠性处处理:开发者不必必关心设备、、网络的临时时/永久的故故障编程接口Java语言言编程接口、、C++语言言编程接口(Pipes)其他语言编程程接口(Streaming),可可以采用Python/Ruby/Shell等用户自定义map函数接收一个输入入对<Key,Value>,产生一个中中间对<K’,V’>用户自定义reduce函数接收一个中间间K’和对应的V’集,
合并V’集,
形成一个个较小的Value集集HBaseGoogleBigTable
海量结结构化数据实实时存储访问问系统基于HDFS的主备Master、、多个RegionSvr通过ZK构成集群数据按照三级级索引组织,,三次访问可可以定位数据据数据写操作在在内存完成,,但是需要对对文件实施合合并操作提纲Hadoop补充传统架架构应对大数数据Hadoop云计算架构构解析Hadoop应用案例例和云平台EasyHadoop,RedHadoop介介绍Hadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->HadoopHDCluster:80Core,180GHZ,10TB4GRAM,4Core*2.26GHz500GB启动100个个Map生成成100亿数数据通过100个个Map用Perl随随机生成数数据准备,1kw,1亿,10亿,100亿,100GB数据据集通过Hive创建测试库库表结构使用phpHiveadmin+HQL查询返返回结果SELECTidFROMTablewhereidlike'%JA-sq%';(模糊匹配配查询出ID带JA-sq的的车牌号)1亿数据,并行5Map进程,144w/s扫描速速度,69s返回10亿数据,并行46Map进程程,800w/s扫描描速度,117s返回回100亿数据据,并行453Map进进程,5400w/s扫扫描速度,3分钟返回回,基本满足足需求。SELECTid,COUNT(*)FROMTableGROUPBYid
(对每个个车牌号分组组归并,并求求出现次数)1亿数据,并行5Map进程,2Reduce进程程,104w/s处理理速度,96s返回10亿数据,并行46Map进程,13Reduce进程程,230w/s处理理速度,7分分钟返回100亿数据据,并行453Map进进程,121Reduce进程,500w/s处理速度度,54分钟钟返回。Hadoop预算,其他他方案的成本本对比!投入成本(10TB预预算)IOE(IBM+Oracle+EMC)时代代(x)kw+自建Hadoop集群(20*4w+4w)=80w+使用云主机构构建Hadoop[20*7970=15.94w/年年]转变转变千万时代百万时代十几万时代初创型公司中型技术型公公司政府,银行,电信年成本:1.5w/T我们还有那些些成本压缩空空间?实施周期IBM+Oracle+EMC时时代(月)自建Hadoop集群(1年-半年年)[学习和和培训]阿里云Hadoop时代代(星期/月月)转变转变季度/月1年/半年月/星期个人,初创公公司中型公司政府,银行,电信月1年/半年中型公司政府,银行,电信维护成本IBM+Oracle+EMC时时代(规划划,实施,维维护,管理,)厂商专专业人员配合合[每次按小小时收费]自建Hadoop集群(学习,经验验,人才培育育)Hadoop云时代(统一专人人管理和维护护)转变转变统一维护个人,初创公公司厂商专业支持持自己培养中型公司政府,银行,电信使用开放的技技术还是封闭闭的技术?Hadoop应用案例例和云平台UserCase1(智慧交通通)用户:最大城城市,交通领领域(Citytraffic)场景:车牌记记录[CarLicencePlate],100亿[10Billion]/年需求:小时级级别->优化化到分钟级[Minute]->未来优化化到秒级[Seconds]查询询IntelligentTransportationSmarterCities场景:车辆辆异常快速识识别VehicleAbnormal交通安全问题题培训目录移动,联通公公司大数据平平台云计算案例分分析—上海公公司基于云计计算平台的移移动用户行为为特征分析移动用户行为为特征分析模模型渠道偏好分析析客户细分新业务关联时间性能:数据处理性性能增加约30倍,数据据挖掘性能增增加约9倍,整个应用性性能提高约3-7倍成本本优优势势::成本本降降低低6倍倍,,运运维维耗耗电电相相当当,,占占用用机机房房面面积积更更少少,,更更高高的的处处理理能能力力正确确度度::符合合商商业业标标准准云计计算算案案例例分分析析——江江苏苏公公司司基基于于云云计计算算平平台台的的信信令令监监测测系系统统基于于云云计计算算平平台台的的信信令令监监测测系系统统实实验验基于于BC-PDM的的ETL进进行行API级级别别的的二二次次开开发发,,形形成成信信令令信信息息分分析析系系统统功能能包包括括SMS信信令令信信息息分分析析SP提提交交短短信信过过程程分分析析SP提提交交短短信信成成功功率率分分析析GPRS的的GN接接口口信信令令分分析析GN接接口口通通信信过过程程分分析析GN接接口口信信令令过过程程分分析析正确确性性100%,,数数据据查查询询、、统统计计性性能能提提高高7-15倍倍,,成成本本降降低低4倍倍数据据范范围围::一一个个月月数数据据查询询案案例例查询询::返返回回以以上上功功能能的的某某个个时时段段结结果果组合合查查询询::满满足足4个个复复杂杂条条件件的的查查询询实验验条条件件单位位秒秒联通通电电信信详详单单查查询询系系统统业务务问问题题提供供所所有有手手机机用用户户的的详详单单在在线线查查询询系系统统提供供七七大大种种类类信信息息套餐餐及及固固定定费费、、通通话话、、短短/彩彩信信、、上上网网、、增增值值业业务务、、代代收收费费用用业务务扣扣费费、、其其他他扣扣费费高峰峰时时期期提提供供千千万万并并发发用用户户在在线线查查询询请请求求已有有方方案案使用用两两台台IBMP5570小小型型机机作作为为数数据据库库服服务务器器使用用某某关关系系数数据据库库只存存放放3个个月月数数据据最多多提提供供100查查询询/秒秒查查询询需要要限限制制每每个个用用户户每每天天查查询询次次数数来来保保证证系系统统稳稳定定服服务务联通通电电信信详详单单查查询询系系统统(续续)新方方案案数数据据规规模模可容容纳纳360TB原原始始数数据据存放放半半年年七七大大种种类类详详单单数数据据平均均每每天天2TB新新增增数数据据导导入入新方方案案构建建80台台双双路路IA服服务务器器集集群群,,安安装装英特特尔尔Hadoop发发行行版版构构建建分分布布式式数数据据库库集集群群共提提供供400TB详详单单数数据据存存储储容容量量集群群提提供供每每秒秒80万万条条详详单单数数据据插插入入集群群可可以以保保证证每每秒秒2万万条条月月详详单单查查询请请求求,,满满足足在在线线用用户户需需要要成功功案案例例二二-联联通通电电信信详详单单查查询询系系统统(续续)阿里里淘淘宝宝的的案案例例每日日新新增增数数据据20T累积数数据14P3200+服务器器的云云计算算平台台每天处处理100,000+作业任任务,,包括括100+新增作作业任任务每天处处理1P+数据,,包括括0.5%新增数数据总体数数据规规模阿里金金融通通过大大数据据整合合掘金金!阿里金金融的的信用用评估估系统统会自自动分分析小小微企企业的的数据据,例例如企企业通通过支支付宝宝,淘淘宝进进行的的支付付数据据,最最终算算出信信用评评估和和放贷贷额度度。截止2011年年底,,阿里里金融融对近近30万万家小小微企企业进行信信用评评估。。累计计投放放96800家,投放放贷款款154亿,坏账账率为为交易易额的的0.76%。阿里金金融的的实时时业务务墙阿里金金融的的数据据模型型任务务(局局部))每个模模型任任务都都是面面向海海量数数据的的大规规模运运算任任务。。天猫/淘宝宝双双十一一191亿背后的的开源源技术术?@dbatools:双双十十一一一天时时间,,支付宝宝核心心数据据库集集群处处理了了41亿个个事务务,执行285亿次次SQL,,访问1931亿亿次内内存数数据块块,13亿亿个物物理读读,生成15TB日日志。数据应应用开开发平平台———数数据工工场DataIntegrationDBsyncTTHiveHadoopMapReduceHadoopHDFSDatax报表需需求(淘数数据)Hbase即席查查询(adhoc)数据分分析数据挖挖掘数据产产品淘宝数数据平平台——产品品架构构实时计计算底层平平台数据开开发平平台数据应应用成功案案例四四-暴暴风影影音从最早早3个个试验验节点点,到到8个个线上上节点点,到到现在在的30个个节点点。每天处处理日日志1.2T,20亿行行。存存储设设计容容量200TB对外提提供产产品品分析析,广广告分分析,用户户分析析服服务。。每天处处理任任务上上千个个jobs数据系系统的的进化化-一一代数据系系统的的进化化-二二代数据系系统的的进化化-三三代Hadoop技技术其其他他应用用领域域电信医疗交通公安航空电力金融搜索社交游戏视频民生核心大数据据时代代需需要跨跨越的的巨大大障碍碍大数据据(TB)大需求求大集群群(3台)原有系系统的的改造造和迁迁移运维方方式转转变编程方方式转转变平台的的数据据迁移移人才的的匮乏乏工具的的缺乏乏厂商版本数据安安全商业模模式和和模型型的转转变大量资资金的的投入入无法的的看到到产出出大数据据思维维方式式和模模式转转变海量用用户大规模模批量量服务务(服服务1.0)决策逻辑数据库用户1逻辑1逻辑N数据集编辑人员用户N编辑逻辑信息生产者者信息消费者者Mysql/Oracle大数据仓库库海量用户大规模个性性化服务(服务2.0)决策逻辑大数据库用户1逻辑1服务数据1用户N逻辑N服务数据N原始数据N挖掘逻辑NHiveHbaseStormHadoop原始数据1原始数据2信息生产产者/消费费者规则制定上帝之手本质:智能能组织->智能群体体实时由被动的IT支撑向向主动的以以数据为核核心的IT服务转型型深度拥抱互互联网提纲Hadoop补充传传统架构应应对大数据据Hadoop云计算算架构解析析Hadoop应应用案案例和云云平台EasyHadoop,RedHadoop介绍绍52研发难实施难管理难开源Hadoop软件需要更友好的用户接口和商业支持。市场需求求开源Hadoop之路路那些些难点??为什么推推出EasyHadoop版版产品开源hadoop的开开发困难难之处:1.难难安装,部署,配置2.难管管理,监监控3.难学学习,算算法开发发4.应用用少,难难使用5.找人才难难6.托管难,管理网络难难。EasyHadoop立志将Hadoop的
[易易用性,可用用性]
做到到极致!Hadoop类似DOS、Linux,命令行行操作界面化提升Hadoop管理1.HAProxy用用作Hive负载均衡衡2.编写Daemon程序用作进进程监控,防防止进程挂起起3.编写任任务监控脚本本,失败任务务自动重试4.编写集集群快速安装装部署软件EasyHadoop5.编写Hive查询询界面phpHiveAdmin,,做开放数据据平台6.监控工工具Cacti,Ganglia,,Nagios一个都不不能少。监控越详细越越好。56Easyhadoop,RedHadoop产产品品和社社区ChinaBigData社社区Easyhadoop社社区RedHadoop培训讲座开源软软件开源社社区技术出出版物物聚会沙沙龙RedHadoop一体体机RedHadoopCloudRedHadoop发行行版聚合和和培养养客客户,用户户,合合作伙伙伴(品牌牌+渠渠道)打造高高价值值产品品(产品品)举办大大会咨询Hadoop核核心心Apps管管理理器Apps应应用用程序序理念:大数数据驱驱动智智慧地地球,智慧慧城市市57行业解解决方方案(电信信,医医疗,交通通,互互联网网)Apps应应用用层(AppsStore)phpHiveAdmin,Rhadoop,EasyPig,CronHub,ETL,ReportRedHadoop发行行版版方方案案AppsManager管管理理层层(用用户户/权权限限)核心心算算法法图像像,视视频频,文文本本,挖挖掘掘Hadoop/Hbase核心心存储储和和计计算算虚拟拟化化系系统统管管理理/NOVA海量数据据分布式式文件系系统HDFSRedHadoopBigDataCloud技技术架架构搜索引擎擎开源的Linux/Windows操作系系统基基于Xen的虚虚拟机分布式并并发控制制/Zoomkeeper结构化海海量数据据管理Hbase并行程序序MapReduce数据挖掘掘工具库库OS-Mahout/pig搜索引擎擎核OS-SolrCloud云计算应应用层各类新型型IT支支撑系统统搜索引擎擎邮件件系统等等互联联网应用用云计算服服务层数据挖掘掘:挖掘掘应用的的算法工工具数据仓库库:提供供海量对对象存储储能力搜索引擎擎:提提供基本本的搜索索引擎能能力云计算平平台层MapReduce2+BSP:并并行程序序框架Hbase:结结构化数数据存储储HDFS:海量量数据的的分布式式文件系系统CloudFoundry:多语语言应用用部署平平台openstrack:Swift:海量量对象存存储系统统openstrack:NOVA:云计计算平台台系统管管理虚拟化资资源层构建在海海量同质质化的PC与不不可靠硬硬盘上使用开源源的openstrack+Xen提供计计算资源源的虚拟拟化运行于开开源的CentOSLinux系系统之上上对象存储储系统Swift并行程序序BSD+Hama+MPI数据仓库库/ETL/ReportOS-Hive/MRQLCloudFoundry/应用用部署广告引擎擎存储,搜搜索,语语音APIIOS,Android本本地APP桌面,移移动浏览览器RedHadoop国国产安安全Hadoop发行行版本1.优先先解决数数据和平平台安全全问题。。12/31/2022RedHadoop存存储计计算一一体机机交换机机DataNode+JobTrackerHiveServerRedHadoop核心心节点点NameNode+JobTrackerApps管管理理器Apps应应用用程序序DataNode+JobTrackerDataNode+JobTrackerDataNode+JobTracker产品特特性:集成RedHadoop正式式发行行版集成Habase数数据据库发发行版版集成phpHiveAdmin,EasyHbase工具具集具备最最高上上百T存储储容量量DataNode+JobTracker4U45个磁磁盘180T存存储储=5w实现高高性价价比集集群命名节节点(NameNode)高密度度计算算高密度度存储储DataNode10TDataNode10TDataNode10TDataNode10TDataNode180TDataNode180T/data//back/集群内内迁移移12/31/2022Easy(Red)Hadoop社社区产产品线线Hive平平台化化EasyHaoop版和和Hadoop开源源版的的区别别EasyHadoopappsManage
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国百年红行业深度研究分析报告
- 企业员工创新能力提升计划
- 2025届高考高三知识点梳理与复习计划
- 2024年全球及中国药用级清洗机行业头部企业市场占有率及排名调研报告
- 2024年全球及中国半潜式钻探平台行业头部企业市场占有率及排名调研报告
- 2024年全球及中国真空吸力笔行业头部企业市场占有率及排名调研报告
- 部编版六年级语文上册技能提升计划
- 2024-2030全球数字手持式高斯计行业调研及趋势分析报告
- 2025年汔车方向节套圈项目投资可行性研究分析报告
- 2025-2030年中国车船行驶记录系统行业深度研究分析报告
- 军人抚恤优待条例培训2024
- 16J914-1 公用建筑卫生间
- 人教版高中美术 《传承与创新-中国近现代美术》课件
- 年处理量为2万吨丙烯-丙烷分离过程精馏塔设计
- 兵团精神讲座-课件
- 生命质量测定表(FACT-G)
- 中医基础理论·绪论课件
- 新湘教(湖南美术)版小学美术六年级下册全册PPT课件(精心整理汇编)
- 小班语言课《水果歌》PPT
- Opera、绿云、西软、中软酒店管理系统对比分析
- 超市经营业务管理规范标准
评论
0/150
提交评论