版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
运用Hadoop分布式架构补充传统架构(IOE)迎战大数据童小军2013年3月提纲Hadoop补充传统架构应对大数据Hadoop云计算架构解析Hadoop应用案例和云平台EasyHadoop,RedHadoop介绍Hadoop是什么?RedHadoop海量数据处理操作系统存储+计算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)搜索(Solr)挖掘算法(Mahout)BSP模型(Hama)分布式锁(Zoomkeeper)大规模搜索(Nutch)SqoopFlume处理框架->分布式OS->生态系统更多Hadoop在云计算的位置私有云公有云混合云Infrastructureasa
Service以服务的形式提供虚拟硬件资源,如虚拟主机/存储/网络等资源。用户无需购买服务器、网络设备、存储设备,只需通过互联网租赁即可搭建自己的应用系统典型应用:AmazonWebService(AWS)PlatformasaService提供应用服务引擎,如互联网应用编程接口/运行平台等。用户基于该应用服务引擎,可以构建该类应用。典型应用:GoogleAppEngine,F,MicrosoftAzure服务平台Softwareasa
Service用户通过Internet(如浏览器)来使用软件。用户不必购买软件,只需按需租用软件典型应用:GoogleDoc,S,OracleCRMOnDemand,OfficeLiveWorkspace面向外部用户需求,通过开放网络提供云计算服务IDC,GoogleApp,Saleforce在线CRM大型企业按照云计算的架构搭建平台,面向企业内部需求提供云计算服务企业内部数据中心等兼顾以上两种情况的云计算服务AmazonWebServer等既为企业内部又为外部用户提供云计算服务按提供的服务类型按云服务的对象IAASPAASSAASIAAS分布存储分布计算云计算核心技术有两极3200台主机传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈传统架构(IOE)和云计算(虚拟化)的主要瓶颈服务器服务器服务器VPSVPSVPSVPSVPSVPS存储阵列数据移动EMC存储OracleIBM磁盘IO瓶颈带宽瓶颈计算瓶颈cpucpucpu基于共享存储和高性能计算的架构。IO能力和机器数量成非正比计算能力和机器数量成正比传统架构(IOE)和云计算(虚拟化)的主要瓶颈数据移动磁盘IO瓶颈带宽瓶颈计算瓶颈服务器存储cpu移动计算而非移动数据,化整为零(128m),分片处理;本地化计算,并行IO,降低网络通信服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu服务器存储cpu交换机HDFSMAPReduceIO能力和机器数量成正比计算能力和机器数量成正比Hadoop补充IOE存储架构应对大数据Hbase使用Hadoop补充传统架构(IOE)HiveHadoop处于群雄逐鹿的春秋战国时代Apache,Cloudera,MapR,HotonWorks,Intel->发行版本IBM,HP,Dell,浪潮,曙光,云创存储->一体机天云系(天云趋势,天云科技),友友,云创存储->解决方案亚马逊,百度云,腾讯云,移动打云->云服务为何Intel会大力扶植Hadoop?服务硬件体系的混战(X86->Power)(PCServer->小型机)提纲Hadoop补充传传统架构应应对大数据据Hadoop云计算算架构解析析Hadoop应用用案例和云云平台EasyHadoop,RedHadoop介介绍Google云计算算平台体系系结构:2003~2006年在多篇篇学术论文文公开后端系统::Google数据据分析平台台Google集群群管理系统统存储+计算算(HDFS+MapReduce)数据仓库(Hive)数据库(Hbase)批处理(Pig)BSP模型型(Hama)分布式锁(Zoomkeeper)Hadoop是Google三三架马车的的基础HadoopHDFSGoogleGFS分分布式文文件系统HDFS2的模块NameNode计计算DataNode存存储HadoopMapReduceGoogleMapReduce面向大规模模数据处理理的并行编编程系统14/32JobTrackerTaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)用户程序(JobClient)中间结果中间结果中间结果输出数据输出数据提交作业任务调度任务调度状态监控状态监控Map任务从DFS/HugeTable等中读数据分片Map任务在本地写中间结果Reduce任务读Map输出的中间结果Reduce任务在DFS/HugeTable写输出数据MapReduce的目标自动并行化化:开发者不不必关心底底层并行处处理系统的的系统自动可靠性性处理:开发者不不必关心设设备、网络络的临时/永久的故故障编程接口Java语语言编程接接口、C++语言编编程接口(Pipes)其他语言编编程接口(Streaming),可可以采用Python/Ruby/Shell等用户自定义义map函数数接收一个输输入对<Key,Value>,产生一个个中间对<K’,V’>用户自定义义reduce函数接收一个中中间K’和对应的V’集,
合并V’集,
形成一一个较小的的Value集HBaseGoogleBigTable
海量结结构化数据据实时存储储访问系统统基于HDFS的主备备Master、多多个RegionSvr通过过ZK构成成集群数据按照三三级索引组组织,三次次访问可以以定位数据据数据写操作作在内存完完成,但是是需要对文文件实施合合并操作提纲Hadoop补充传传统架构应应对大数据据Hadoop云计算算架构解析析Hadoop应用用案例和云云平台EasyHadoop,RedHadoop介介绍Hadoop/HiveCluster@aliyunUser->phpHiveAdmin->HiveServer->HadoopHDCluster:80Core,180GHZ,10TB4GRAM,4Core*2.26GHz500GB启动100个Map生成100亿数据据通过100个Map用Perl随随机生成数数据准备,1kw,1亿亿,10亿亿,100亿,100GB数数据集通过Hive创建测测试库表结结构使用phpHiveadmin+HQL查询返返回结果SELECTidFROMTablewhereidlike'%JA-sq%';
(模糊糊匹配查询询出ID带带JA-sq的的车牌号号)1亿数据据,并行5Map进程,144w/s扫描描速度,69s返返回10亿数据据,并行46Map进程,800w/s扫扫描速度,117s返回100亿数数据,并行行453Map进程程,5400w/s扫描速速度,3分分钟返回,基本满足足需求。SELECTid,COUNT(*)FROMTableGROUPBYid
(对每每个车牌号号分组归并并,并求出出现次数)1亿数据据,并行5Map进程,2Reduce进进程,104w/s处理速速度,96s返回回10亿数据据,并行46Map进程,13Reduce进进程,230w/s处理速速度,7分分钟返回100亿数数据,并行行453Map进程程,121Reduce进程程,500w/s处处理速度度,54分分钟返回。。Hadoop预算,其他方案案的成本对对比!投入成本(10TB预算)IOE(IBM+Oracle+EMC)时代代(x)kw+自建Hadoop集集群(20*4w+4w)=80w+使用云主机机构建Hadoop[20*7970=15.94w/年]转变转变千万时代百万时代十几万时代代初创型公司司中型技术型型公司政府,银行行,电信年成本:1.5w/T我们还有那那些成本压压缩空间?实施周期IBM+Oracle+EMC时代代(月)自建Hadoop集集群(1年年-半年)[学习和和培训]阿里云Hadoop时代(星星期/月)转变转变季度/月1年/半年年月/星期个人,初创创公司中型公司政府,银行行,电信月1年/半年年中型公司政府,银行行,电信维护成本IBM+Oracle+EMC时代代(规划划,实施,维护,管管理,)厂厂商专业业人员配合合[每次按按小时收费费]自建Hadoop集集群(学习习,经验,人才培育育)Hadoop云时时代(统统一专人管管理和维护护)转变转变统一维护个人,初创创公司厂商专业支支持自己培养中型公司政府,银行行,电信使用开放的的技术还是是封闭的技技术?Hadoop应用用案例和云云平台UserCase1(智智慧交通)用户:最大大城市,交交通领域(Citytraffic)场景:车牌牌记录[CarLicencePlate],100亿[10Billion]/年需求:小时时级别->优化到分分钟级[Minute]->未来优优化到秒级级[Seconds]查询IntelligentTransportationSmarterCities场景:车车辆异常快快速识别VehicleAbnormal交通安全问问题培训目录移动,联通通公司大数数据平台云计算案例例分析—上上海公司基基于云计算算平台的移移动用户行行为特征分分析移动用户行行为特征分分析模型渠道偏好分分析客户细分新业务关联联时间性能:数据处理理性能增加加约30倍倍,数据挖挖掘性能增增加约9倍倍,整个应应用性能提提高约3-7倍成本优势::成本降低6倍,运维维耗电相当当,占用机机房面积更更少,更高高的处理能能力正确度:符合商业标标准云计算案例例分析—江江苏公司基基于云计算算平台的信信令监测系系统基于云计算算平台的信信令监测系系统实验基于BC-PDM的的ETL进进行API级别的二二次开发,,形成信令令信息分析析系统功能包括SMS信令令信息分析析SP提交短短信过程分分析SP提交短短信成功率率分析GPRS的的GN接口口信令分析析GN接口通通信过程分分析GN接口信信令过程分分析正确性100%,数数据查询、、统计性能能提高7-15倍,,成本降低低4倍数据范围::一个月数数据查询案例查询:返回回以上功能能的某个时时段结果组合查询::满足4个个复杂条件件的查询实验条件单位秒联通电信详详单查询系系统业务务问问题题提供供所所有有手手机机用用户户的的详详单单在在线线查查询询系系统统提供供七七大大种种类类信信息息套餐餐及及固固定定费费、、通通话话、、短短/彩彩信信、、上上网网、、增增值值业业务务、、代代收收费费用用业务务扣扣费费、、其其他他扣扣费费高峰峰时时期期提提供供千千万万并并发发用用户户在在线线查查询询请请求求已有有方方案案使用用两两台台IBMP5570小小型型机机作作为为数数据据库库服服务务器器使用用某某关关系系数数据据库库只存存放放3个个月月数数据据最多多提提供供100查查询询/秒秒查查询询需要要限限制制每每个个用用户户每每天天查查询询次次数数来来保保证证系系统统稳稳定定服服务务联通通电电信信详详单单查查询询系系统统(续续)新方方案案数数据据规规模模可容容纳纳360TB原原始始数数据据存放放半半年年七七大大种种类类详详单单数数据据平均均每每天天2TB新新增增数数据据导导入入新方方案案构建建80台台双双路路IA服服务务器器集集群群,,安安装装英特特尔尔Hadoop发发行行版版构构建建分分布布式式数数据据库库集集群群共提提供供400TB详详单单数数据据存存储储容容量量集群群提提供供每每秒秒80万万条条详详单单数数据据插插入入集群群可可以以保保证证每每秒秒2万万条条月月详详单单查查询请请求求,,满满足足在在线线用用户户需需要要成功功案案例例二二-联联通通电电信信详详单单查查询询系系统统(续续)阿里里淘淘宝宝的的案案例例每日日新新增增数数据据20T累积积数数据据14P3200+服务务器器的的云云计计算算平平台台每天天处处理理100,000+作业业任任务务,,包包括括100+新增增作作业业任任务务每天天处处理理1P+数据据,,包包括括0.5%新增增数数据据总体体数数据据规规模模阿里里金金融融通通过过大大数数据据整整合合掘掘金金!阿里金融的信信用评估系统统会自动分析析小微企业的的数据,例如如企业通过支支付宝,淘宝宝进行的支付付数据,最终终算出信用评评估和放贷额额度。截止2011年底,阿里里金融对近30万家小微微企业进行信用评估估。累计投放放96800家家,投放贷款154亿,坏账率为交交易额的0.76%。阿里金融的实实时业务墙阿里金融的数数据模型任务务(局部)每个模型任务务都是面向海海量数据的大大规模运算任任务。天猫/淘宝双双十一191亿背后的开源技技术?@dbatools:双双十一一天天时间,支付宝核心数数据库集群处处理了41亿亿个事务,执行285亿亿次SQL,,访问1931亿次内存数数据块,13亿个物理理读,生成15TB日志。数据应用开发发平台——数数据工场DataIntegrationDBsyncTTHiveHadoopMapReduceHadoopHDFSDatax报表需求(淘淘数据)Hbase即席查询(adhoc)数据分析数据挖掘数据产品淘宝数据平台台—产品架构构实时计算底层平台数据开发平台台数据应用成功案例四-暴风影音从最早3个试试验节点,到到8个线上节节点,到现在在的30个节节点。每天处理日志志1.2T,20亿行。。存储设计容容量200TB对外提供产产品分析,广广告分析,用用户分析服服务。每天处理任务务上千个jobs数据系统的进进化-一代数据系统的进进化-二代数据系统的进进化-三代Hadoop技术其他他应用领域电信医疗交通公安航空电力金融搜索社交游戏视频民生核心大数据时代需需要跨越的的巨大障碍大数据(TB)大需求大集群(3台台)原有系统的改改造和迁移运维方式转变变编程方式转变变平台的数据迁迁移人才的匮乏工具的缺乏厂商版本数据安全商业模式和模模型的转变大量资金的投投入无法的看到产产出大数据思维方方式和模式转转变海量用户大规模批量服服务(服务1.0)决策逻辑数据库用户1逻辑1逻辑N数据集编辑人员用户N编辑逻辑信息生产者信息消费者Mysql/Oracle大数据仓库海量用户大规模个性化化服务(服务务2.0)决策逻辑大数据库用户1逻辑1服务数据1用户N逻辑N服务数据N原始数据N挖掘逻辑NHiveHbaseStormHadoop原始数据1原始数据2信息生产者者/消费者规则制定上帝之手本质:智能组组织->智能能群体实时由被动的IT支撑向主动动的以数据为为核心的IT服务转型深度拥抱互联联网提纲Hadoop补充传统架架构应对大数数据Hadoop云计算架构构解析Hadoop应用案例例和云平台EasyHadoop,RedHadoop介介绍52研发难实施难管理难开源Hadoop软件需要更友好的用户接口和商业支持。市场需求开源Hadoop之路那那些难点??为什么推出EasyHadoop版版产品开源hadoop的开发发困难之处:1.难安装装,部署,配配置2.难管理,监控3.难学习,算法开发4.应用少,难使用5.找人才难难6.托管难,管理网络难难。EasyHadoop立志将Hadoop的
[易易用性,可用用性]
做到到极致!Hadoop类似DOS、Linux,命令行行操作界面化提升Hadoop管理1.HAProxy用用作Hive负载均衡衡2.编写Daemon程序用作进进程监控,防防止进程挂起起3.编写任任务监控脚本本,失败任务务自动重试4.编写集集群快速安装装部署软件EasyHadoop5.编写Hive查询询界面phpHiveAdmin,,做开放数据据平台6.监控工工具Cacti,Ganglia,,Nagios一个都不不能少。监控越详细越越好。56Easyhadoop,RedHadoop产产品和社区区ChinaBigData社区Easyhadoop社社区RedHadoop培训讲座开源软件开源社区技术出版物聚会沙龙RedHadoop一体体机RedHadoopCloudRedHadoop发行行版聚合和培养客客户,用户户,合作伙伴伴(品牌牌+渠渠道)打造高高价值值产品品(产品品)举办大大会咨询Hadoop核核心心Apps管管理理器Apps应应用用程序序理念:大数数据驱驱动智智慧地地球,智慧慧城市市57行业解解决方方案(电信信,医医疗,交通通,互互联网网)Apps应应用用层(AppsStore)phpHiveAdmin,Rhadoop,EasyPig,CronHub,ETL,ReportRedHadoop发行版版方案案AppsManager管管理理层(用户户/权权限)核心算算法图像,视频频,文文本,挖掘掘Hadoop/Hbase核心存储和和计算算虚拟化化系统统管理理/NOVA海量数数据分分布式式文件件系统统HDFSRedHadoopBigDataCloud技技术术架构构搜索引引擎开源的的Linux/Windows操操作系系统基基于于Xen的的虚拟拟机分布式式并发发控制制/Zoomkeeper结构化化海量量数据据管理理Hbase并行程程序MapReduce数据挖挖掘工工具库库OS-Mahout/pig搜索引引擎核核OS-SolrCloud云计算算应用用层各类新新型IT支支撑系系统搜索引引擎邮邮件件系统统等等互联联网应应用云计算算服务务层数据挖挖掘::挖掘掘应用用的算算法工工具数据仓仓库::提供供海量量对象象存储储能力力搜索引引擎::提提供基基本的的搜索索引擎擎能力力云计算算平台台层MapReduce2+BSP::并行行程序序框架架Hbase:结结构化化数据据存储储HDFS::海量量数据据的分分布式式文件件系统统CloudFoundry:多多语言言应用用部署署平台台openstrack:Swift::海量量对象象存储储系统统openstrack:NOVA:云云计计算平平台系系统管管理虚拟化化资源源层构建在在海量量同质质化的的PC与不不可靠靠硬盘盘上使用开开源的的openstrack+Xen提供供计算算资源源的虚虚拟化化运行于于开源源的CentOSLinux系系统之之上对象存存储系系统Swift并行程程序BSD+Hama+MPI数据仓仓库/ETL/ReportOS-Hive/MRQLCloudFoundry/应应用部部署广告引引擎存储,搜索索,语语音APIIOS,Android本本地APP桌面,移动动浏览览器RedHadoop国国产安安全Hadoop发发行版版本1.优优先解解决数数据和和平台台安全全问题题。12/31/2022RedHadoop存存储计算一一体机交换机DataNode+JobTrackerHiveServerRedHadoop核心节点点NameNode+JobTrackerApps管管理器Apps应应用程序序DataNode+JobTrackerDataNode+JobTrackerDataNode+JobTracker产品特性:集成RedHadoop正式式发行版集成Habase数数据库发发行版集成phpHiveAdmin,EasyHbase工具集具备最高上上百T存储储容量DataNode+JobTracker4U45个磁盘180T存储储=5w实现高性价价比集群命名节点(NameNode)高密度计算算高密度存储储DataNode10TDataNode10TDataNode10TDataNode10TDataNode180TDataNode180T/data//back/集群内迁移移12/31/2022Easy(Red)Hadoop社社区产产品线Hive平台化化EasyHaoop版版和Hadoop开源源版的区区别EasyHadoopappsManager[Hadoopapp安安装管理理平台,解决Hadoopapps管管理问题题]集成软件件有:-EasyHadoop发发行版[解决决Hadoop稳定性性和兼容容性问题题]-Easy
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 某著名企业五局钢筋工程施工技术管理要点
- 《CBT 3517-2013船用真空辅冷凝器》专题研究报告:技术深度解读与行业前瞻
- 道路安全培训的收获课件
- 2026年鲁教版四年级数学上册期末试题解析+答案
- 2026年甘肃省庆阳市高职单招职业技能测试题库及答案
- 道教观堂礼仪培训课件
- 返矿人员安全教育培训课件
- 中考语文文言文对比阅读(全国)17《得道多助失道寡助》对比阅读(15组76题)(解析版)
- 特殊及非常规作业许可试题
- 车险安全培训课件
- 《齐鲁文化》期末笔记
- 非煤地下矿山机电知识
- 化工原理课程设计说明书-2778kg-h苯-甲苯筛板式精馏塔设计
- 97S501-1-井盖及踏步图集
- 设备清包工合同模板
- GB 30254-2024高压三相笼型异步电动机能效限定值及能效等级
- 盐酸、硫酸产品包装说明和使用说明书
- 汽车线束DFMEA设计失效模式和影响分析
- plc电梯设计的参考文献
- 中伟西部基地液氨制氨水项目环评报告
- 地下室消防安全制度
评论
0/150
提交评论