Cloudera大数据解决方案_第1页
Cloudera大数据解决方案_第2页
Cloudera大数据解决方案_第3页
Cloudera大数据解决方案_第4页
Cloudera大数据解决方案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Cloudera大数据从最先进Hadoop平台到企业级数据中心第1页Cloudera 企业背景创建, 由几家世界顶级IT企业前雇员创建世界顶级技术支持24x7 全球技术支持主动技术支持&预测性技术支持企业关键业务应用数千家企业客户,超出500名付费订阅企业客户超出60%为世界500强客户成功案例全球范围内数百项成功实施案例最大生态系统超出1300个合作搭档培训全球超出5万人经过培训得到了Cloudera认证开源小区领导者Cloudera是无可争议Hadoop开源小区领导者和贡献者Cloudera首席架构师为Hadoop之父:DongCutting第2页企业发展历史Cloudera Confid

2、ential - Internal Use Only3第3页Cloudera应用结果Cloudera Confidential - Internal Use Only4第4页行业成功案例Financial &Business ServicesTelecomTechnologyHealthcareLife SciencesMediaRetailConsumerEnergyPublic Sector第5页应用行业6第6页 Cloudera, Inc. All rights reserved. 客户360度分析Enhanced customer experience & supportPersona

3、lization, targeted offerings, loyalty programsSentiment analysis渠道优化Campaign managementSelection process optimization供给链优化Manufacturing process efficiencySupplier/merchant management风险管理Fraud detectionIntrusion detection & digital forensics审计Regulatory compliance (retention, privacy)Usage analysis a

4、nd mediatione-Discovery市场资讯Competitive analysisEconomic factor analysisCustomer segmentation数据服务Data as-a-productData enriched with insights/inferencesCloudera大数据应用案例种类7第7页Cloudera中国 Cloudera, Inc. All rights reserved.8英特尔7.4亿美元投资到Cloudera英特尔与Cloudera经过开源驱动创新英特尔使得Hadoop在IA架构上运行到达最优性能Cloudera与英特尔协作建立

5、广泛合作搭档生态系统Cloudera在中国建立销售及技术服务团体,英特尔大数据团体9月正式加入第8页Intel与Cloudera大数据联盟 Cloudera, Inc. All rights reserved.9第9页数据量决定数据使用方式 Cloudera, Inc. All rights reserved.10以前拷贝数据到计算节点现在拷贝计算程序到数据节点Relative size & complexity数据信息驱动: Multi-structured, internal & external data of all typesComputeComputeCompute流程驱动:Str

6、uctured data mainlyInternal data only“Important” data onlyComputeComputeComputeDataDataDataData第10页传统数据分析: 将数据带至计算平台 Cloudera, Inc. All rights reserved.11复杂架构许多特殊用途系统频繁数据移动缺乏数据整体认识高数据遗失率许多资料数据未能被使用风险与合规高存放成本数据存取速度慢需要前期建模数据转换速度慢转换程序常遗失数据高数据分析成本现有系统负荷量过大缺乏灵活性“商业智能积压”4123服务器数据集市企业级数据仓库文件资料库存放系统搜索系统存档系统

7、ERP、CRM、数据库、机器文件、图片、视频、日志、点击流外部数据源第11页服务器数据集市企业级数据仓库文件资料库存放系统搜索系统存档系统ERP 、 CRM 、数据库、机器文件、图片、视频、日志、点击流外部数据源 Cloudera, Inc. All rights reserved.多样化分析平台将应用程序带至数据结合多样化工作于常见数据 (即SQL+搜索)真正灵敏性分析41234大数据分析: 将计算平台带至数据12主动合规存档全保真原始数据不定时间,任何起源成本最低存放1保持Staging全部分析使用单一数据源保持变换后数据状态更加快更廉价2自动服务BI探索简单搜索 + BI工具“Schem

8、a on read” 灵活性降低BI用户请求积压3第12页Hadoop 改变游戏方式Hadoop方式传统方式$30,000+ per TBExpensive & Unattainable难以线性扩展网络成为瓶颈只能存放结构化数据难以扩展新字段和数据类型Expensive, Special purpose, “Reliable” ServersExpensive Licensed SoftwareNetworkData Storage(SAN, NAS)Compute(RDBMS, EDW)$300-$1,000 per TBAffordable & Attainable无限性能扩展没有网络瓶颈

9、方便聚合各种数据起源灵活数据访问方式Commodity “Unreliable” ServersHybrid Open Source SoftwareCompute(CPU)MemoryStorage(Disk)zz第13页Cloudera Enterprise统一平台,全方面大数据处理方案第14页统一平台,全方面大数据处理方案批处理,交互式处理和实时处理.兼具高性能和易用性统一平台.端到端交互式分析海量数据聚合全方面数据处理框架广泛第三方工具兼容 集群管理和数据管理批处理数据导入Sqoop, Flume转换MapReduce, Hive, Pig, Spark1数据发觉分析数据库Impala

10、搜索Solr 建模机器学习SAS, R, Spark, Mahout在线服务操作 数据库HBase流处理Spark Streaming无限分布式存放 HDFS, HBaseYARN, Cloudera ManagerCloudera Navigator第15页Cloudera Impala业内领先开源SQL数据库SQL兼容性最广泛兼容SQL92/99/语法,用户能够使用熟悉BI工具高并发度为多用户并发查询优化,尤其适合BI生产环境高性能海量数据SQL操作秒级响应,并能够线性扩展整合&安全与Cloudera Enterprise各组件高度整合,全方面支持各种安全规范,抵达企业级标准Enterpr

11、ise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServe第16页Impala优势17勿需远程检索,勿需数据移动使用Hadoop元数据开源 (Apache-licensed )与YARN整合便捷安装、管理与监控可经过Cloudera管理器进行升级ANSI SQL兼容性主流BI工具整合预先定义分析方法 (MADlib)全方面数据安全性基于角色访问控制可审计权限管理简单&开放便捷可管理安全&管治先进MPP架构: 不使用MapReduce海量数据处理性能远超传统数据库性能是Hive/Stinger

12、10-100倍以上快速检索任意Hadoop上数据“Schema on read or write”引擎之间共享数据, 比如检索、机器学习Hadoop上最快SQL灵活第17页 SQL性能比较Single User, 510 Users, 11Single User, 2510 Users, 12010 Users, 30210 Users, 202Single User, 37Single User, 775.0 x10.6x7.4x27.4x15.4x18.3xIndependent validation by IBM Research SQL-on-Hadoop VLDB paper:“Im

13、palas database architecture provides significant performance gains”第18页搜索Cloudera Search (Apache Solr) Cloudera, Inc. All rights reserved.19易用交互式全文检索与切面导航实时数据检索多用户友好灵性批处理, 实时或者按需索引多类型、多格式支持原生与Hadoop执行引擎相结合丰富API与完善生态系统100% 开源业界标准搜索引擎成熟代码基础, 活跃小区探索导航关联CDH是唯一一个提供企业级搜索处理方案商用Hadoop版本第19页Cloudera Search 框

14、架介绍非结构化数据用户搜索界面(Hue)FlumeHDFSRaw, filtered, or annotated dataSolrCloud Cluster(s)Data to be indexedIndexed dataMapReduce Batch IndexingGoLive updatesHBase ClusterReplication Events to be indexed结构化数据Cloudera ManagerSearch queries$第20页机器学习与流处理Apache Spark Cloudera, Inc. All rights reserved.21开源数据并行处理

15、框架快速. 充分利用内存,比MapReduce数据处理快100倍,有效支持迭代式机器学习与分析开发友好. 提供Java, Scala, Python等多语言丰富API完整. 集成于CDH, 可经过Cloudera管理器管理;经过与Databricks企业协作共同对Spark开发完善便捷实时流处理简单. API有利于快速布署流处理应用程序容错. 实现“Exactly-once”语意统一. 基于Spark平台共享数据与模型第21页第三方应用扩展性数百家和CDH相互认证兼容性第三方合作搭档为企业用户更方便整合Hadoop到现有业务系统Access, ingest, transform, and cl

16、eanse all data on Hadoop with a visual development environmentQuickly connect to Hadoop for ad-hoc visualizations of your data to find patterns and outliersRun leading analytical systems natively on Hadoop to get insights from all dataDeliver R-powered advanced predictive analytics to Hadoop for bet

17、ter data modelingEnterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServe第22页Cloudera Enterprise端到端大数据平台管理第23页让Hadoop平台运维管理更轻易Cloudera ManagerHadoop业内最完善,最全方面零宕机时间管理平台,管理整个大数据平台系统,而不但是Hadoop集群本身独有特征:统一配置,管理和监控全部Hadoop模块在线向导式安装和升级一键寻求Cloudera支持强大第三方扩展支持第24页一个工具搞定全部运维管理

18、Hadoop运维管理复杂性:+布署和配置监控工作流事件和警告日志搜索故障诊疗运维报表集群活动监控DIY方式运维管理对比Cloudera“在第三方客户调查中显示,超出95%客户希望使用统一端到端管理工具对Hadoop集群进行维护管理,而不是被迫学习各种开源工具用于不一样类型管理”第25页简化故障诊疗流程Cloudera Manager最大程度提升故障诊疗效率注意到系统任务失败,集群停顿服务在TaskTracker界面中定位找到故障任务借助Ganglia调查服务,主机,网络各种监控指标,帮助查找故障原因尝试找到适当HEAP MEMORY设置大小更新设置,分发到全部节点,暂时中止服务,重启整个集群故

19、障原因:TaskTracker Heap Memeory设置过低1小时2小时1小时30分钟收到CM警告:任务运行时间长于预期在CM中自动定位并高亮显示故障任务自动对TaskTracker节点做健康检验,找到故障原因用系统推荐设置值更新集群重启单独TaskTracker,集群服务不会中止故障原因:TaskTracker Heap Memeory设置过低5分钟3分钟2分钟5分钟经过CLOUDERA MANAGER4.5 小时15 分钟非Cloudera平台故障诊疗第26页Cloudera Manager 关键特征全方面灾备处理方案零宕机时间-滚动升级第27页Cloudera Manager 扩展接

20、口API access provides programmatic access to cluster operations (such as configuration and restart) and monitoring information (such as health and metrics). The CM API is an HTTP REST API, using JSON serialization. The API is served on the same host and port as the CM web UI, and does not require an

21、extra process or extra configuration. API users have the same privileges as they do in the web UI world.Exampleshttp:/cloudera.github.io/cm_apiMetrics plug-in/harisekhon/nagios-plugins/blob/master/check_hadoop_cloudera_manager_metrics.plJava/Python clients/blog/05/how-to-automate-your-hadoop-cluster

22、-from-java/第28页Cloudera Enterprise企业级安全和审计功效第29页全方面企业级安全功效,满足企业合规性要求验证,授权,审计,合规验证Guarding access to the cluster itselfTechnical Concepts:验证网络隔离授权Defining what users and applications can do with dataTechnical Concepts:权限许可Authorization加密Protecting data in the cluster from unauthorized visibilityTechn

23、ical Concepts:加密,密钥,数据遮罩审计Reporting on where data came from and how its being usedTechnical Concepts:审计LineageCloudera ManagerApache SentryCloudera NavigatorNavigator Encrypt & Key Trustee | Partners第30页外围安全需求让用户自由选择需要的计算模块(例如 Impala, Spark)任何计算模块拥有统一的安全设置实现已有的安全标准: Active Directory 和Kerberos验证Guard

24、ing access to the cluster itselfInfoSec Concept:AuthenticationCloudera Manager第31页Cloudera Manager提供自动化用户验证支持AD Kerberos 单点登录Kerberos配置向导支持配置多KDC用户验证和监控信息用户直接经过AD进行单点登录Hadoop全部服务统一接收AD Kerberos验证用户对Hadoop服务访问权限由经过AD Groups控制经过向导自动为当前集群配置Kerberos,简化繁琐手动操作,防止各种可能错误流程自动配置和调整多KDC协调工作当Kerberos生效后,自动经过CM监

25、控Kerberos验证状态第32页访问授权需求提供用户所需要的细粒度权限集中化管理所有服务的用户权限使用构建在AD上的基于角色控制的用户授权模型授权Defining what users and applications can do with dataInfoSec Concept:AuthorizationApache Sentry第33页可视化权限管理第34页数据审计视图需求帮助用户理解报表数据的血缘关系,并找到更多相似数据遵循企业在审计,数据分类和生命周期管理的统一策略集中化的审计平台,自动数据发现,自动血缘关系管理审计视图告诉用户数据从何而来以及怎样被使用InfoSec Concept:审计Cloudera Navigator第35页为何需要Cloudera Navigator36Cloudera企业版处理大量数据需求数据规模大数据源种类复杂 结构化/非结构化数据数据敏感性级别多1多用户处理数据需求管理员以及合规官员分析员以及数据科学家商务用户2数据有效控制与处理需求对数据平台可视化与管理数据发觉与探索3第36页Cloudera数据审计和生命周期管理平台Cloudera NavigatorHadoop平台上唯一端到端数据审计处理方案。最大程度降低安全风险,确保和

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论