XXX大数据平台产品介绍课件_第1页
XXX大数据平台产品介绍课件_第2页
XXX大数据平台产品介绍课件_第3页
XXX大数据平台产品介绍课件_第4页
XXX大数据平台产品介绍课件_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 , Inc. All rights reserved.1XXX大数据平台介绍提纲数据正在驱动行业的发展以Hadoop为核心的大数据平台企业数据平台(Enterprise Data Hub)大数据安全平台大数据管理平台大数据技术支持总结无所不在的数据物联网及智能终端数据用户交互行为数据企业运营数据数据正成为企业的核心资产,数据可以帮助企业实现商业价值。数据价值挖掘体量大速度快多样性价值密度低日志社交数据 用户行为 机器数据 图片音频 视频 传感器运营数据Value更好地理解并服务客 户精细化运营管理个性化医疗健康服务公共事业服务安全和合规性检查用户标签行为分析文本分析情感分析图片分析音频分析轨

2、迹分析DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabases/ WarehouseOperationalApplicationsNew DataLimited DataNot efficient to keep existing data, let alone handle new data sources.Time consuming to transform datafor analysis in existing systems.Limited InsightsP

3、ower users struggle with data. Many users have no data.Compliance and PrivacyMore data, more users, and more tools create complexity.Need to balance business agilitywith security and governance.传统架构的劣势DataSourcesData SystemsDataAccessBusinessAnalyticsCustomApplicationsExisting DataDatabasesOperation

4、alApplicationsNew DataKeep Unlimited DataFrom disparate and limited views, to unlimited information access.Unlock Value from DataFrom analytics for some, to insights for all.Manage ComplianceFrom risk due to regulations and customer privacy concerns,to trust in a secure and compliant platform.Unlimi

5、ted StorageEnterprise Data HubProcessDiscoverModelServeSecurity and Administration亟需新的数据平台架构企业级数据平台稳定性严格的测试被客户和开发者证明开源的模式易用性标准的API(Java, SQL, Python, Rest)标准的工具集成(MS, Qlikview, Tableau, Teradata,Netezza, Quest)一站式管理解决方案安全性企业安全标准集成统一的访问安全控制全面的数据保护,密钥管理可管理性部署、管理、监控、警告可治理性数据溯源数据发现数据生命周期管理灵活性不同的问题可以有不同的

6、技术选择性能高吞吐的NoSQL存储原生的大规模数据处理引擎内存计算为X86平台做的原生优化最具创新的开源核心CDH Distribution for Apache Hadoop100%开源且开放标 准的Hadoop核心数据采集多样化的可扩展存储资源(负载)管理框架灵活多样的处理引擎全面的安全技术体系易用的Hadoop交互界面Workload ManagementProcessIngest Sqoop, Flume,KafkaTransform MapReduce, Hive, Pig, SparkDiscoverAnalytic Database ImpalaSearch SolrModelM

7、achine Learning R, Spark Mlib, MahoutServeNoSQL DatabaseHBaseStreaming Spark StreamingUnlimited Storage HDFS, HBaseYARNSentryCDHCDH全球最流行的Hadoop发行版最完整且稳定的版本,经过严格的行业检验具有最快的更新,更多新的功能方便开发者和集成商使用Hadoop和其他一些Hadoop发行版提供商对比做Hadoop开发的,其他厂商仅是做Hadoop集成或CDH集成和Hadoop trunk最快的同步,能保证业务的前向兼容性;其他厂商在Hadoop上做的定制优化或修复,

8、无法保证兼容性所有组件的开发和专业支持能力,其他厂商也仅仅跟随包含的版本进行集成,缺乏问题修复和专业支持能力HDFS分布式文件系统灵活性多样化数据的统一存储可扩展性良好的线性可扩展性高容错性设计之初就考虑了高容错性开放性存储的数据格式和内容完全可见适合大文件的顺序读写, 写一 次读多次Unlimited StorageEnterprise Data HubProcessDiscoverModelServeSecurity and AdministrationApache HBase构建在分布式存储上的NoSQL数据库和HDFS紧密结合,适合高并发随机读写具有分布式存储的所有优点灵活性多样化数据

9、的统一存储可扩展性良好的线性可扩展性开放性存储的数据格式和内容完全可见+ 在线数据服务Security and AdministrationUnlimited StorageEnterprise Data HubProcessDiscoverModelServeApache Kafka每个节点称为 Broker数据以 Topics方式写入Kafka每一个Topic都可以被分片分片分布在Broker上分片可以有多个副本,其中一个 为LeaderProducer, Consumer都与partition直接进行数据交换Broker 1Broker 2Broker 3Partition 1 (Lea

10、der)Partition 2Partition 3Partition 2 (Leader)Partition 1Partition 3Partition 3(Leader)Partition 1Partition 2ProducerProducerConsumerConsumerKafka ClusterKafka + Apache FlumeKafka 可以被配置为 Flume 的ChannelFlume Sources 和 Sinks 可以配置成Kafka的Consumer和ProducerFlume Sources Consume from Kafka:Write data to HD

11、FS, HBase, or SearchFlume Sinks Write to Kafka:Read from logs, files, jms, http, rpc, thrift,etc and write events to Kafka多样的工作引擎批处理引擎(MapReduce, Hive, Spark) - 适合长时间的数据处理作业,高度 成熟可靠实时数据处理(Spark Streaming)- 实时的数据同时,异常检测,预测分析等自助BI分析/交互式SQL (Impala) 准实时的分析作业,高效的数据探索式 分析,高并发的自助BI功能搜索( Search) - 快速的跨应用数据

12、搜索能力数据挖掘(Spark Mllib, R, Mahout)- 适合数据分析人员的快速模型创建,迭 代在线服务(HBase)- 提供实时的数据服务能力交互式分析引擎Impala构建于HDFS上的原生的分析型SQL易用性利用现有的SQL语法,和绝大多数BI工具完美集成高并发为高并发的随机分析而优化, 用C+编写交互性提供交互式的体验原生和Hadoop栈深度融合Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeApache Spark适合数据科学家的分布式内存计算引擎灵

13、活多种接口,多种算法高效内存计算,适合迭代是计算易用好用且丰富的API安全集成和数据平台的其他功能无缝集成适合批处理、流计算以及迭代 式计算Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServeSQL的实现途径Hive是一个SQL解析和优化层, 底层引擎可以是MapReduce或 是SparkSparkSQL是Spark生态系统的一 个SQL解析和优化层,也需要借 助于Spark引擎Impala就是一个原生的SQL解析、 优化以及内存执行引擎,直接 操纵HDFSUnlimi

14、ted Storage HDFSImpalaHiveMapReduceSparkSparkSparkSQL数据处理和分析多样化的SQL解决方案不同的需求需要不同的技术互补而不是替代实时监控交互式分析和探和分析索式分析批处理时延要求 秒级数秒到分钟几十分钟以上数据源交互式SQL性能050100150250200300PrestoHive-on-TezTime (in seconds)350Single User vs 10 User Response Time/ImpalaTimes Faster(Lower bars = better)Single User, 510 Users, 11Sin

15、gle User, 2510 Users, 12010 Users, 30210 Users, 202Single User, 37Single User, 775.0 x10.6x7.4x27.4x15.4x18.3xImpalaSpark SQLIndependent validation by IBM Research SQL-on-Hadoop VLDB paper:“Impalas database architecture provides significant performance gains” Search大数据平台内的搜索引擎易用性实现了企业内数据平台的搜索引擎标准化基于

16、Solr的标准搜索实现灵活性实现了多种索引的构建方式安全和集成和企业级功能的紧密集成|Search所有人都知道怎么搜索Enterprise Data HubSecurity and AdministrationUnlimited StorageProcessDiscoverModelServe实时数据处理实时搜索HDFSOnline Streaming DataEnd User Client App (e.g.Hue)FlumeRaw, filtered, or annotated dataSolrCloud Cluster(s)Indexed dataMapReduce Batch Inde

17、xing w/ MorphlinesGoLive updatesHBase ClusterNRT Replication Events indexed w/ MorphlinesOLTP Data ManagerSearch queriesNRT Data indexed w/ Morphlines企业消息总线Hue专门为Hadoop打造的用户界面HDFS的浏览以及管理HBase的管理作业流设计,作业提交以及管理SQL操作前端定制化的搜索前端访问权限配置界面CDH发布模式领先于开源的版本包含社区版本尚未发布的创新和稳定性功能更快获取问题的修复 强大的Committer团队保证客户问题得到更快的

18、修复最广泛的测试 活跃的开源社区能让所有功能得到最全的测试CDH凝聚在开源的贡献有89位Hadoop以及相关生态的Committer,涵盖:Hadoop, HBase, Hive, Spark, Lucene/Solr, Flume, Sqoop等项目提供了最多的企业级Hadoop功能HDFS/YARN HA, Hadoop Secure Communication, HDFS Short-Circuit, HDFS Caching, HDFS Transparent EncryptionHBase snapshots, HBase multi-tenancyHiveServer 2, Hiv

19、e-on-SparkSpark Streaming exactly-once, Spark Shuffle OptimizationSolr + Hadoop Integration大数据安全安全的挑战越来越多的开发人员和业务人员会使用大数据平台企业数据平台正成为黑客的主要目标Hadoop及衍生的众多项目缺乏统一的安全解决方案传统的应用层安全方案难以胜任新平台平台有多种接口给用户使用传统方案中各应用系统相对独立用户一旦突破应用层安全,数据平台就完全暴露数据没有任何保护访问没有任何限制全面的安全管控Apache Sentry, HDFS Encryption, Navigator, Key Tr

20、ustee数据平台的安全不可或缺:多样化的数据导入方式多种引擎的协同工作多业务的并发多用户的访问和企业的基础设施集成符合行业的安全审查Perimeter Standards-based AuthenticationProcessDiscoverModelServeAccess Unified Role-based AuthorizationSecurity and AdministrationVisibility Auditing & GovernanceUnlimited StorageData Encryption & Key Management安全技术架构认证, 授权, 审计, 以及行

21、业监管规范Perimeter限制什么样的用户可以访问集群Technical Concepts: Authentication Network isolationAccess定义用户或者应用可以访问什么数据Technical Concepts: Permissions Authorization ManagerApache SentryVisibility数据从什么地方来 以及数据是怎么被 用的Technical Concepts: Auditing Lineage NavigatorData敏感数据保护以防止为授权的访问Technical Concepts: Encryption, Token

22、ization, Data maskingNavigator Encrypt & Key Trustee | Partners多层次的安全多层级的身份认证( Manager, Kerberos, AD, Hue)管理平台,运维人员,客户端,BI工具统一的授权访问控制(Apache Sentry)在平台上提供统一的访问安全控制策略数据保护(HDFS At-Rest Encryption, Navigator Encrypt, Navigator KeyTrustee)On-the-wire和at-rest数据保护,并内置有Key Management方案全面的审计( Navigator)不管以什

23、么方式进行访问集群,都会得到审计使用者视图认证和授权认证和授权HiveServer2AuthNLDAPKerberosAuthZIdentityManagementKDCSentryBindingSentry ServicePolicy Definition/RetrievalEnforcementGroupGroup MappingLocalGroupMappingShellLDAPHadoop UserGroupMapping数据保护底层文件系统的数据保护(Navigator Encrypt, Navigator KeyTrustee)临时文件,缓存到本地的中间计算结果,配置文件以及元数据

24、文件HDFS文件的保护(HDFS Data-At-Rest Encryption, Navigator KeyTrustee)只能保护HDFS的文件或目录数据网络传输的安全性(TCP over SSL)基于SSL的节点间网络通信Navigator Encrypt/KeyTrustee (Gazzang)Navigator Encrypt全面高效的数据保护,Linux文件系统以下硬件指令加速(AES-NI)存储节点上的加解密方案Navigator KeyTrustee集中化的秘钥管理灵活的部署方式on-premise或者SaaS Navigator全面的审计功能对HDFS、Impala、Hive

25、、HBase和Sentry的审计追踪提供集中式的配置管理接口查看用户/用户组对HDFS、Impala、Hive和HBase的访问权限以保证对隐私及合规的正确 配置数据发现和探索快速检索相关数据,加速数据发现流程自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类数据溯源帮助用户直观理解数据集的上下游血脉关系,验证数据源头与数据演变过程可以导出数据溯源信息到其他的溯源信息管理系统中生命周期管理定义并自动化复杂的数据生命周期管理工作,包括分类,保留及加解密策略 一切都基 于Navigator丰富的元数据管理能力大数据平台-系统管理平台系统管理平台 Manager Manager 专

26、注于 企业管理平台,而不只是一 个集群管理工具基于角色的管理视图丰富且可定制化的监控图表展现LDAP/Kerberos/SNMP/Rest API集成零宕机安装和升级复制和灾备多租户资源管理自动化的运营和诊断报告开放API可以集成第三方工具 滚动重启和升级集群灾备配置历史版本回滚智能的配置警告智能决策配置过期需要重启客户端配置过期全局时间线控制方便诊断极方便的全局时间线控制启用Kerberos启用Kerberos启用Kerberos启用Kerberos通过 Manager管理用户自定义服务/cm_ext/wiki Manager Rest API多租户管理在多用户的环境下共享相同的系统或程序组

27、件,且仍可确保各用户间数据、 配置甚至计算资源的隔离性。各租户的资源保障租户间的细粒度的安全隔离租户资源请求的快速响应租户资源使用的报告多租户的优势数据共享方便运营提高资源使用率多租户的挑战开源版本已经实现的YARN的资源管理平台,可以实现对MapReduce、Spark的动态资源管理基于Queue的资源抽象描述基于Queue的用户权限控制挑战只支持批处理的引擎对有时延要求租户的支持统一的权限控制模型没有对租户资源使用的详细报告平台的多租户资源隔离和管理保障租户对服务质量的要求,且有效利用集群的资源安全和管治平台提供了从身份验证、授权、审计和数据安全的全面保护,确 保租户之间的隔离性资源使用报

28、告统计租户对资源的使用要求,优化租户的资源分配资源管理资源划分动态资源划分按需给租户提供满足服务质量的资源保障有效利用集群资源静态资源划分满足关键负载的作业保障配额管理磁盘空间配额文件、目录数量配额,以优化文件系统元数据静态资源管理通过Linux cgroup来静态划分各服务所占用的资源支持HBase, HDFS, Implala, YARN保障关键作业的资源占用YARN 30%HBase 20%HDFS 30%Impala20%Product 2Mkt 1Developer 3静态资源管理配置HBase内部的资源管理对某个用户、某张表或某个表空间的访问进行限制(Throttling)将HBa

29、se上的作业按类型进行调度分析或查询读或写动态资源管理基于YARN的资源管理框架可以实现MapReduce, Spark以及Impala对资源的共 享通过Llama实现Impala和YARN资源的集成按租户的资源使用状况定期调整资源分配策略YARN/Impala 50%Product 1Business 3Developer 2Impala 4YARN/Impala 50%Product 1Business 1Developer 4Impala 4WeekdayWeekend资源使用状况统计租户对于资源的历史使用统计和趋势,以更好满足企业内部的Showback和Chargeback模式大数据平

30、台-技术支持技术支持专业服务近百人的专业技术支持团队丰富的知识库基于大数据技术的预测支持及主动支持严格的问题修复流程专业服务预定义的企业服务内容驻场架构师和专人技术支持集群部署及 调优数据导 入及ETL 指导数据分 析指导安全指 导生产环 境就绪预测、主动技术支持资源管理YARN在线NOSQLHBASESYSTEM MANAGEMENT MANAGER存储各种类型数据批处理MAPREDUCE文件系统HDFS3RD PARTY APPSTABLEAU利用大数据平台技术,在客户集群还没发生问题之前就可以得到主动的预警付费客户可以定期向支持中心发送集群诊断包以获取主动支持基于的EDH构建日志文件客户

31、节点数据集群描述命令输出知识库CRM数据支持记录Apache邮件列表社区论坛AN分AL析YTICSSQQLLIMPALA搜SE索AR引C擎HENGINESOLR硬件配置严格的问题修复过程 工 程师修复问 题并进行测 试客户发现并 通过系统报 告问题 工 程师重现问 题 在Apache报告JIRA并提交 补丁committer 审查并提交补 丁到开源社 区 把 补丁放到下 一个版本发 布 给 客户提供补 丁程序客户通过的无宕机滚动 升级打补丁客户升级版 本总结 Enterprise专注于开源Hadoop的开发,保护用户的投资(Open Standard)最具创新的Hadoop发行版 (Innov

32、ation)最好用的企业数据平台(Usability)活跃的社区一站式的管理平台最完善的安全架构(Security)方便集成(Integration)全面可扩展(Extensibility)最专业的、可持续的技术支持与Apache开源项目比集成性:包含了20多个开源项目,组 件版本的兼容,解决了组件内部的配 置和组件间的配置集成12管理性:自动化的安装部署;智能的 配置优化;超级易用的监控诊断;企 业级的管理能力;基础设施的集成安全性:全面的安全技术架构;独有 的主数据管理能力帮助用户快速发现 数据并理解数据处理流程34技术支持:开源项目的发布周期不 定,会定期发布问题修复 版,并提供快速的问

33、题修复;同时开 源项目有时会破坏一些兼容性与社区版对比 Express Enterprise平台核心CDHCDH包含数据采集、存储、处理和分析等组件管理性基本的安装、部署、监控、 告警等管理功能还包含一系列企业级功能: 配置历史修改和回退平台运营历史报告 零宕机重启、升级 备份和复制定期诊断等等不需要花大把的时间去查看由于配置修 改导致的性能下降降低关键业务宕机的风险定期的诊断快照缩短解决问题的周期无意的数据损坏安全性有限的、松散的安全特性自动化的Kerberos部署 统一访问权限控制全面的审计整体的数据保护解决方案发现恶意的访问防止系统管理员直接通过底层文件系统 去读取敏感数据数据治理无集群

34、元数据的管理 数据溯源理解集群中有什么数据,快速发现数据数据的依赖关系,理解报表依赖的数据 源技术支持无主动的集群诊断、产品支持团队、客户可以访问的知识库、专业技术服务 定期的平台缺陷通知、路线图需要花费大量的时间来优化集群来满足业务需求系统持续稳定运行的技术保障与闭源厂商对比闭源平台 Enterprise平台核心UnknownCDH闭源的组件或者功能缺乏和开源的持 续兼容;闭源特性没有社区支持增加 了用户使用代价管理性基本的安装、部署、监控、告警等 管理功能业界最好用,完全为Hadoop而开发的管 理工具 Manager安全性有限的、松散的安全特性全面的安全解决方案,业界唯一一个符 合PCI

35、 (Payment Card Industry)安全标准的 平台数据治理无集群元数据的管理 数据溯源技术支持有但不可持续专业的产品支持团队,严格的问题修复 流程,主动的集群诊断和预测支持版本和服务免费版( Express)和按年订阅的付费版( Enterprise)免费版包含CDH和功能受限的 Manager付费版可以使用 Enterprise的所有功能,但根据可以享受的服务内容 不一样Basic Edition:只提供Hadoop核心和 Director的服务Flex Edition:HBase/Search/Impala/Spark/Navigator选择其一Data Hub Editio

36、n:所有组件都有服务提供Basic Edition只有5x8或7x24的标准支持Flex Edition和Data Hub Edition有5x8或7x24 Premium支持可选许可证模式不提供永久的许可证产品采取的是按年订阅许可证模式,假设用户订阅了三年的,则具 体的付费方式根据客户要求:一次性付费按三年平均,分三次付第一年可以付大部分费用,后两年以维保的名义付费订阅期结束之后,如果用户不再续订,则原有的功能都可以继续使用(包括 付费版才有的功能)订阅期结束之后,如果用户需要续订,则视为一次新的订阅期,此次订阅的 价格会视前次订阅的周期和本次订阅的周期酌情考虑迅速体验 Express 完全

37、免费全功能数据平台(CDH),无存储容量和节点数限制一站式的管理工具( Manager)获取社区支持 Community Enterprise Trial企业版60天的试用获取试用版许可证,得到专业的技术支持 Live在线的数据分析体验(Hue,Tableau,Zoomdata,Trifacta)开源模式可以防止被某一个提供商绑定,在后期可能需要付出高昂的维护和技术支持费用产品的稳定性更好,有更多的用户参与产品的使用和测试,使得产品存在的问题 更少安全性更好,有更多的人可以审查代码,任何代码的安全漏洞可以被很快地发现 和修复汇聚全球智慧,加速产品创新;没有任何一个提供商能够提供比社区更快、更全

38、 的产品更新开源比闭源能更好地遵守开放标准,不受专有的数据存储和处理引擎限制,方便 业务部门、企业间的互操作企业可以通过多种渠道快速解决问题,培养团队的自我技能企业需要开源Hadoop平台Hadoop及其生态的项目属性决定核心平台要开源,任何定制化开发最终损 坏的是客户利益开源是帮助客户解决问题的手段,不是目的对于任何开源项目的问题都能够以开源的方式解决,否则长此以往会和社区主流差异化越来越大,或者只能等下一个开源版本的发布有足够的解决开源问题的能力,这样可以更快的满足客户的需求领导Hadoop作为企业级应用的缺陷功能定义和开发- HDFS HA, Short-circuit read, Ne

39、twork Encryption, HBase snapshots, Hive authentication, HDFS Caching, At-rest HDFS Encryption,Thank you大数据分析平台帮助客户实现数据驱动大型数据存储计算平台开放、融合、跨平台、全过程按需组装产品定位大数据分析平台支撑多种数据源接入,可与RDBMS、JAVAAPI,工业OPC等接入,可制成企业级大数据存储架构在原有大数据数据仓库HIVE和列式数据库HBASE的基础上,自主研发实时、离线大数据存储同一企业、行业、领域和产业链内进行迁移、共享、灵活扩展,大大降低应用成本满足分析应用实时性要求,提升

40、企业管理和业务分析决策的敏捷反应能力,提高企业运营效率 支撑大数据实时处理与分析,充分满足企业科学和快速精准决策对于 信息的时效性和完整性要求作为平台级产品方案,可有效规避项目级方案应用交付和运维模式高成本的风险和问题3大核心功能模块存储与计算大数据可视化数据挖掘开放式API和协议实时监控信息实时历史信息历史分析信息历史存储信息MPP分析计算集群NO-SQL搜索数据存储数据获取数据组织数据分析数据应用实时数据流处理服务器联合访问大数据平台产品创新故障诊断均质生产能源测算实时监控问题评价透明感知企业级报告工具Ad hoc 即时查询例外分析实时数据分析预测与挖掘数据集群处理ETL处理服务器RDBMSHiveHbase社交媒体RSSWEB日志JavaOpc数据抽取数据清洗数据浓缩数据聚合数据分析数据挖掘hadoopspark大数据分析应用平台架构内嵌一站式数据存储平台核心的一站式数据存储平台,存储能支撑HADOOP,SPARK,HBASE,IMPALA等大数据平台。通过内存计算技术、高效索引、执行计划优化和高度容错的技术,使得一个平台能够处理从GB到PB的数据,并且在每个数量级上,都能比现有技术提供更快的性能;可以连接多种大数据存储平台广泛支持连接各种

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论