




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、PAGE 8Hadoop大数据平台建设要求及应答方案 PAGE 75目录 TOC o 1-3 h z u HYPERLINK l _Toc494481341 2技术规范书应答书 PAGEREF _Toc494481341 h 2 HYPERLINK l _Toc494481342 2.1业务功能需求 PAGEREF _Toc494481342 h 4 HYPERLINK l _Toc494481343 2.1.1系统管理架构 PAGEREF _Toc494481343 h 4 HYPERLINK l _Toc494481344 2.1.2数据管理 PAGEREF _Toc494481344 h
2、 12 HYPERLINK l _Toc494481345 2.1.3数据管控 PAGEREF _Toc494481345 h 26 HYPERLINK l _Toc494481346 2.1.4数据分析与挖掘 PAGEREF _Toc494481346 h 27 HYPERLINK l _Toc494481347 2.2技术要求 PAGEREF _Toc494481347 h 30 HYPERLINK l _Toc494481348 2.2.1总体要求 PAGEREF _Toc494481348 h 30 HYPERLINK l _Toc494481349 2.2.2总体架构 PAGEREF
3、 _Toc494481349 h 31 HYPERLINK l _Toc494481350 2.2.3运行环境要求 PAGEREF _Toc494481350 h 32 HYPERLINK l _Toc494481351 2.2.4客户端要求 PAGEREF _Toc494481351 h 35 HYPERLINK l _Toc494481352 2.2.5数据要求 PAGEREF _Toc494481352 h 36 HYPERLINK l _Toc494481353 2.2.6集成要求 PAGEREF _Toc494481353 h 36 HYPERLINK l _Toc494481354
4、 2.2.7运维要求 PAGEREF _Toc494481354 h 37 HYPERLINK l _Toc494481355 2.2.8性能要求 PAGEREF _Toc494481355 h 49 HYPERLINK l _Toc494481356 2.2.9扩展性要求 PAGEREF _Toc494481356 h 50 HYPERLINK l _Toc494481357 2.2.10可靠性和可用性要求 PAGEREF _Toc494481357 h 52 HYPERLINK l _Toc494481358 2.2.11开放性和兼容性要求 PAGEREF _Toc494481358 h
5、57 HYPERLINK l _Toc494481359 2.2.12安全性要求 PAGEREF _Toc494481359 h 59 大数据平台技术规范要求高度集成的Hadoop平台:一个整体的数据存储和计算平台,无缝集成了基于Hadoop的大量生态工具,不同业务可以集中在一个平台内完成,而不需要在处理系统间移动数据;用廉价的PC服务器架构统一的存储平台,能存储PB级海量数据。并且数据种类可以是结构化,半结构化及非结构化数据。存储的技术有SQL及NoSQL,并且NoSQL能提供企业级的安全方案。CDH提供统一的资源调度平台,能够利用最新的资源调度平台YARN分配集群中CPU,内存等资源的调度
6、,充分利用集群资源;多样的数据分析平台 能够针对不用的业务类型提供不同的计算框架,比如针对批处理的MapReduce计算框架;针对交互式查询的Impala MPP查询引擎;针对内存及流计算的Spark框架;针对机器学习,数据挖掘等业务的训练测试模型;针对全文检索的Solr搜索引擎项目中所涉及的软件包括:Hadoop软件(包括而不限于Hadoop核心)数据采集层:Apache Flume, Apache Sqoop平台管理:Zookeeper, YARN安全管理:Apache Sentry数据存储:HDFS, HBase, Parquet 数据处理:MapReduce, Impala, Spar
7、k开发套件:Apache Hue, Kite SDK关系型数据库系统:SAP HANA企业版ETL工具:SAP Data Services数据管控系统的二次开发量如下:主数据管理功能通过二次开发的方式实现主数据管理功能,并集成甲方已有的主数据管理系统。应实现元数据管理功能, #乙方应明确提出所能提供的项目团队在集成实施各阶段的人员参与数量和分工组成。提供人员的资质、级别以及在项目中的工作时间、工作内容。若乙方的方案建议及有关配置符合相关国际或行业标准,则应在应答书中具体说明,并附上相应的详细技术资料。若乙方的软件产品包含自己专用标准,也应在应答书中具体说明,并附上相应的详细技术资料。HDFS(
8、 Hadoop Distributed File System),是一个 HYPERLINK /view/771589.htm 分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase 不是一个关系型
9、数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase 从一开始就是为 Terabyte 到 Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。MapReduce 是用于并行处理大数据集的软件框架。 MapReduce 的根源是函数性编程中的 map 和 reduce 函数。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散
10、到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。Impala是运行于Apache Hadoop之上
11、业界领先的大规模并行处理(MPP)SQL查询引擎,它将时下流行的分布式并行数据库技术和Hadoop进行结合,帮助用户能够直接查询存储于Hdfs和Hbase的数据而不用进行数据迁移或者转变。 Impala设计之初就定位为Hadoop生态系统的一部分,因此,Impala和MapReduce,Hive,Pig以及Hadoop的其他组件,都享有共同的灵活的文件和数据格式。Spark提供了一个快速的计算,写入,以及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark使用in-memory的计算方式,通过这种方式来避免一个Mapreduce工作流中的多个任务对同一个数据集进行计算
12、时的IO瓶颈。Spark利用Scala语言实现,Scala能够使得处理分布式数据集时,能够像处理本地化数据一样Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。业务功能需求系统管理架构#整体架构方面
13、大数据平台支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。设计大数据平台整体框架,提出的建设方案应描述大数据平台对外提供的应用服务,平台内部服务组件,各服务组件之间的关系,大数据平台数据流量流向等。实现Hadoop系统与甲方现有Oracle数据库及TeraData数据仓库的无缝连接。Hadoop系统应实现主流数据仓库的功能。大数据平台建立后,会包含集团内部全量分析数据,并且支持大量并发分析操作,因此能够大数据平台支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。通过Data Services ETL工具,可以与现有的oracle以及teradata
14、数据仓库进行无缝连接。并且Hive组件可以提供主流数据仓库的功能。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。多应用方面实现大数据平台多应用管理。支持对应用的服务级别管理(SLA)。实现
15、应用的访问资源控制,支持资源隔离。为了实现一个 Hadoop 集群的集群共享、可伸缩性和可靠性,并消除早期MapReduce框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager(YARN 的每节点代理)。ResourceManager 还与 ApplicationMaster 一起分配资源,与 NodeManager 一起启动和监视它们的基础应用程
16、序。在此上下文中,ApplicationMaster 承担了以前的 TaskTracker 的一些角色,ResourceManager 承担了 JobTracker 的角色。ApplicationMaster 管理一个在 YARN 内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源,并通过 NodeManager 监视容器的执行和资源使用(CPU、内存等的资源分配)。请注意,尽管目前的资源更加传统(CPU 核心、内存),但未来会带来基于手头任务的新资源类型(比如图形处理单元或专用处理设备)。从 YARN 角度讲,Applicat
17、ionMaster 是用户代码,因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的,因此将它们当作无特权的代码对待。NodeManager 管理一个 YARN 集群中的每个节点。NodeManager 提供针对集群中每个节点的服务,从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1 通过插槽管理 Map 和 Reduce 任务的执行,而 NodeManager 管理抽象容器,这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。多租户方面实现大数据平台的多租户功能,包括但不限于多租户管理、租户的操作员管理、租户的分等分级分组管理
18、、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。可以基于yarn进行二次开发,以满足上述的各种租户管理需求。工作量预估为20人天。*统一运维监控方面统一运维监控功能包括但不限于:安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。实现图形化监控管理。监控内容包括但不限于:集群节点的运行状态、资源利用情况、网络通讯情况、图形化的启动、停止、删除节点、新增节点、迁移任务、迁移数据等操作。可视化监控管理集群节点。可视化监控管理数据对象。可视化的租户管理。实现平台日志管理。实现平台审计管理。实现告警管理。对问题源及时报警,并提供主动诊断
19、功能。对数据的备份与恢复管理。实现数据处理过程追溯。Cloudera提供了Web界面操作接口HUE,上层用户可以只用可视化的方式访问数据、提交任务等。HUE集成了用户访问控制,支持多租户隔离。Cloudera Manager提供了许多监控功能,用于监测群集(主机,服务守护进程)健康、组件性能以及集群中运行的作业的性能和资源需求。具体包括以下监控功能:服务监控查看服务和角色实例级别健康检查的结果,并通过图表显示,有助于诊断问题。如果健康检查发现某个组件的状态需要特别关注甚至已经出现问题,系统会对管理员应该采取的行动提出建议。同时,系统管理员还可以查看上的服务或角色上操作的执行历史,也可以查看配置
20、更改的审计日志。主机监控监控群集内所有主机的有关信息,包括:哪些主机上线或下线,主机上目前消耗的内存,主机上运行的角色实例分配,不同的机架上的主机分配等等。汇总视图中显示了所有主机群集,并且可以进一步查看单个主机丰富的细节,包括显示主机关键指标的直观图表。行为监控Cloudera Manager提供了列表以及图表的方式来查看集群上进行的活动,不仅显示当前正在执行的任务行为,还可以通过仪表盘查看历史活动。同时提供了各个作业所使用资源的许多统计,系统管理员可以通过比较相似任务的不同性能数据以及比较查看同一任务中不同执行的性能数据来诊断性能问题或行为问题。事件活动监控界面可以查看事件,并使它们用于报
21、警和搜索,使得系统管理员可以深入了解发生集群范围内所有相关事件的历史记录。系统管理员可以通过时间范围、服务、主机、关键字等字段信息过滤事件。报警通过配置Cloudera Manager可以对指定的事件产生警报。系通过管理员可以针对关键事件配置其报警阈值、启用或禁用报警等,并通过电子邮件或者通过SNMP的事件得到制定的警报通知。系统也可以暂时抑制报警事件,此限制可以基于个人角色、服务、主机、甚至整个集群配置,使得进行系统维护/故障排除时不会产生过多的警报流量。审计事件Cloudera Manager记录了有关服务、角色和主机的生命周期的事件,如创建角色或服务、修改角色或服务配置、退役主机和运行C
22、loudera Manager管理服务命令等等。系统管理员可以通过管理员终端查看,界面提供了按时间范围、服务、主机、关键字等字段信息来过滤审计事件条目。可视化的时间序列数据图表系统管理员可以通过搜索度量数据,系统将根据指定规则创建数据,组(方面)数据的图表,并把这些图表保存到用户自定义的仪表板。日志介绍如何访问日志中的各种考虑到你正在查看当前上下文的方式。例如,监控服务时,你可以轻松地点击一个链接,查看相关的特定服务的日志条目,通过相同的用户界面。当查看关于用户的活动信息,您可以方便地查看了作业运行时所用的作业的主机上发生的相关日志条目。报告Cloudera Manager可以将收集到的历史监
23、控数据统计生成报表,比如按目录查看集群作业活动的用户、按组或作业ID查看有关用户的磁盘利用率,用户组的历史信息等。这些报告可以根据选定的时间段(每小时,每天,每周,等等)汇总数据,并可以导出为XLS或CSV文件。同时系统管理员还可以管理包括搜索和配额等HDFS目录设置。Cloudera Navigator的审计功能支持对于数据的审计和访问,其架构如下:一旦配置了Cloudera Navigator审计功能,收集和过滤审核事件的插件将会被打开并插入到HDFS,HBase和Hive(也就是HiveServer2和Beeswax服务器)服务。该插件负责将审计事件写入到本地文件系统的审计日志中。而Cl
24、oudera Impala和Sentry则自己收集和过滤审核事件,并直接将其写入审计日志文件。支持的审计事件比如集群资源管理操作节点操作、用户操作、资源服务的启动和停止、应用程序操作等。运行在每台服务器上的CM代理(Cloudera Manager Agent)会监视审计日志文件,并将这些事件发送到Navigator审计服务器(Navigator Audit Server)。如果任何消息在发送时失败,CM代理将会自动重试。由于没有使用临时内存缓冲区,一旦审计事件被写入审计日志文件,就可以保证被交付(只要文件系统可用)。 CM代理记录并跟踪审计日志中当前成功发送的的审计事件,因此及时出现任何崩溃
25、或重新启动,只需找到上次成功发送审计事件的位置,然后就可以重新开始发送。审核日志一旦被成功发送到Navigator审计服务器,CM代理会负责清除。如果一个插件无法将审计事件写入审计日志文件,它可以丢弃事件或停止正在运行的进程(取决于配置的策略)。Navigator审计服务器执行以下功能:跟踪和合并事件存储事件给审计数据库数据处理过程追溯数据的备份与恢复是企业级系统非常关键的功能,能够保障异常故障情况下,数据的完整性。Hadoop能够实现集群间的数据备份与灾难恢复工作,但是本身的配置以及实现非常的复杂与繁琐,不易于使用。CM提供了界面化的数据备份与灾难恢复。用户只需要在界面上进行简单的配置,就能
26、够达到预期的效果。并且可以设置,数据备份的周期,带宽等参数,以保证在不影响业务的情况下,周期性的进行自动备份。周期性的服务诊断CM会对集群中运行的服务进行周期性的运行状况测试。以检测这些服务的状态是否正常。如果有异常情况会进行告警,有利于更早的让客户感知集群服务存在的问题作业调度管理方面实现统一的作业调度与编排管理功能。使用工作流的可视化的方式对工作任务进行统一编排和调度。实现作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL调度任务的部署和并行处理等功能。需基于CDH进行二次开发实现。工作量预估为10人天数据管理*结构化数据管理功能,包括但不限于对结构化数据的采集管理
27、、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。通过基于sqoop进行二次开发来实现对结构化数据的采集管理,工作量预估为2人天、通过hive、impala或者spark、Hbase等组件来实现数据加工和存储管理的要求数据平台的应用接口是多样的:HDFS:支持NFS,HTTP(Rest),Java API,FTP HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)Hive:Shell,JDBC,ODBCImpala:Shell,JDBC,ODBC,PythonSpark:Java/Scala API,SQL(Spark SQL
28、),Python,R通过Cloudera Manager 来实现实时监控通过提供Kerberos认证和基于角色授权来满足安全管理的要求*半/非结构化数据管理功能。包括但不限于半/非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能可以通过基于flume进行二次开发来满足半/非结构化数据的采集管理。工作量预估为2人天通过Navigator完成数据生命周期管理。Cloudera Search为CDH企业版提供了一站式全文检索功能,Cloudera Search是一个综合,灵活和强大的搜索解决方案,Clou
29、dera Search是一个完全开源的搜索解决方案,内置功能丰富的和可扩展的Apache Solr的项目。Apache Solr包括开源项目如Apache Lucene和Apache Tika。用户通过Cloudera Search可以不写任何程序代码,简单进行配置即可实现数据源ETL,创建并更新索引,数据入库定制查询界面等完整的数据全文检索工作流程,高度自动化的流水线提高了部署效率。通过该解决方案可以实现数据内容搜索,自然语言查询,智能化知识检索等功能。组件贡献HDFS源文档一般被存放在HDFS中。这些文档被建立索引并被变成可被搜索的。这些文件,如Lucene索引文件,被存放在HDFS中的直
30、写日志,支持Search。使用HDFS提供了更简单,基数更大,冗余和容错的供应。由于使用HDFS的结果,Search 服务器本质上是无状态的, 这意味着有在节点故障时产生最小的后果。 HDFS中还提供了额外的好处,如快照,跨群集复制,和灾难恢复。MapReduceSearch包括提前建立的基于MapReduce Job。Job可以被按需用来或者被安排来为存储在HDFS中任何支持的数据集合来建立索引。Job为可扩展的批量索引优化了集群资源。FlumeSearch 包括Flume Sink来把事件直接写入到部署在集群中的到索引器中,使其可以在摄入过程中建立数据索引。ZooKeeper协同分布式数据
31、和元数据,也被Search的分片所用。ZooKeeper提供自动的故障切换,增加了服务的弹性。HBase支持存储后数据的索引,提取列,列族和键信息作为字段。因为HBase没有使用二级索引,Search可以完成HBase里面行和表内容的全文索引Cloudera Manager部署,配置,管理和监控搜索过程和在集群服务中的资源优化,搜索不要求一定有Cloudera Manager,但是Cloudera Manager帮助简化了搜索管理。Impala进一步的分析搜索结果,实现混合查询Sqoop批量摄入数据,并让批量建立索引过程中数据可用数据平台的应用接口是多样的:HDFS:支持NFS,HTTP(Re
32、st),Java API,FTP HBase:Java API,Rest,Thrift,SQL(Apache Phoenix)通过Cloudera Manager 来实现实时监控*数据交换功能实现数据源管理功能。数据源包括但不限于:各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。实现大数据平台内各存储区之间的数据交换功能。大数据平台要提供可自定义的对外数据服务接口能力。数据交换功能要支持数据接口热扩展能力。可以通过CDH提供的数据采集组件来实现各种数据的接入。通过各组件自身提供的能力可以完成各存储区之间的数据交换。大数据平台支持自定义对外服务的接口并可以支持数
33、据接口热扩展能力。*数据采集方面支持多种数据采集方式。采集方式包括但不限于:网上数据填报、流方式、批量导入方式、实时数据采集、外部数据文件导入、异构数据库导入、主动数据抽取、增量追加方式、网上爬虫方式等。支持不同频度、不同形态的企业内外部数据采集。KafkaKafka是一个分布式的消息处理引擎,具有极高性能,同时支持对消息的订阅和发布机制,基于Kafka可以非常方便的创造出复杂的消息处理工作流SqoopSqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中
34、,也可以将HDFS的数据导进到关系型数据库中。FlumeFlume是日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。CDH创新性的将Flume和Kafka整合在一起,形成基于消息总线的分布式数据聚合系统,特别适合作为企业级数据总线基础架构和ETL框架基础架构。#数据存储方面数据存储管理功能。内容包括但不限于:数据分区划分方式、适用场景、对应计算处理框架、硬件配置推荐等。支持多存储层级,实现数据的多温度管理,能够将数据存
35、储在不同IO读写速度的不同介质上。数据生命周期管理功能。多种索引模式。具有索引分析与选择功能和工具。多数据副本管理功能。数据平衡、索引平衡的检测管理功能。实现自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。在线变动节点管理功能。支持在线增加、删除节点时,数据和索引的倾斜探测和自动平衡功能,保证平滑扩展和性能的线性增长。多种数据分区管理功能。多数据类型管理功能。多文件格式管理功能。数据自定义标签管理功能。数据块读写锁处理功能。数据文件元数据备份和恢复功能。数据压缩、表压缩功能,节省数据空间。HDFS( Hadoop Distributed File System),是一个 HYP
36、ERLINK /view/771589.htm 分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型,多文件格式、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。HDFS架构采用主从架构(master/slave)。一个典型的HDFS集群包含一个NameNode节点和多个DataNode节点。NameNode节点负责整个HDFS文件系统中的文件的元数据保管和管理,集群中通常只有一台机器上运行NameNode实例,DataNode节点保存文件中的数据,集群中的机器分别运
37、行一个DataNode实例。在HDFS中,NameNode节点被称为名字节点,DataNode节点被称为数据节点,DataNode节点通过心跳机制与NameNode节点进行定时的通信。HDFS可以实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。其主要特性如下:灵活:统一的存储可以存放结构化,半结构化及非结构化数据可扩展:根据业务需要增加或者删除节点,并提供自动平衡的能力,保证平滑扩展和
38、性能的线性增长容错:数据有多个副本以保障数据的可靠性开放:基于开源的存储格式,避免厂商锁定平衡:默认有自动平衡和重分布的功能,同时提供了提供数据平衡和索引平衡的工具。高级特性:CDH整合最新版本的HDFS,实现了对内存,SSD,磁盘相结合的异构式统一存储体系,将数据按照冷热程度不同自动存储在不同存储介质中,既可以利用内存,SSD的高性能加速实时数据分析过程,也能利用磁盘的低成本大容量存储较冷的数据。Navigator模块,是唯一原生在Hadoop生态系统上的并提供全面数据管理服务的一套解决方案。该产品通过统一的用户接口可以有效协助系统管理员、数据经理以及分析师对平台中各式各样的数据进行管治、分
39、类与探索,提供的功能有:数据发现与探索:提供了一套标注工具帮助用户定制化数据标签与自动化识别数据标签。该功能可以有效加速用户发现有用数据、分析数据结构,进而提高数据复用率与数据商业价值;元数据查询快速检索相关数据,加速数据发现流程元数据标注自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类元数据识别从外部系统中识别出Hadoop的元数据,以整合公司范围内的不同系统与处理流程提供追踪数据在系统中演变过程的功能,允许用户回朔数据源头,验证数据有效性,进而提供完善的数据生命周期管理(lifecycle management)。原生的HDFS并不支持索引,HBase也只是支持主索引。
40、在Cloudera的数据平台中通过Cloudera Search组件来支持HDFS或者HBase的索引功能,既可以支持批量的索引,也可以支持实时的索引。HDFS上的批量索引HDFS实时索引HBase上的实时批量索引Cloudera平台中的有全方位的数据备份策略,保障数据的高可靠性,有三个维度来保障数据问题导致的数据的不可用:HDFS固有的分片冗余技术Hadoop在设计是就已经考虑集群的容错,包含磁盘、节点、网络和机柜错误,任何单一设备的故障不会导致数据的不可用,而且HDFS会触发自动的数据分片恢复过程。另外在数据应用的设计中,也应该设计一定的数据存储策略,如下图:在整个数据流图中,包含原始数据
41、、数据落地区、数据使用区和归档区,每个区域都有特定的存储周期。HDFS的快照、权限控制以及回收站功能快照是指保存特定时间点的系统状况,之后如果发生用户或者应用的误操作,可以通过之前保存的快照数据恢复。在Cloudera管理平台中可以非常简单地进行快照创建、恢复以及删除快照,也可以配置快照任务。数据中心间的远程灾备功能Cloudera提供了BDR管理界面方便用户进行HDFS,Hive,Impala的数据备份功能。BDR提供了全量数据备份和增量备份的功能。和普通的文件系统一样,HDFS也支持多种不同的压缩算法,如GZip,LZO,Bzip2,Snappy等数据加工方面实现数据加工功能,提供数据加工
42、规则管理,支持不同形态数据加工管理。需基于hadoop平台组件进行二次开发。工作量预估为5人天数据清洗方面实现数据清洗功能。包括但不限于数据清洗环节管理、数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。基于商业化的ETL工具SAP Data Services产品进行实施,该产品本身提供上述功能。数据计算方面#实现对多计算框架管理的支持功能。计算框架包括但不限于:批处理计算框架、内存计算框架、流计算框架等。#提供并行计算及并发处理功能,支持多服务器、多CPU、多进程并行及并发处理数据的机制。说明计算集群集成方案与配置。说明如何实现并行处理能力,及在并行处理方面的主要瓶
43、颈和限制因素,在负载均衡、计算能力、通信能力、IO吞吐能力、存储能力、扩容能力等方面的性能上限。#支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。支持列出来的几种计算框架,hadoop本身的工作原理就是并行计算和并行处理。分布式批处理引擎 MapReduceMapReduce是Hadoop的核心,是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对
44、,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce 是用于并行处理大数据集的软件框架。 MapReduce 的根源是函数性编程中的 map 和 reduce 函数。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成了。该框架可以自动实现负载均衡并且随着节点的增加,计算能力、通信能力、IO吞吐能力、
45、存储能力、扩容能力会随之增加。同时,可以通过二次开发的方式来支持PL/SQL存储过程、分布式事务及ACID属性及自定义函数功能。数据查询方面#实现OLAP查询功能。内置OLAP函数,给出OLAP函数列表和简要描述;支持超大数据立方,支持雪花、星型等复杂分析模型。#支持CUBE,结合分布式内存计算以及分布式内存存储,提供海量数据交互式分析能力。#SQL查询功能,详细说明对国际SQL92、SQL2003标准支持情况。同时详细说明对SQL语言的扩展情况。#实现数据字典、动态SQL执行、视图、子查询、JOIN 查询功能。#支持全文检索。支持中文字符集,实现中文分词功能。#结构化数据和半/非结构化数据联
46、合查询功能。#预定义维度数据查询功能,支持简单查询、组合查询、模糊查询等。#支持存储过程、自定义函数功能。满足方案中使用两套技术构架实现上述查询方面的需求:一个是采用关系型数据库SAP HANA,另外的可以用Hadoop上的功能组件,如Impala来实现。前一种方式是本方案的核心。首先,HANA作为关系型数据库,支持数据立方体以及OLAP查询。在HANA中存在视图的概念,即封装的运算逻辑。超大规模数据立方体、星型模型、雪花模型等,都可以用视图来表达。HANA与数据库的国际标准完全兼容,支持ANSI SQL92/99/2003等标准。在HANA中同时支持数据字典、动态SQL执行、视图、子查询、J
47、OIN 查询功能。同时HANA集成了大量的非结构化处理功能:可以在结构化/非结构化数据上建立全文索引,借助此索引能够实现快速的全文检索。HANA目前支持包括中文在内的33种语言的处理。也支持结构化/非结构化数据间的联合查询。HANA中的存储过程(Stored Procedure)是一组为了完成特定功能的SQL 语句集,经编译后存储在数据库中,用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。HANA中的存储过程是可以重用的处理模块,在HANA中有两种创建PROCEDURE的方式,一种是用SQL editor进行创建,一种是用package中的创建向导进行创建。数据管控应实
48、现主数据管理功能,并集成甲方已有的主数据管理系统。通过二次开发的方式实现主数据管理功能。工作量预估为20人天应实现元数据管理功能,并集成甲方已有的元数据管理系统。通过SAP Data Services可以实现对元数据管理的具体功能,如下图所示另外,CDH中的Navigator来实现元数据管理的功能,并可以通过二次开发的方式集成已有的元数据管理系统。工作量预估为5人天元数据查询快速检索相关数据,加速数据发现流程元数据标注自动发现元数据并允许用户自定义可定制化标签与注释,便于数据追踪与归类元数据识别从外部系统中识别出Hadoop的元数据,以整合公司范围内的不同系统与处理流程实现数据质量评估功能。通
49、过Data Services来实现数据质量评估功能。DS能够分析数据背后的质量问题,可钻取至某些特定的记录。对比数据集之间的数据,了解其匹配程度数据分析与挖掘乙方应说明大数据平台可以无缝衔接的分析挖掘软件产品,并说明软件产品的适用平台、功能、操作方式、性能、特点、适用场景和优势等。Cloudera整合各种开源组件,包括Spark MLLib,Mahout,Oryx等形成完整的机器学习算法库,适用于不同场合的机器学习建模等需要;与SAS,R等传统第三方机器学习软件拥有互相认证的官方兼容性,用户可以使用熟悉的SAS,R程序在CDH平台上处理海量数据。同时CDH提供广泛的数据分析和可视化工具兼容性,
50、用户可以使用Tableau, Pentaho等可视化工具连接到CDH进行分析。SAP HANA中集成了预测算法库PAL,能够通过调用这些算法实现在库内的分析预测,另外也可以与开源的R语言进行集成。对不同级别和权限的用户使用数据、存储资源、运算资源等提供控制功能,可以实现数据访问的权限控制,存储和运算资源的弹性扩展。通过yarn与操作系统共同配合,完成对用户的存储资源、运算资源的控制功能,并实现数据访问的权限控制、存储和运算资源的弹性扩展。#对R语言提供支持。包括但不限于对R的改造、解决开源R性能、分布式并行运行、版本变更、新增算法支持等问题,提供支持分布式并行R算法的详细列表。与R拥有互相认证
51、的官方兼容性,用户可以使用熟悉的R程序在CDH或者HANA平台上处理海量数据,支持开源R算法能支持的所有算法。应能支持ANSI SQL、Python、R、Java、C/C+等语言的使用。平台能支持多种语言的使用。采用B/S,C/S或混合架构架构类型,并详细描述对终端设备、操作系统、浏览器的要求,应提供图形化界面操作支持,操作界面要求简体中文。采用B/S架构,提供中文图形化界面操作支持,支持当前主流浏览器。对终端和操作系统无特定要求。#实现对TB以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供支持。提供了Spark MLLib,M
52、ahout,Oryx等完整的机器学习算法库,可对分析挖掘中的中间数据和结果数据的灵活存储提供支持,对多数据来源输入输出提供支持。具有处理过程的数据预览功能。需要通过二次开发来实现。工作量预估为2人天对数据分析挖掘算法管理提供支持,每个算法能够灵活选择数据源。需要通过二次开发来实现。工作量预估为2人天对分析挖掘的脚本和模型共享功能提供支持,可以实现用户分析挖掘脚本和模型的发布与管理。需要通过二次开发来实现。工作量预估为2人天对数据的探索和发现提供支持,可以通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律的功能。需要通过二次开发来实现。工作量预估为20人天对图形化分析提供支持,并进行互
53、动操作。需要通过二次开发来实现。工作量预估为10人天对统计分析方法提供支持。实现统计分析方法的分布式并行计算。支持统计分析方法。对数据挖掘功能提供支持。实现数据挖掘功能的分布式并行计算。通过数据挖掘算法与hadoop或者spark集成来实现分布式并行计算。对模型预测功能提供支持。实现模型预测功能的分布式并行计算。通过hadoop或者spark来实现分布式并行计算对常用场景实现提供支持。场景包括但不限于:客户画像、产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。通过在Hadoop平台上进行二次开发实现。工作量预估为30人天对分析挖掘的脚本和模型的快速应用、服务提供支持,可以
54、快速生成分析报告和图表;可以发布实时/非实时的分析应用;可以使用Web方式访问分析应用成果。通过在Hadoop平台上进行二次开发实现。工作量预估为10人天实现对分析指标管理,要从已固化分析结果中,抽取出指标的内容。并提供这些指标的增删改查等功能,以对该指标库进行维护。通过在Hadoop平台上进行二次开发实现,工作量预估为20人天实现对分析过程的管理。通过在Hadoop平台上进行二次开发实现,工作量预估为10人天实现对分析挖掘模型固化的支持,能够根据实时/非实时数据集进行自动分析,支持通过配置方式实现工作流管理,将更多的分析工作成果自动化、长期化,反馈到相关人员或系统。通过在Hadoop平台上进
55、行二次开发实现,工作量预估为20人天技术要求总体要求乙方应采用先进、成熟、适用,并符合国际发展趋势的技术、软件产品和设备,要严格遵守有关的国际标准、国家标准、行业标准和邮政标准规范,遵循并实现本技术规范书中招标范围章节提出的相关要求,并借鉴国内外目前先进、成熟的大数据平台技术,提出合理的建议方案,保证大数据平台的先进性、前瞻性、稳定性、扩展性、安全性、开放性、灵活性、便捷性等方面性能。提供的各种技术设计文档的内容应满足GB8567-1988计算机软件产品开发文件编制指南和GB/T11457-89软件工程术语,文档错误的总字数不能超过文档总字数的1,文档中不能出现与实际情况不一致的描述错误,乙方
56、提供的文档和资料均应以光盘和纸张为载体(各10套),文件为Word文档、PDF文档或其他常用可视化文件格式。#测试报告应基于单台服务器配置不高于2C8核CPU,256G内存,300G*2、2T*14硬盘和600G*2 PCIE SSD,2个双口万兆网卡(光口)的x86服务器集群出具,至少包含测试目标、测试内容、测试环境、测试过程、测试结果(应包括但不限于并发数量、响应时间、数据采集、加载、导出、检索速度等性能指标)等方面内容。总体架构#根据以下内容提出大数据平台技术解决方案。详细说明逻辑架构、网络架构和物理架构等设计。乙方应根据自己的经验,并结合甲方现状,提供软硬件部署建议,提出详细服务器要求
57、、存储容量、网络配置、网络带宽建议(主机CPU利用率不高于75%,I/O平均利用率不高于50%),说明计算方法。提供相关测试报告,详细描述集中式部署条件下大规模并发处理机制和关键技术。系统应能满足:5万注册用户,同时在线5000用户。处理能力应满足未来35年的业务需求。存储数据不少于3PB,常用数据不少于600TB。在服务器配置为2C8核CPU,256G内存,硬盘为300G*2、2*14硬盘和600G*2 PCIE SSD,2个双口万兆网卡(光口)的条件下,数据检索响应时限要求如下:在单个服务器并发1000情况下,按关键字检索单表记录响应时限=20ms,并提供测试的具体结果;在单个服务器并发2
58、00情况下,按关键字检索多表关联记录响应时限=200ms,并提供测试的具体结果;在单个服务器并发30情况下,多表关联检索并汇总统计响应时限=200ms,并提供测试的具体结果。*服务器采用x86集群,详细描述软硬件的基础构件平台,主要包括架构、接口等。乙方软件应支持通用的接口标准,详细列举所支持的接口标准。CDH支持x86集群,目前支持多种linux操作系统,包括:redhat,centos,debian,sles,ubuntu等。*应支持分布式部署,支持服务器集群技术、支持多服务器负载均衡,可实现在线动态扩充,系统性能能够随着系统服务器数目的增加平滑线性增长。详细说明实现方式和对分布式事务处理
59、的支持能力。hadoop架构本身的特点就是支持服务器集群技术、支持多服务器负载均衡,可实现在线动态扩充,系统性能能够随着系统服务器数目的增加平滑线性增长。#详细说明对数据仓库相关能力的支持以及对现有量收系统数据仓库业务的迁移能力以及对国际通用标准测试集的测试情况。通过Hive、Hbase、impala来实现对数据仓库相关能力的支持,这些组件符合sql2003标准,可无缝支持现有的数据仓库业务。系统要求层次化、模块化,做到层次清晰,模块合理,模块可灵活抽取替换,模块与模块之间关系明确,详细描述平台系统内部模块之间的集成方式,包括模块之间的通讯机制、接入策略等,并说明如何实现内部模块重组。整体方案
60、按照层次化模型设计,模块之间的产品均可以任意替换。而且各模块所以使用的产品均为全球知名品牌,符合通用的技术标准。运行环境要求#大数据平台需支持但不局限于以下环境要求。环境软件要求生产环境红旗Linux服务器版操作系统(Red Flag Asianux Server);支持C/C+、Java、ANSI SQL、Python、R等软件和应用开发工具;可用数据不少于3PB。测试与开发环境红旗Linux服务器版操作系统(Red Flag Asianux Server);支持C/C+、Java、ANSI SQL、Python、R等软件和应用开发工具;可用数据不少于100TB。软件运行环境要求支持红旗Li
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 展览场地租赁合同
- 租赁小区场地合同
- 停薪留职合同协议
- 美术作品展览权责免除合同
- 股份制企业合同签署流程规范
- 环境咨询服务合同
- 淘宝店装修服务合同
- 养老服务合同发布
- 建筑工程质量保证和监理服务合同
- 南京师范大学中北学院《现代电力生产技术》2023-2024学年第二学期期末试卷
- 《水稻高产栽培技术》全套课件
- 呛咳患者的护理
- 凉山州西昌市人民医院招聘笔试真题2023
- 住建局条文解读新规JGJT46-2024《施工现场临时用电安全技术标准》
- 中国古代舞蹈史课件
- DB3502T 078-2022 代建工作规程
- 冠心病课件完整版本
- 光伏发电+储能项目三期项目建筑安装工程投标方案(技术方案)
- 生活垃圾转运站技术规范 CJJT47-2016知识培训
- 课前三分钟有效利用活动方案
- HIV阳性孕产妇全程管理专家共识2024年版解读
评论
0/150
提交评论