大数据平台产品解决方案_第1页
大数据平台产品解决方案_第2页
大数据平台产品解决方案_第3页
大数据平台产品解决方案_第4页
大数据平台产品解决方案_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据平台产品解决方案1.平台应用背景 大数据是智慧城市各个领域都能够实现“智慧化”的关键性支撑技术,智慧城市的建设离不开大数据。建设智慧城市,是城市发展的新范式和新战略。大数据将遍布智慧城市的方方面面,从政府决策与服务,到人们衣食住行的生活方式,再到城市的产业布局和规划,直到城市的运营和管理方式,都将在大数据支撑下走向“智慧化”,大数据成为智慧城市的智慧引擎。大数据平台是基于先进的大数据技术和云计算平台的、具有完全自主知识产权的数据存储、处理和分析平台,能够从数据中发现知识并加以利用,不间断地通过信息终端和信息服务,信息需求者可按需随时获取,从而增强环境的友好性,提高城市管理的效率和科学性。2.平台解决方案2.1平台架构 大数据整合支撑平台是基于先进的大数据技术和云计算技术的、具有完全自主知识产权的大数据处理平台,涵盖了数据抽取、数据转换、数据清洗、数据存储、数据分析、数据挖掘、数据交换与共享等环节,能够为政府部门和企事业单位提供数据处理全生命周期的综合性数据服务。平台架构采用组件化和模块化的设计思想,降低系统模块之间的耦合性,提高平台整体对不同应用场景的适应性。平台还预留二次开发接口,为平台的扩展奠定稳定基础。系统结构如下图所示:2.2平台功能数据整合系统数据整合系统可以将来自不同数据源的数据进行整合,然后加载到本地数据库或云存储设施中。在进行数据整合的过程中,会根据用户定义的规则,对数据进行抽取、转换和清洗,保持数据的正确性、一致性和完整性。数据存储系统根据数据用途的不同,数据存储系统分为业务型数据处理子系统和分析型数据处理子系统。业务型数据处理子系统业务型数据处理子系统保存和管理由各个管理信息系统产生的业务数据,是数据整合系统最终保存数据的目的地。主要包含以下功能和特性:数据保存支持多种结构的数据,包括关系型数据、半关系型数据以及非关系型数据等。数据管理提供可视化的数据资源管理功能,包括数据位置、数据模式、服务器状态等。SQL优化提供SQL查询优化功能,对数据请求制定优化的查询计划,加快数据查询速度。负载均衡使用集群技术,解决大数据操作的负载均衡问题,保证系统整体的可用性和性能。业务型数据处理子系统主要有两个作用:作为数据交换和共享的来源大数据平台是一个开放的平台,平台内的数据是开放的而不是封闭的。业务修补过数据处理子系统中的数据可以通过服务接口交换和共享到外部应用系统中,增加数据的使用范围,消除信息孤岛。为数据分析和挖掘的来源数据仓库是进行数据分析和数据挖掘的基础,而数据仓库的数据则来源于业务系统。业务型数据处理子系统可以为数据仓库提供数据来源,构建有利于数据分析和数据挖掘的数据结构。分析型数据处理子系统分析型数据处理子系统用来保存和管理用于进行数据分析和挖掘目的的数据,支持上层的数据分析、数据挖掘和数据统计服务。要包含以下功能和特性:数据仓库和数据集市数据仓库和数据集市是进行数据分析的基础,为各类分析和挖掘算法提供数据来源。数据仓库中的数据结构是根据数据分析或数据挖掘的主题进行设计的,以区别于业务子系统的数据结构。这样做的目的是建立多维数据集,多维数据集有利于数据分析或数据挖掘算法在大数据集下的执行效率,提高响应速度。主题管理主题管理采用可视化的方式对主题的创建、编辑、删除等操作进行管理,提高数据仓库的可维护性。资源管理提供系统中各节点的资源使用和状态诊断功能,包括内存使用情况、存储使用情况数、网络使用情况、日志分析等。动态扩展支持系统集群节点的动态扩展,当集群的容量不能满足需求时,通过简单的添加计算节点,就可实现处理能力的提升。分布式计算支持分布式计算技术,使计算任务在集群的不同节点上并行执行,提高系统的吞吐率,提高计算速度。数据压缩支持数据压缩技术,按照特定的压缩算法对存储和传输的数据进行压缩,减少数据的存储空间,提高传输速度。数据应用服务数据应用服务为不同类型的外部系统提供访问大数据平台提供标准化的服务接口,简化外部应用使用大数据平台的复杂性。数据应用服务采用可扩展的架构设计,可根据平台功能的演化动态增加相应的服务。目前,数据应用服务主要包括以下几种:数据交换与共享服务数据交换与共享服务可以将大数据平台和外部系统之间实现数据的交换,还可以使外部应用系统之间通过大数据平台实现服务调用。只要按照数据交换与共享服务规定的数据交换协议标准,就可以实现系统之间的数据交换与共享。主要包括以下功能和特征:数据传输支持在大数据平台和外部系统之间以异步的方式进行大数据量的数据传输,并且支持断点续传。服务总线服务总线可以将应用系统提供的服务进行集成,外部应用系统之间可以通过大数据平台进行服务的调用,降低应用系统维护可用服务的复杂性。数据分析与挖掘服务商业智能可以对数据进行分析和挖掘,能够使企业从数据中发现知识并加以利用,优化业务运营,识别业务风险,预测新的商业机遇,提高企业的市场竞争力。主要包含以下功能和特性:数据分析支持对数据进行分析、提炼、统计,辅助决策者进行决策。数据挖掘支持对数据进行趋势预测和关联分析,挖掘数据背后的知识。数据可视化支持以多种方式(报表、图表、仪表盘、驾驶舱等)对数据分析和数据挖掘的结果进行可视化展示。数据管控数据管控为大数据平台提供安全服务,对各种网络请求进行身份认证和权限鉴别。主要包含以下功能和特性:用户管理提供用户管理功能,支持用户、用户组、资源库等的创建,并支持用户与访问资源权限的绑定和用户组与资源访问权限的绑定等操作。权限认证提供权限认证功能,为大数据平台提供运行时的用户访问权限认证服务,并提供易用的访问接口。多种持久化方式支持LDAP、数据库、文件系统等多种数据持久化方式,提高系统部署的灵活性和兼容性。2.3平台特点大数据整合支撑平台的特点包括:3.平台技术框架3.1数据处理流程3.2数据处理框架 Hadoop是一个开源的,可以编写和运行分布式应用来处理大规模的框架。它是通过Google的MapReduce编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。3.3Hadoop生态系统Hadoop已经发展成为包含多个子项目的集合。核心内容是MapReduce和Hadoop分布式文件系统(DHFS)。它也包含了Common、Avro、Chukwa、Hive、Hbase等子项目,他们在核心层的基础上提供了高层服务,为Hadoop的应用推广起到了重要作用。如图所示:HadoopCore/Common从Hadoop0.20版本开始,Hadoop的Core项目便更名为Common.,它是Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,主要包括FileSystem、PRC和串行化库。Hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。HbaseHBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。AvroAvro是dougcutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程PRC调用以及简单的动态语言集成功能。MapReduce实现了MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式系统上。HDFS分布式文件系统,其设计目标包括:检测和快速恢复硬件故障;数据流的访问;简化一致性模型等。ZooKeeperZookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。PigPig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。ChukwaChukwa是基于Hadoop的大集群监控系统,是开源的数据搜集系统。通过HDFS来存储数据,并依赖MapReduce来处理数据。3.4Hadoop优势高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布处理。高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展到数以千计的节点中去。高效性,以并行的方式工作,通过并行处理加快处理速度。高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。廉价性,框架可以运行在任何普通的PC上。4.平台运维方案人类正从IT时代走向DT时代,“大数据时代,随着企业IT架构的不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂,从而给运维工作带来了巨大的挑战,特别是分支机构众多的大型企业或垂直层级较多的政府单位,为了保障良好的用户体验和数据时效性,运维工作显得十分艰巨。●IT系统管理、业务运行状况不在取决于技术专家的“经验评估”和“运行良好”报告。●未来的IT运维管理被赋予了更多的信息挖掘和数据分析的重任。对于这些体量超大的数据中心,原有的运维思路和运维方法已难以满足其海量数据计算、存储、应用和安全等多种职能的需求。一方面是成千上万台IT设备,以及各种软件系统;另一方面繁多复杂的业务应用,数据中心需要借助先进的自动化运维管理模式来实现大体量系统管理。大数据的收集、整理、分析和应用,需要依赖高度可靠的软硬件支撑体系。IT监控系统每分钟要进行上万个数据采集已非易事,而对采集上来的海量数据进行处理和分析才是更难的挑战。如果数据未经过处理,这就对运维没有任何意义和价值。因此,实时采集和海量分析能力的IT运维管理产品将会成为数据分析应用的新增长点。大数据运维管理系统是结合近十余年的IT运维经验,以解决用户实际问题为根本目标,从实用性、易用性的角度出发,收集、索引和利用整个IT基础架构(服务器、存储、网络、数据库和中间件等)的所有数据,为运维和业务支撑提供精确的数据分析。4.1性能对业务系统下的服务器的CPU平均利用率、I/O读写速率、内存利用率、内存页交换速率、网络收发包率等26项重要性能指标进行TopN的对比分析,帮助用户确认所需重点关注的设备和基础架构的性能瓶颈。4.2系统安全评测提供操作系统安全配置规范检查功能,支持Windows、Linux、Solaris、AIX、HP-UINX操作系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论