




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据整体解决方案目录大数据基本介绍企业大数据建设数据库技术基础大数据解决方案互联网工厂:生产型企业向服务型企业转型1.售前:精准广告投放、热力图、产品定制2.售中:生产过程可视化3.售后:运行数据分析,高效服务大数据时代Volume-巨量全球在2010年正式进入ZB时代,IDC预计到2020年全球将总共拥有40ZB的数据量。Variety-多样性如今的数据类型早已不是单一的文本形式,订单、日志、音频、能力提出了更高的要求。Value-价值密度一部数小时的视频,可能有用的数据仅仅只有一两秒。如何迅速“提纯”是大数据亟待解决的难题。Velocity-速度大数据区分于传统数据最显著的特征。如今已是
2、ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命。专业咨询公司IDC对大数据特征的定义-4V大数据的基本特征产业机遇应用新焦点增长新引擎竞争新动力技术变革Gartner将“大数据”技术列入对众多公司和组织机构具有战略意义的十大技术与趋势之一企业影响数据资产化决策智能化商业价值辅助决策发掘信息优化流程大数据的价值0102030405数据来源错综复杂数据挖掘模型建立数据开放与隐私权衡大数据管理与决策大数据人才缺口现如今几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。关于大数据分析,人们鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法
3、。造成这种窘境的原因主要有以下两点:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。我国一些部门拥有大量数据但宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资.在今时今日的商业世界中,高管的决策依然更多地依赖个人经验和直觉,而不是基于数据。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂智慧、懂技术、懂管理的大数据建设专业队伍大数据的挑战大数据产业链目录大数据基本介绍企业大数据建设数据库技术基础大数据解决方案数据仓库全文库关联库专题库基础数据应用数据配置数据数据质量检测数据资源监控数据资源目录数据价值评价企
4、业数据交易咨询报告交易数据分析服务数据变现结构化库全文库音视频库元数据库数据字典数据安全管理Hadoop/SparkMPP分布式数据库数据标准管理企业级数据运营大数据平台大数据人才建设企业大数据架构数据管理企业大数据建设目的:(1)大规模历史数据可靠存储、安全访问、高效查询平台;(2)大数据价值挖掘应用。企业大数据建设三步:(1)技术升级;(2)数据整合;(3)数据变现。大数据建设步骤建议数据变现数据整合技术升级第一阶段第二阶段第三阶段MPP分布式数据库Hadoop结构化数据非结构化数据结构化数据半结构化/非结构化数据高价值密度数据低价值密度数据大数据应用用MPP处理PB级别的、高质量的结构化
5、数据,同时为应用提供丰富的SQL支持能力;用Hadoop实现半结构化、非结构化数据处理。这架构可同时满足结构化、半结构化和非结构化数据的处理需求。大数据应用第一阶段:技术升级第二阶段:数据整合企业数据外企业数据数据源互联网数据数据仓库全文库关联库专题库数据管理基础数据应用数据配置数据数据质量检测数据资源监控数据资源目录数据价值评价结构化库全文库音视频库元数据库数据字典数据安全管理数据标准管理第三阶段:数据变现企业数据交易咨询报告交易数据分析服务数据变现企业数据交易。企业内部数据和数据分析结果很多时候是其他企业的业务基础,企业把内部数据和分析结果经过加工、脱敏等处理后,作为商品通过大数据交易平台
6、(如贵阳大数据交易所)提供给第三方机构使用,变现数据价值。咨询报告交易。由专业的研究员对数据加以分析、挖掘,找出行业的定量特点进而得出定性结论,这些咨询报告面向社会销售。数据分析服务。用户利用企业的大数据平台提供的丰富算法和模型,进行数据处理、数据统计、数据挖掘和结果输出等,数据集由系统统一进行管理,区分私有和公有数据,可以保证私有数据只供持有者使用。目录大数据基本介绍企业大数据建设数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,特点:结构固定、数据定长.半结构化数据
7、:就是介于完全结构化数据和完全无结构的数据之间的数据,如:HTML、XML。它是结构化的数据,但是结构变化很大。用XML格式来组织并保存到CLOB字段中,XML可能是最适合存储半结构化的数据了。将不同类别的信息保存在XML的不同的节点中就可以了。非结构化数据:像图片、声音、视频等等。这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中,对以后检索非常麻烦。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。现在还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的
8、一种。数据类型大数据,4个V文件报表邮件纳税分析决策支持预测结构化+半结构化公安网监国安技侦舆情监控银监会稽查食品溯源环保监测结构化+半结构化音视频地震勘探气象云图卫星遥感雷达数据物联网非结构为主行业大数据的体量与互联网大数据的体量相当,在一个数量级上行业大数据的价值密度高于互联网数据行业大数据为数据库厂商带来的商业机会和商业价值高于互联网大数据。行业大数据,ZB级互联网大数据经营类管理类监管类专业类电信信令电信话单金融细账金融票据电力调度智能电网经营分析结构化为主10%结构化30%半结构化60%非结构化价值密度结构化半结构化非结构化行业与互联网数据目录大数据基本介绍数据库技术基础数据类型及行
9、业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案memoryCPUCPUdisksmemoryCPUCPUmemoryCPUCPUInterconnection NetworkShared storage:SAN,NAS数据传统数据库Shared Disk架构disksdisksmemoryCPUCPUdisksmemoryCPUCPUdisksmemoryCPUCPUInterconnection Network数据数据分布策略Hash,Range,RandomMPP架构横向扩展最多192个节点MPP数据库Shared Nothing架构MPP Cluster大规模
10、并行计算统一接口层收到上层发送的查询请求,根据指定的集群节点或经过负载均衡后选出的集群节点,将SQL发送至指定节点的GCluster层。收到请求的节点GCluster层负责对SQL进行词法、语法检查,进行查询优化,生成分布式执行计划,将生成的分布式执行计划发送至集群相关节点的GNode层进行执行。GCWare层对各节点当前状态进行监控,保证分布式查询计划可以正确执行。集群各节点GNode层对执行计划进行解析和执行。涉及到数据在不同节点间的搬运、结果汇总等操作通过GCluster层进行统一调度,GCWare层在各节点执行过程中对节点状态进行监控,各节点将最终执行结果发送至SQL发起节点进行汇总,
11、再通过统一接口层返回给上层应用。高可用性SafeGroupMPP ClusterdatabaseT1p2T1p1T1p3node1T1p2T1p1T1p3node3T1p2T1p1T1p3node2数据2个副本Replicator/复制引擎一个safegroup动态扩展能力GBase Clusterdatabase 通过Safegroup 动态扩展集群节点 可以实际扩展到64x3个节点 每个节点可以处理10-20TB有效数据 每个节点同时提供计算和存储能力 Gcware 负责新节点的数据同步目录大数据基本介绍数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比
12、大数据解决方案实时计算内存计算分布式文件系统HDFS批处理MapReduce数据库HBaseHivePig内存计算SparkSharkStreaming消息队列Kafka流处理Storm资源管理YARN离线计算Hadoop基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运行多种计算框架,包括离线计算、内存计算和实时计算。分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减少总体成本,可扩展,能构建大规模的应用
13、离线计算: MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,适合数据密集型计算场景。内存计算:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。实时计算:MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。 Hadoop分布式计算HDFS分布式文件系统HDFS设计理念大规模数据集横向线性扩展硬件错误是常态复本冗余机制流式
14、数据访问批量读而非随机读Master/Slave主从架构namenodedatanodeHDFS数据块和副本复本考量数量布局可靠性、写入带宽、读取带宽折中默认复本数3默认布局第1个放在客户端所在节点第2个不同机架第3个与第2个同一机架很好的稳定性、负载均衡,较好的写入带宽、读取性能,块均匀分布批处理Map/Reduce一个并行计算的框架提供并行计算能力,随着节点数增加近似线性递增分而治之的思想两个核心操作map和reduceMap操作就是把一组数据一对一的映射为另一组数据reduce操作就是整合全文每个单词出现的次数Hadoop Map/ReduceHadoop MapReduce为批处理而设
15、计以磁盘为中心的计算框架数据每次都需要从HDFS文件系统中读出计算的中间结果都被写入磁盘任务中间结果必须经过磁盘不适合交互式或者迭代式计算复杂运算极为耗时MapReduce的调度框架为长时间任务设计MapReduce的调度框架为长时间任务设计启动开销过大没有索引,全数据扫描内存计算SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HD
16、FS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法Spark特点中间结果内存存储合并任务流不是Hadoop的一个变种(e.g., Tez, HaLoop, etc)全新的,高速的,类似Map/Reduce的分布式计算引擎支持将数据缓存在内存中,为迭代式查询优化iter. 1iter. 2. . .InputHDFSreadHDFSwriteHDFSreadHDFSwriteiter. 1iter. 2. . .Input通用DAG执行和调度,支持延迟计算和高效优化轻量级的调度框架和多线程计算模型,极低的调度和启动开销比Hadoop快10 x100 x兼容
17、Hadoop存储API可以读写存储在HDFS或HBase上的数据支持其他数据源,需要实现Hadoop InputFormat实时计算StormStorm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。即Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。Storm可用来并行处理密集查询。Storm的拓扑结构是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。举个例子Distributed RPC可以做并行搜索或者处理大集合的数据。信息流处理分布式远程程序调用Storm可进行连续查询并把结果即时反馈给客户端。比如把Twitte
18、r上的热门话题发送到浏览器中。连续计算目录大数据基本介绍数据库技术基础数据类型及行业分布MPP分布式数据库Hadoop分布式计算数据库技术对比大数据解决方案OldSQL一种架构支持多类应用 (One Size Fits All)分析 互联网事务M. Stonebraker多种架构支持多类应用OldSQL 事务NoSQL 互联网NewSQL 分析大数据时代架构多元化 基于Stonebraker教授的论文。传统数据库的基本架构是30年前以事务处理为主要应用设计的。大数据的主要应用是分析类的,应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。数据库行业
19、出现三个互为补充的三大阵营,OldSQL、NewSQL和NoSQL。 (斯教授主创的数据库产品Ingres、Informix、PostgreSQL和Vertica)大数据引发处理架构变革OldSQLNewSQLNoSQL市场定位交易型:实时,面向应用,关注热数据关系型交易型:实时,面向应用,关注热数据关系型分析型:非实时,面向统计分析,关注全部数据关系型分析型:非实时,面向统计分析,关注全部数据非关系型代表产品Oracle、Sybase、SQLServer引跑DBOneGbase-8A、EMC Greenplum、HP VerticalHBase数据类型结构化数据结构化数据结构化数据结构化数据
20、,半结构化数据SQL标准SQL、PL/SQL标准SQL、PL/SQL标准SQL、PL/SQL30%OLTP事务处理增/删/改/查ACID:原子性、一致性、隔离性、持久性实体完整性、参照完整性、域完整性增/删/改/查ACID:原子性、一致性、隔离性、持久性实体完整性、参照完整性、域完整性适合:增/查删/改效率低ACID:原子性、一致性、隔离性、持久性实体完整性、参照完整性、域完整性增/查,删/改效率低弱一致性存储SMP共享存储和总线,行存储Share-nothing本地存储,行存储Share-nothing本地存储,列存储Share-nothing本地存储,列存储扩展性Scale-up纵向扩展,
21、如Oracle RACScale-out横向扩展,数据量P级以上Scale-out横向扩展,数据量P级以上Scale-out横向扩展,数据量P级以上性能1性能提升10倍查询分析类性能提升10-100倍(P级数据秒级响应)查询分析类性能提升10-100倍(P级数据秒级响应)价格2025万/CPU20-30万/节点10-15万/节点8-10万/节点OldSQL vs. NewSQL vs. NoSQL列存储区别传统行存数据库,数据在磁盘中按照列的方式迚行组织和物理存储。行存储架构和列存储架构的数据库分别适用二不同的应用,具备各自的优劣势,如下图所示。列存储架构对查询、统计和分析类操作具备天然的优势
22、。只需要将涉及到的列写入内存,大量降低I/O。以列为单位进行压缩,由二数据类型的一致性,方便进行压缩,实现高压缩比。在数据包内自劢建立索引,实现数据即索引。行存储架构癿优势在于事务操作,即对数据库进行增删改操作,若没有索引,其查询需要使用大量的I/O,并且建立索引和物化规图需要花费大量的时间和资源。列存储 vs 行存储能够按照数据类型和数据分布规律自动选择最优压缩算法,并设置了库级,表级,列级压缩选项,灵活平衡性能不压缩比的关系,而且压缩与解压缩过程对用户是透明。压缩比可达到1:5 至1:20 甚至更优,远远高于行存储。节省50%-90%的存储空间,大大降低数据处理能耗。内置数十种不同等级的压
23、缩算法,上图展示了一种对数值型数据的压缩算法。压缩态下对I/O 要求大大降低,数据加载和查询性能明显提升。列存储数据压缩粗粒度索引,每个数据包在加载数据时自动建立,包含过滤信息和统计信息,在数据查询时只需要解包就能得到统计值,可进一步降低I/O,对复杂查询癿优化效果明显。表中的所有列自动建立。不需用户手工建立和维护。索引本身占空间很少,扩展性很好,建立索引后无膨胀。建立索引的速度快,后续的数据包建立索引的速度不会受到前面数据包的影响。列存储智能索引DCDCDCDCDCDCDCDCDCDCDCDC列1DCDCDCDCDCDCDCDCDCDCDCDC列2DCDCDCDCDCDCDCDCDCDCDC
24、DC列3DCDCDCDCDCDCDCDCDCDCDCDC列n最大值,最小值,平均值索引:数据包统计信息最大值,最小值,平均值最大值,最小值,平均值最大值,最小值,平均值列存储结构NewSQL事务型 引跑DBOne行存标准SQL,PL/SQL适合:增删改查NoSQL分析型HBase列存SQL30%适合:增加和查询NewSQL分析型南大Gbase/HP Vertical/GP列存/压缩/索引适合:增加和查询标准SQL去IOEX86本地存储Scale out数据库小结目录大数据基本介绍企业大数据建设数据库技术基础大数据解决方案DataEngine大数据架构兼容性好:基于开源Hadoop分布式计算框架
25、,提供开放、兼容的大数据计算能力;硬件无关:支持物理机布署、虚拟机布署;支持独立布署、云平台布署;安装便捷:支持一键式快速布署,几分钟即可完成集群创建;扩展性强:集群数量从几台到上千台,并支持在线横向扩展;方便运维:支持图形化管理工具,运维管理简单易用;兼容SQL:100兼容标准SQL92,包括Hadoop和MPPLinux操作系统X86服务器集群资源管理YARN任务调度Oozie安全管理Kerberos文件系统HDFS集群安装布署消息队列Kafka数据管理可视化数据挖掘离线计算MapReduceMPP数据库HBase数据库统一用户管理自助服务Hive数据仓库同步系统ZooKeeper内存计算
26、Spark流计算Storm数据交换全文检索工作流管理集群监控管理大数据应用DataEngine大数据平台统一安全管理SQL即席查询DataEngine : Hadoop+40原生Hadoop是一套分布式计算框架,可以处理低价值密度半结构化、非结构化数据,不能处理高价值密度的关系型结构化数据。原生Hadoop是一个开源生态圈,商用化需要经过二次开发,提高稳定性、可靠性、安全性、易用性等,提供数据从ETL采集到可视化BI展示的端到端解决方案。随着Hadoop的发展,用户对Hadoop有了更高的期待,对云与大数据融合、大数据与安全融合、网络对大数据支撑等提出了新的要求。开放兼容MPP数据库自动安装混合架构云平台融合多业务高可靠因此,H3C在Hadoop基础上进行了大量优化,并与H3C其他产品线高度融合,提供端到端的大数据解决方案。基于开源Hadoop架构增强开发,可以快速集成开源社区优秀组件;提供标准API,兼容标准SQL,便于大数据应用开发、数据分析挖掘,为ISV提供良好开发接口;提供
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 谢玲:护理安全管理体系构建与实践
- 黄疸护理要点与实践
- 安全培训报告
- 血栓防治策略与临床实践
- 2025购房补贴借款合同范本「版」
- 质量员练习题复习试题含答案
- 老年护理服务体系优化路径
- 导管防脱护理规范要点
- 高渗透面部护理
- 哮喘的雾化治疗
- 学生集中配餐管理制度
- 婚纱店合伙合同协议书
- 温州市光伏发电研究报告-温州市光伏发电行业市场深度调研与投资前景分析
- 工程资金共管协议书
- 2025年安全管理员安全培训考试试题带答案(培优)
- 广东省广州市越秀区2025届七下生物期末学业水平测试试题含解析
- 2025年建筑制图试题及答案
- 危险化学品企业“安全领导力”专题培训指导材料(雷泽佳编制-2025A1)
- 浙江省台金七校联盟2024-2025学年高一下学期5月期中联考地理试题(原卷版+解析版)
- 2025届天津市红桥区高三下学期二模历史试题(含答案)
- 虚拟电厂的智能优化与管理研究-第1篇-全面剖析
评论
0/150
提交评论