数据库数据仓库大数据平台数据中台数据湖对比分析_第1页
数据库数据仓库大数据平台数据中台数据湖对比分析_第2页
数据库数据仓库大数据平台数据中台数据湖对比分析_第3页
数据库数据仓库大数据平台数据中台数据湖对比分析_第4页
数据库数据仓库大数据平台数据中台数据湖对比分析_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清晰它们之间的区别与联系。本文将以数据研发有关领域为例,对比分析我们工作中高频出现的几个名词,重要涉及下列几个方面:数据什么是大数据数据分析与数据挖掘的区别是什么数据库什么是数据库数据库中的分布式事务理论数据仓库什么是数据仓库什么是数据集市数据库与数据仓库的区别是什么大数据平台什么是大数据平台什么是大数据开发平台数据中台什么是数据中台数据仓库与数据中台的区别与联系数据湖什么是数据湖数据仓库与数据湖有什么区别与联系但愿本文对你有所协助,烦请读者诸君分享、点赞、转发。数二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范畴的数据集合,含有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特性。我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增加的时代,业务需求增加增进技术迭代,技术满足需求后又形成闭环增进业务持续增加,从而形成一种闭环。数据分析与数据挖掘的区别是什么?数据分析能够分为广义的数据分析和狭义的数据分析。广义的数据分析就涉及狭义的数据分析和数据挖掘。我们在工作中经经常说的数据分析指的是狭义的数据分析。数据分析(狭义)DataAnalysis数据挖掘

DataMining定义根据分析目的,用适宜的统计分析办法及工具,对收集来的数据进行解决与分析,提取有价值的信息,发挥数据的作用。数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等办法,挖掘出未知的、且有价值的信息和知识的过程。作用重要实现三大作用:现状分析、因素分析、预测分析(定量)。数据分析的目的明确,先做假设,然后通过数据分析来验证假设与否对的,从而得到对应的结论。数据挖掘重要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布等,这就是事先未知的,但又是非常有价值的信息。办法重要采用对比分析、分组分析、交叉分析、回归分析等惯用分析办法。重要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等办法进行挖掘。成果数据分析普通都是得到一种指标统计量成果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才干发挥出数据的价值与作用。输出模型或规则,并且可对应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值顾客、流失与非流失、信用优良中差等。数三、数据库据库什么是数据库?数据库是按照数据构造来组织、存储和管理数据的仓库。是一种长久存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。普通而言,我们所说的数据库指的是数据库管理系统,并不单指一种数据库实例。根据数据存储的方式不同,能够将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADBforMysql等。数据库中的分布式事务理论ACID传统关系型数据库事务设计原则,下列四点必须全部满足:原子性Atomicity:事务中操作要么都发生,要么都不发生;一致性Consistency:事务前后数据完整性保持一致;隔离性Isolation:多个顾客并发事务互相隔离;持久性Durability:事务被提交后数据的变化就是永久性的。举例阐明:A账号有200元,B账号有100元,现在A给B账户进行转账操作:A减少100元,同时B增加100元,两个操作要么都成功要么都失败,满足原子性;
A减少的金额,和B增加的金额要一致,按照一致性;
如果A给B转账的同一时刻,B又给C转账,这两笔交易是互相隔离,满足隔离性;
A给B转账100元,事务提交之后,在查询账号,A减少100元,B增加100元,满足持久性;
CAP理论,Berkerly大学有位EricBrewer专家提出了一种CAP理论,在,麻省理工学院的SethGilbert(赛斯·吉尔伯特)和NancyLynch(南希·林奇)发表了布鲁尔猜想的证明,证明了CAP理论的对的性。所谓CAP理论,是指对于一种分布式计算系统来说,不可能同时满足下列三点:一致性(Consistency)等同于全部节点访问同一份最新的数据副本。即任何一种读操作总是能够读到之前完毕的写操作的成果,也就是说,在分布式环境中,不同节点访问的数据是一致的。可用性(Availability)每次请求都能获取到非错的响应——但是不确保获取的数据为最新数据。即快速获取数据,能够在拟定的时间内返回操作成果。分区容错性(Partitiontolerance)以实际效果而言,分区相称于对通信的时限规定。系统如果不能在时限内达成数据一致性,就意味着发生了分区的状况,必须就现在操作在C和A之间做出选择。即指当出现网络分区时(系统中的一部分节点无法与其它的节点进行通信),分离的系统也能够正常运行,即可靠性。一种分布式的系统不可能同时满足一致性、可用性和分区容错性,最多同时满足两个。当解决CAP的问题时,能够有下列几个选择:满足CA,不满足P。将全部与事务有关的内容都放在同一种机器上,这样会影响系统的可扩展性。传统的关系型数据库。如MySQL、SQLServer、PostgresSQL等都采用了此种设计原则。满足AP,不满足C。不满足一致性(C),即允许系统返回不一致的数据。其实,对于WEB2.0的网站而言,更加关注的是服务与否可用,而不是一致性。例如你发了一篇博客或者写一篇微博,你的一部分朋友立马看到了这篇文章或者微博,另一部分朋友却要等一段时间之后才干刷出这篇文章或者微博。即使有延时,但是对于一种娱乐性质的Web2.0网站而言,这几分钟的延时并不重要,不会影响顾客体验。相反,当公布一篇文章或微博时,不能够立刻公布(不满足可用性),顾客对此必定不爽。因此呢,对于WEB2.0的网站而言,可用性和分区容错性的优先级要高于数据一致性,固然,并没有完全放弃一致性,而是最后的一致性(有延时)。如Dynamo、Cassandra、CouchDB等NoSQL数据库采用了此原则。满足CP,不满足A。强调一致性性(C)和分区容错性(P),放弃可用性性(A)。当出现网络分区时,受影响的服务需要等待数据一致,在等待期间无法对外提供服务。如Neo4J、HBase、MongoDB、Redis等采用了此种设计原则。四、数据仓库仓库什么是数据仓库?数据仓库(DataWarehouse)是一种面对主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。面对主题的:根据使用者的需求,将来自不同数据源的数据围绕着多个主题进行分类整合。
集成的:来自多个数据源的数据按照统一的原则集成于数据仓库中。
相对稳定的:数据仓库中的数据是一系列的历史快照,不允许修改或删除,只涉及数据查询。
反映历史变化的:数据仓库会定时接受新的集成数据,从而反映出最新的数据变化。
数据库与数据仓库有什么区别严格来讲数据仓库不是一门技术,也不是一种产品。像前文提到的关系型数据库MySQL和Oracle都属于一种产品。那么是什么数据仓库的,见名知意,其实就是存储数据的仓库,数据的来源有诸多个,能够统一在数据仓库中进行汇合,然后通过统一的建模,加工成服务与数据分析的数据模型,辅助公司分析决策。那么,数据仓库该怎么构建呢,现在使用Hive构建数据仓库的比较多,本文不会过多分析这些大数据技术。总之一句话,数据仓库涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,普通需要多个技术进行组合使用。数据仓库的本质是OLAP,即是做在线分析解决,这是与数据库的本质区别。尚有一点既然是数据仓库,必定是要加工数据,那么加工数据必定耗时间,因此加工数据在实际的应用中又分为批解决和实时解决。数据库是为理解决OLTP而存在的,而数据仓库是为了分析数据而存在的。数据库的数据是数据仓库的数据源,即将数据库的数据加载至数据仓库,因此说,数据仓库不生产数据,只做数据的搬运工。尚有一点就是,数据仓库并不是必须的,但是对于一种业务系统而言,数据库是必须的。只有在业务稳定运转的状况下,才会去构建公司级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。数据库数据仓库数据解决类型OLTPOLAP使用人员业务开发人员分析决策人员核心功效日常事务解决面对分析决策数据模型关系模型(ER)多维模型(雪花、星型)数据量相对较小相对较大存储内容存储现在数据存储历史数据操作类型查询、插入、更新、删除查询为主:只读操作、复杂查询什么是数据集市?数据集市(DataMart),也叫数据市场,就是满足特定的部门或者顾客的需求,按照多维的方式进行存储,涉及定义维度、需要计算的指标、维度的层次等,生成面对决策分析需求的数据立方体。从范畴上来说,数据集市的数据是从数据库,或者是更加专业的数据仓库中抽取出来的。数据集市分为附属的数据集市与独立的数据集市:独立型数据集市的数据来自于操作型数据库,是为了满足特殊顾客而建立的一种分析型环境。这种数据集市的开发周期普通较短,含有灵活性,但是由于脱离了数据仓库,独立建立的数据集市可能会造成信息孤岛的存在,不能以全局的视角去分析数据。
附属型数据集市的数据来自于公司的数据仓库,这样会造成开发周期的延长,但是附属型数据集市在体系构造上比独立型数据集市更稳定,能够提高数据分析的质量,确保数据的一致性。
指标数据仓库数据集市数据来源OLTP系统、外部数据数据仓库范畴公司级部门级或工作组级主题公司主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度历史数据大量的历史数据适度的历史数据目的解决海量数据,数据探索便于某个维度数据访问和分析,快速查询五、大数据平台平台什么是大数据平台?大数据平台是一种集数据接入、数据解决、数据存储、查询检索、分析挖掘等、应用接口等功效为一体的平台。通俗的理解涉及Hadoop生态的有关产品,例如Spark、Flink、Flume、Kafka、Hive、HBase等等等典型开源产品。提到Hadoop生态技术,不得不提的是Apache和Cloudera。国内绝大部分公司的大数据平台都是基于这两个分支的产品进行商业化包装和改善。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮InsightHD、中兴DAP等产品。其实,对于大数据平台,业内并无一种固定的能力范畴。现在比较权威的是全国信标委今年公布了大数据平台的国标《GB/T38673-信息技术大数据大数据系统基本规定》,将大数据系统划分为数据收集、数据存储、数据预解决、数据解决、数据分析、数据访问、资源管理、系统管理8个部分,分别对各部分提出技术规定。因此会发现每个厂家推出的大数据平台都包含诸多功效、甚至组合的产品,属于大数据的产品种类非常多。什么是大数据开发平台?由于大数据技术诸多,单独使用的学习成本很高,为了提高数据开发的效率,也就出现了大数据开发平台。简朴讲,数据开发平台就是集成了大数据平台的一种开发套件,例如阿里云的DataWorks就是一种代表,DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,协助公司专注于数据价值的挖掘和探索。六、数据中台什么是数据中台?阿里巴巴于云栖大会正式对外提出数据中台概念,数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。中台不是一种产品!与业务强有关。数据中台的某些定义:序号定义定义出处1中台就是“公司级能力复用平台”。《白话中台战略-3:中台的定义》2中台通过集合整个集团的运行数据能力、产品技术能力,来对各前台业务形成强力支撑。《大型集团性公司的中台战略—阿里的中台战略其实是个伪命题》3中台是一种需求分析的办法论,一套能力接入原则,一套运作机制,集中配备、分布执行的控制台。《中台如何助力原则化业务?中台核心要快!》4“中台”是强调资源整合、能力沉淀的平台体系,为“前台”的业务开展提供底层的技术、数据等资源和能力的支持。《大中台小前台》5中台是居于前台和后台之间、位于基础架构和各产品线间的业务架构。《有关架构的思考-评《阿里巴巴中台战略思想与架构实践》》6数据中台是将各个业务板块数年来积累的数据,按业务特性进行横向关联和统一,按数据用途进行纵向分层,最后沉淀为公共的数据服务能力。《传统公司数据中台的建设与思考》7数据中台的实质还是组件化,模块化,是设计模式与业务端的应用。袋鼠云数据中台专栏(一):浅析数据中台方略与建设实践8中台是一种用技术链接大数据技术能力,用业务链接数据应用场景的能力平台。《阿里中台建设全解密:包含哪些内容?如何发挥作用?》数据仓库与数据中台的区别与联系序号数据仓库数据中台计算存储基于OLAP类型的数据库构建一套数据存储体系混合架构,随需搭配,满足各类数据的计算规定技术体系传统的ETL开发和报表开发为主数仓建设、数据开发IDE、任务调度、数据集成、数据治理、统一数据服务、数据资产管理、元数据管理、数据质量管理、流批计算、敏捷BI报表开发等多个功效应用场景报表为主多元化场景:除了传统报表,还支持商品推荐、精确推送、客满评价等非拟定场景的业务,数据服务业务、业务与数据互补,形成闭环价值体现面对管理层和业务人员的辅助决策除了完毕传统的业务人员辅助决策,还能面对业务系统推动优化升级、数据变现等,把数据资产变成数据服务能力。数据七、数据湖湖什么是数据湖?Pentaho的CTOJamesDixon在提出了“DataLake”的概念。在面对大数据挑战时,他声称:不要想着数据的“仓库”概念,想想数据的“湖”概念。数据“仓库”概念和数据湖概念的重大区别是:数据仓库中数据在进入

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论