大数据机遇与挑战和应用课件_第1页
大数据机遇与挑战和应用课件_第2页
大数据机遇与挑战和应用课件_第3页
大数据机遇与挑战和应用课件_第4页
大数据机遇与挑战和应用课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代数据单位:1Byte=8bit,一粒沙子1KB=1,024Bytes,几撮沙子1MB=1,024KB=1,048,576Bytes,一大汤勺沙子1GB=1,024MB=1,048,576KB,一鞋盒沙子1TB=1,024GB=1,048,576MB,一个操场沙箱1PB=1,024TB=1,048,576GB,一片1.6千米长海滩的沙子1EB=1,024PB=1,048,576TB,上海到香港之间的海滩的沙子1ZB=1,024EB=1,048,576PB,几乎全世界所有的海滩沙子之和2010年全球数字世界的规模首次达到了ZB级别,1.227ZB。而2005年这个数字只有130EB.基本上五年增长了10倍。大数据时代数据单位:2010年全球数字世界的规模首次达到了Z1大数据机遇与挑战和应用课件2友情提示上课时间请勿:--请将您手机改为“震动”

避免在课室里使用手机--交谈其他事宜--随意进出教室请勿在室内吸烟上课时间欢迎:--提问题和积极回答问题--随时指出授课内容的不当之处友情提示上课时间请勿:请勿在室内吸烟上课时间欢迎:3大数据时代一、大数据的定义和特征二、大数据的发展三、大数据的结构类型四、大数据的技术架构五、机遇与挑战六、大数据的应用七、大数据基础设施八、Hadoop平台及相关生态系统九、NoSql分布式数据库十、大数据与数据挖掘十一、大数据展示与交互十二、大数据安全与隐私十三、反思大数据时代一、大数据的定义和特征4图灵理论——>PC关系代数——>数据库谓词演算——>专家系统?<——云计算?<——大数据一、大数据的定义和特征实验科学>理论科学>计算科学>数据密集型科学时代图灵理论——>PC一、大数据的定义和特征实验科学>理论科学>5一、大数据的定义和特征Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataprocessingapplications.Volume:表示大数据的数据体量庞大。Variety:表示大数据的类型复杂。Velocity:表示数据产生、处理、分析的速度在持续加快,数据流量大。1秒定律Value:表示随着数据体量的不断加大,单位数据的价值密度在不断降低,然而整体价值却在提高。通过使用高速(velocity)的采集、发现和/或分析【我的理解,分析有的需要高速,有的不需要高速】,从超大容量(volume)的多样(variety)数据中经济地提取价值(value)。一、大数据的定义和特征Ininformationtech6二、大数据的发展2011年5月,麦肯锡——《大数据:创新、竞争和生产力的下一个新领域》2012年1月份,瑞士达沃斯召开的世界经济论坛上《大数据,大影响》2012年3月,美国奥巴马政府在——《大数据研究和发展倡议》2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域2012年7月,联合国政务白皮书——《大数据促发展:挑战与机遇》2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。2015年10月,中国共产党的十八届五中全会公报提出要实施“国家大数据战略”二、大数据的发展2011年5月,麦肯锡——《大数据:创新、竞7二、大数据的发展来源:自然大数据、生命大数据、社交大数据动力:廉价的存储、传感器和数据采集技术快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。可视化是引起数字世界急剧膨胀的主要原因之一DB——LDB——VLDB——BD二、大数据的发展来源:自然大数据、生命大数据、社交大数据DB8三、大数据的结构类型结构化包括预定义的数据类型、格式和结构例:事务性数据和联机分析处理数据(是数据仓库系统最主要的应用)半结构化具有可识别的模式并可以解析的文本数据文件例:自描述的具有定义模式的XML(ExtensibleMarkupLanguage)数据文件非结构化没有固定结构的数据,通常保存为不同类型的文件例:文本文档、PDF文件、图件和视频三、大数据的结构类型结构化包括预定义的数据类型、格式和结构半9四、大数据的技术架构应用层实时决策,内置预测能力数据驱动,数据货币化分析层自助服务迭代、灵活,实时协作管理层结构化数据和非结构化数据并行处理,线性可扩展性基础层虚拟化、网络化、分布式横向可扩展体系架构四、大数据的技术架构应用层实时决策,内置预测能力数据驱动,数10四、大数据的技术架构基础层:第一层作为整个大数据技术架构的基础的最底层。要实现大数据规模的应用,需要有一个高度自动化、可横向扩展的存储和计算平台。要从以前的存储孤岛发展成为具有共享能力的高容量存储池。容量、性能、吞吐量必须可以线性扩展。就是云平台。管理层:要支持在多源数据上做深层次的分析,大数据架构中需要一个管理平台,使结构化和非结构化数据管理为一体,具备实时传送和查询、计算功能。本层既包括数据的存储与管理,也涉及数据的计算。并行化和分布式是管理平台所必须考虑的因素。四、大数据的技术架构基础层:第一层作为整个大数据技术架构的基11四、大数据的技术架构分析层:大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据,获得价值。可扩展性强、使用灵活的大数据分析平台是数据科学家必需的。应用层:大数据的价值体现在帮助企业或机构进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。反之,大数据的应用为企业提供的竞争优势使得企业更加重视大数据的价值。四、大数据的技术架构分析层:大数据应用需要大数据分析。分析层12五、机遇与挑战ForresterResearch估计企业仅有效利用了不到5%的可用数据。POS机:MB>>>TB沃尔玛等前沿公司利用这种新的“大数据”和新的分析平台与工具获得了竞争优势。30年后,这些新的数据源来自于一系列设备、客户交互和业务活动,能提示对企业的行业价值链的深刻见解。1、机遇五、机遇与挑战ForresterResearch估计企业仅13五、机遇与挑战2、挑战2.1三个变化(1)数据量。由TB级升至PB级,并仍在持续爆炸式增长。(2)分析需求。

由常规分析转向深度分析(DeepAnalytics)。数据分析日益成为企业利润必不可少的支撑点。这些分析操作包括诸如移动平均线分析、数据关联关系分析、回归分析、市场分析等复杂统计分析,我们称之为深度分析。

值得补充的是,文中的大数据分析不仅仅指基于大数据上的深度分析,也包括常规分析。(3)硬件平台。

由高端服务器转向由中低端硬件构成的大规模机群平台。五、机遇与挑战2、挑战2.1三个变化14五、机遇与挑战2、挑战2.2两个问题问题1.数据移动代价过高.问题2.不能快速适应变化.ETL:Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程OLAP工具(OnlineAnalyticalProcessing联机分析处理)五、机遇与挑战2、挑战2.2两个问题ETL:Extract15五、机遇与挑战2、挑战2.3一个鸿沟一边是至少PB级的数据量,另一边是面向传统数据分析能力设计的数据仓库和各种BI工具.如果这些系统或工具发展缓慢,该鸿沟将会随着数据量的持续爆炸式增长而逐步拉大.BusinessIntelligence即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。五、机遇与挑战2、挑战2.3一个鸿沟BusinessIn16六、大数据应用1、大数据生态系统数据设备、数据采集者、数据汇总者、数据使用/消费者2、应用基于归因的应用、基于建议的应用、基于预测的应用、基于洞察的应用、基于基准的应用六、大数据应用1、大数据生态系统17七、大数据基础设施1、大数据与云计算的关系

云计算为大数据处理提供了一个很好的平台,大数据离不开云计算,云计算是大数据处理方式的最佳选择。七、大数据基础设施1、大数据与云计算的关系18七、大数据基础设施2、虚拟化是云计算所有要素中最基本、最核心的组成部分(1)计算虚拟化:通常也称平台虚拟化或服务器虚拟化,实现了对计算机的虚拟化,从而使在一个物理计算机上同时运行多台虚拟计算机成为可能,这些虚拟机在逻辑上是完全隔离的,拥有各自独立的软、硬件环境。(2)存储虚拟化:对一个或多个存储硬件资源进行抽象,提供统一的、更有效率的全面存储服务(3)网络虚拟化:把逻辑网络从底层的物理网络分开七、大数据基础设施2、虚拟化是云计算所有要素中最基本、最核心19七、大数据基础设施3、大数据时代的云服务(1)大数据与基础设施即服务,IaaS(InfrastructureasaService),指通过网络向消费者提供服务器、网络、存储等资源。(2)大数据与应用平台即服务,PaaS(PlatasaService),指通过网络向消费者提供应用运行环境与中间件。七、大数据基础设施3、大数据时代的云服务20七、大数据基础设施4、云安全隐私保护、数据备份、灾难恢复、病毒防治、多点服务、数据加密、虚拟机隔离安全问题不是云计算的拦路虎:敏感问题大量分散、重复位于网络边缘,难于管理,更容易造成泄漏风险安全重心由端设备向数据中心、计算中心、服务中心转移,安全手段由封堵和隔离向身份认证和信誉管理转移,用可信免疫的新计算模式和主动防御体系结构保障安全。七、大数据基础设施4、云安全安全问题不是云计算的拦路虎:敏感21八、Hadoop平台及相关生态系统1、谷歌技术“三件宝”江湖传说永流传:谷歌技术有“三宝”,GFS、MapReduce和大表(BigTable)。2006年8月9日,谷歌首席执行官埃里克.施密特在搜索引擎大会上首次提出“云计算”的概念,从此云计算开始进入人们视野。在03到06年之间谷歌发表了3篇经典的论文,分别介绍了谷歌的分布式文件系统GFS、分布式数据存储系统BigTable和分布式计算框架MapReduce。这三篇论文奠定了云计算和大数据处理这两个领域的应用基础和研究基础,引爆了云计算和大数据的应用和研究的热潮。八、Hadoop平台及相关生态系统1、谷歌技术“三件宝”22八、Hadoop平台及相关生态系统1、谷歌技术“三件宝”(1)分布式文件系统GFSGFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能,能够检测和发现错误并且自动恢复,这样就省去了高额的人工维护成本。可以给大量的用户提供总体性能较高的服务。它的出现改变了之前海量数据的存储必须依赖昂贵的硬件和复杂的运营维护的状况,因此得到了业界的普遍关注。(2)分布式计算框架MapReduce谷歌文件系统解决了把大文件分布存储在很多台主机上的问题,但如何解决大规模数据的分布式处理问题呢?MapReduce架构的程序能够在大量的普通配置的计算机上实现并行化处理。这个系统在运行时只关心如何分割输入数据及在由大量计算机组成的集群上的调度,如何处理集群中计算机的错误及管理集群中计算机之间必要的通信。(3)分布式数据存储系统BigTableBigTable是一个分布式的结构化数据存储系统,它被设计用来查询和处理海量数据,通常是分布在数千台普通服务器上的TB甚至是PB级的数据。八、Hadoop平台及相关生态系统1、谷歌技术“三件宝”23八、Hadoop平台及相关生态系统2、Hadoop平台概述Hadoop是开源组织Apache旗下的一个分布式计算平台,它的高容错性、高扩展性等优点可以让用户在普通廉价的硬件设备上搭建分布式系统,实现对集群的控制与管理。同时它提供了分布式基础架构,允许用户轻松快捷开发并行应用程序,实现少量数据的管理和分布式数据的处理,而不需要关注底层的实现细节,它的高扩展性可以方便地使集群从一台服务器从扩展到数千台服务器。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop相关生态系统也越来越来丰富。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。八、Hadoop平台及相关生态系统2、Hadoop平台概述24八、Hadoop平台及相关生态系统3、Hadoop平台特点1.高可靠性。集群中会产生各个节点的工作数据副本,当集群中某一个节点突然出现故障,能针对失败的节点重新分布处理。2.高扩展性。Hadoop是在可用的计算机集群中分配数据并完成计算任务的,这些集群可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5.低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。八、Hadoop平台及相关生态系统3、Hadoop平台特点125八、Hadoop平台及相关生态系统4、Hadoop的核心

①分布式文件系统HDFS(HadoopDistributedFileSystem是GFS的开源实现)(1)HDFS的设计特点和目标 1硬件故障:常态 2数据访问:流式访问 3大数据集 4简单一致性模型 5移动计算比移动数据更经济:靠近计算数据存储的位置进行计算 6异构软硬件平台间的可移植性八、Hadoop平台及相关生态系统4、Hadoop的核心26八、Hadoop平台及相关生态系统4、Hadoop的核心

①分布式文件系统HDFS(2)HDFS的架构分析八、Hadoop平台及相关生态系统4、Hadoop的核心(227八、Hadoop平台及相关生态系统4、Hadoop的核心②分布式计算框架MapReduce谷歌文件系统解决了把大文件分布存储在很多台主机上的问题,但如何解决大规模数据的分布式处理问题呢?Map(映射)和Reduce(归约)MapReduce是由谷歌公司提出的一个支持非结构化大数据分析的分布式编程模型。在MapReduce中,Map用来遍历输入数据,并进行划分,然后以Key-Value对的方式输出,接着这些中间数据以Key的取值聚集到不同的Reduce上,执行Reduce操作,产生计算结果。MapReduce的特点是,每一个Map操作都是相对独立的,所有的map都可以并行,而reduce虽然依赖于map的计算输出,reduce操作之间也是相互独立的。很自然,MapReduce被设计成为一个利用集群资源,以高并行度处理大数据的分布式编程模型。八、Hadoop平台及相关生态系统4、Hadoop的核心谷歌28八、Hadoop平台及相关生态系统5、Hadoop相关生态系统八、Hadoop平台及相关生态系统5、Hadoop相关生态系29八、Hadoop平台及相关生态系统八、Hadoop平台及相关生态系统30九、NoSql分布式数据库NoSQL(NoSQL=NotOnlySQL),意即“不仅仅是SQL”,打破了传统的关系型数据库的范式约束,是一项全新的数据库革命性运动。九、NoSql分布式数据库NoSQL(NoSQL=Not31九、NoSql分布式数据库1、CAP理论——鱼和熊掌不可兼得C(Consistency):一致性。又称为原子式或事务性。A(Availability):可用性。每一个操作总是能够在确定的时间内返回,也就是系统随时都是可用的。P(PartitionTolerance):分区容错性。在出现网络分区(比如断网)的情况下,分离的系统也能正常运行,分区容错性和扩展性紧密相关。九、NoSql分布式数据库1、CAP理论——鱼和熊掌不可兼得32九、NoSql分布式数据库2、CAP理论分类传统数据库:CA对于分布式数据库系统而言,分区容错性是基本要求,因此只有CP和AP两种选择。CP模式保证分布在网络上的不同节点数据的一致性,但对可用性支持不足,这类系统有BigTable、HBase等。AP模式主要以实现“最终一致性”来确保可用性和分区容忍性。九、NoSql分布式数据库2、CAP理论分类传统数据库:CA33九、NoSql分布式数据库3、ACID和BASE方法论ACID,指关系型数据库为了支持事务(transation)的正确性和可靠性,必须满足的四个基本要素的缩写。包含:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。原子性:整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。一致性:在事务开始之前和事务结束以后,数据库的完整性约束没有被破坏。隔离性:当两个或多想事务并发访问(此处访问指查询与修改的操作)数据库的同一数据时所表现出的相互关系。持久性:在事务完成以后,该事务所对数据库所作的更改便持久的保存在数据库之中,并且是完全的。九、NoSql分布式数据库3、ACID和BASE方法论ACI34九、NoSql分布式数据库3、ACID和BASE方法论BASE即 •BasicallyAvailble--基本可用,支持分区失败 •Soft-state--软状态,状态可以有一段时间不同步,异步。•EventualConsistency--最终一致性BASE模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性或可靠性。BASE构成了大多数NOSQL数据库的方法论基础。九、NoSql分布式数据库3、ACID和BASE方法论BAS35九、NoSql分布式数据库4、NOSQL数据库分类类型部分代表特

点列存储HbaseCassandra顾名思义,是按列存储数据的。最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势。文档存储CouchDB文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机会对某些字段建立索引,实现关系数据库的某些功能。key-value存储Berkeley

DBMemcacheDB可以通过key快速查询到其value。一般来说,存储不管value的格式,照单全收。图存储Neo4JFlockDB图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,而且设计使用不方便。对象存储db4o通过类似面向对象语言的语法操作数据库,通过对象的方式存取数据。xml数据库BaseX高效的存储XML数据,并支持XML的内部查询语法九、NoSql分布式数据库4、NOSQL数据库分类类型部分代36九、NoSql分布式数据库5、列式存储HBase是一个分布式的、面向列的开源数据库,是谷歌Bigtable的开源实现,建立在HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。与Hadoop一样,HBase目标是主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。特点:1、大:一个表可以有上亿行,上百万列2、面向列:面向列的存储和权限控制,列独立检索3、稀疏:对于为空的列,并不占用存储空间,因此,表可以设计得非常稀疏。九、NoSql分布式数据库5、列式存储HBase是一个分布式37十、大数据与数据挖掘数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(简称:KDD:Knowledge-DiscoveryinDatabases)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。由于具备多格式、多数据源、全量的优势,新型算法能够融合很多已有的算法,将它们有机地结合在一起,能产生全新的算法模式,取得前所未有的效果。DeepLaerning(深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示)但并非所有的知识发现都被视为数据挖掘。1、数据挖掘的基础知识十、大数据与数据挖掘数据挖掘(Datamining),又译38大数据机遇与挑战和应用课件39十、大数据与数据挖掘2、数据挖掘与其他学科的关系数据挖掘可以视为统计学、机器学习、数据库的交叉,主要利用统计学来提供理论基础,利用机器学习提供的技术来分析海量数据,利用数据库技术来管理海量数据。十、大数据与数据挖掘2、数据挖掘与其他学科的关系数据挖掘可以40十、大数据与数据挖掘3、数据挖掘核心思想(1)数据挖掘的新视角——降维十、大数据与数据挖掘3、数据挖掘核心思想(1)数据挖掘的新视41十、大数据与数据挖掘3、数据挖掘核心思想(2)模型效果的检验方式——交叉验证交叉验证(crossvalidation)又称循环估计,是统计学上一种将数据样本切割成小子集的实用方法,主要用来评估统计分析、机器学习算法对独立于训练数据的数据集的可应用性和泛化能力。可以先在一个子集上分析,而其他子集则用来进行检验及验证。了集包括两部分,分为训练集和验证集。十、大数据与数据挖掘3、数据挖掘核心思想(2)模型效果的检验42十、大数据与数据挖掘4、数据挖掘的常用算法(1)关联式规则(AssociationRules,AR)关联式规则(AssociationRules,AR),又称关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。大多数数据挖掘技术一样,关联规则的任务在于减少潜在的大量杂乱无章的数据,使之成为少量的易于观察理解的静态资料。关联项目一般不考虑项目的次序,而仅考虑其组合。关联规则一个经典的实例是购物篮分析(MarketBasketAnalysis)。其经典的案例就是沃尔玛的“啤酒与尿布”案例。十、大数据与数据挖掘4、数据挖掘的常用算法(1)关联式规则(43十、大数据与数据挖掘4、数据挖掘的常用算法(2)聚类分析(ClusteringAnalysis)也称为集群分析,在许多领域得到了广泛的应用,聚类是把相似的对象通过静态分类的方法分成不同的组别或更多的子集,这样在同一个子集中的成员对象都有相似的一些属性。聚类分析的目标就是在相似的基础上收集数据来分类。常见的有基于各种各校的距离的算法,但基于距离的算法的一个致命缺点就是只能发现“类圆形”的聚类,因此后来又有人提出了基于密度的聚类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。十、大数据与数据挖掘4、数据挖掘的常用算法(2)聚类分析(C44十、大数据与数据挖掘4、数据挖掘的常用算法(3)分类分析分类(Classification)算法是解决分类问题的方法,算法通过对已知类别训练集的分析,从中找出分类规则,以此预测新数据的类别。分类算法的应用非常广泛,如银行业的风险评估、客户类别分类、文本检索、搜索引擎分类等。十、大数据与数据挖掘4、数据挖掘的常用算法(3)分类分析45十、大数据与数据挖掘4、数据挖掘的常用算法(4)回归分析回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它基于观测数据建立变量间适当的依赖关系,以分析数据内在规律,并可用于预报、控制等问题。回归(Regression)分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论