大数据介绍课件_第1页
大数据介绍课件_第2页
大数据介绍课件_第3页
大数据介绍课件_第4页
大数据介绍课件_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代的背景“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经累积到了开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。如今,这个概念几乎应用到了所有人类智力与发展的领域中。Facebook社交网络淘宝电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器、智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)大数据的定义大数据(Bigdata或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理、并整理成为人类所能解读的形式的信息。GBTBPB数据大爆炸EBZB地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到1.8ZB.到2020年,整个世界的数据总量会增长44倍,达到35ZB想要驾驭着庞大的数据必须先了解大数据的特征

多样性(Variety)大数据具有4V特征

速度(Velocity)

价值(Value)

容量(Volume)海量数据处理,难以集中存储和计算TBPBEB快速地数据传输流模式实时准实时批量多种多样的数据类型结构化半结构化非结构化巨大的数据价值高价值低密度碎片化高离散化传统数据与大数据对比传统数据(DB)大数据(BD)数据规模小(MB)大(GB、TP、PB)数据类型单一(结构化)繁多(结构化、半结构化、非结构化)数据与模式关系现有模式后有数据现有数据后有模式,模式种类繁多处理对象数据各种类型相关技术分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜数据挖掘:关联规则分析;分类;聚类大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储:结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据:图片、视频、word等文件存储不利于检索、查询和存储半结构化数据:转换为结构化存储按照非结构化存储解决方案:Hadoop流计算数据源(互联网、物联网、企业数据)数据收集(ETL(kattle)、提取、转换、加载)数据存储(SQL和NoSQL)资源管理(1)、数据收集、准备(2)、数据存储批处理交互式流处理数据挖掘(数据仓库、olap、商务智能等)数据可视化用户(3)、资源管理(4)、计算框架(5)、数据分析(6)、数据展示Hbase的优劣1、动态可扩展的,创建表的时候不需要知道有几列,只需要指定有几个columnfamily,并且列为空就不存储数据,节省存储空间。为什么列是动态的?统计淘宝访问量和购买量,新平台的统计,传统关系型数据库需要停机维护,而Hbase支持动态增加2、多版本数据

根据Rowkey和Columnkey定位到的Value可以有任意数量的版本值,因此对于需要存储变动历史记录的数据,用HBase就非常方便了。3、支持事务较弱,所以有事务支持的时候都会选择传统的关系型数据库,Hbase事务仅仅是针对某一行的一系列Put/Delete操作。不同行、不同表间一系列操作是无法放在一个事务中的。对一张多Region表来说,还是无法保证每次修改都能封装为一个事务。计算框架批处理:mapreduce例:报表实时性:(毫秒级)storm例:信用卡欺诈交互式分析:(秒级)spark数据挖掘数据挖掘从海量的数据中找到有价值的金矿数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程数据可视化大数据主要应用技术---HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。运行平台:Linux、MacOS/X,Solaris,Windows高可靠性高容错性低成本高效性高扩展性Hadoop优点1、高可靠性:hadoop按位存储和处理数据的能力值得人们信赖。2、高扩展性:hadoop是在可用的计算机集簇之间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。3、高效性:能够在节点之间动态地移动数据,并保证各个节点之间的动态平衡,因此处理速度非常快。4、高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5、低成本:hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的,这些服务器集群是可以支持数千个节点的。Hadoop核心设计两大核心设计MapReduceHDFSMap:任务的分解Reduce:结果的汇总NameNode:文件管理DataNode:文件存储Client:文件获取HDFS架构主从(Master/Slave)体系结构只含有一二NameNode主服务节点这个节点管理文件系统中的命名空间和调度客服端对文件的访问通常一个机器就是一个DataNode数据节点,DataNode管理本节点上数据的存储在HDFS内部,一个文件被分割为一个货多个数据块,并且这些数据块被存储在一批DataNode中NameNode执行文件系统中命名空间的操作(打开、关闭、重命名文件和目录),NameNode需要执行数据块到DataNode映射的决策DataNode负责响应来自客户端的文件读写要求,也要负责执行来自NameNode的关于数据块创建、删除和冗余存储的指令Map/Reduce处理过程一次Map/Reduce任务过程。用户提交给JobTracer,JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块。然后把他们传给Map节点;Map节点得到每一个key/value对,处理后产生一个或多个key/value对,然后写入文件;Reduce节点获取临时文件中的数据,对代用相同key的数据进行迭代计算,然后把最终结果写入文件。我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。Hadoop体系架构AmbariChuKwaZooKeeperPigHiveAvroMahoutMapReduce/YARNCassandraHBaseHDFSApacheAmbari是一个基于Web的工具,用于配置、管理和监视ApacheHadoop集群,支持HadoopHDFS、HadoopMapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。ApacheAmbariApachePig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器ApachePigApacheHive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。Hive类似CloudBase,基于hadoop分布式计算平台上的提供datawarehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。ApacheHiveHBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。ApacheHBaseApacheCassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structuredupdate、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(columnindex)ApacheCassandraAvro是一个数据系列化系统;Avro是dougcutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。Avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑ApacheMahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:

推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。

聚集:收集文件并进行相关文件分组。

分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。

频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ApacheChukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。Hadoop平台的安装配置Hadoop安装配置参考如下:/xia520pi/archive/2012/05/16/2503949.htmlZookeeper

从程序员的角度来讲可以理解为Hadoop的整体监控系统。如果namenode,HMaster宕机后,这时候Zookeeper

的重新选出leader。这是它最大的作用所在。下面详细介绍zookeeper的作用Hadoop有NameNode,HBase有HMaster,为什么还需要zookeeper,下面给大家通过例子给大家介绍。

一个Zookeeper的集群中,3个Zookeeper节点.一个leader,两个follower的情况下,停掉leader,然后两个follower选举出一个leader.获取的数据不变.我想Zookeeper能够帮助Hadoop做到:

Hadoop,使用Zookeeper的事件处理确保整个集群只有一个NameNode,存储配置信息等.

HBase,使用Zookeeper的事件处理确保整个集群只有一个HMaster,察觉HRegionServer联机和宕机,存储访问控制列表等.Hbase是一个分布式的、面向列的数据库。Hbase利用hadoop的HDFS作为其的文件存储系统,Hbase利用hadoop的MapReduce来处理Hbase中的海量数据,利用Zookeeper作为协同服务namegradcoursemathartzkb59787baoniu48980HBaseshell的基本用法

hbase提供了一个shell的终端给用户交互。通过执行helpget可以看到命令的帮助信息。以网上的一个学生成绩表的例子来演示hbase的用法。这里grad对于表来说是一个列,course对于表来说是一个列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。(1)

列族columnfamily

hbase表中的每个列,都归属与某个列族。列族是表的chema的一部分(而列不是),必须在使用表之前定义。列名都以列族作为前缀。例如courses:history,courses:math都属于courses这个列族。(2)单元

Cell

HBase中通过row和columns确定的为一个存贮单元称为cell。由{rowkey,column(=<family>+<label>),version}唯一确定的单元。cell中的数据是没有类型的,全部是字节码形式存贮。(3)

时间戳timestamp每个cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是64位整型。时间戳可以由hbase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。每个cell中,不同版本的数据按照时间倒序排序,即最新的数据排在最前面。为了避免数据存在过多版本造成的的管理(包括存贮和索引)负担,hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本,二是保存最近一段时间内的版本(比如最近七天)。用户可以针对每个列族进行设置。Thinks大数据数据的本质数据本质是生产资料和资产数据生产资料资产大数据的提出在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”,将大数据称为“第三次浪潮的华彩乐章”。第二次浪潮第三次浪潮第一次浪潮农业阶段,约1万年前开始工业阶段,17世纪末开始信息化阶段,20世纪50年代后期开始“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。”从“数据”到“大数据”事件一事件二事件三时至今日,“数据”变身“大数据”,“开启了一次重大的时代转型”“大数据”这一概念的形成,有三个标志性事件:2008年9月,美国《自然》(Nature)杂志专刊——Thenextgoogle,第一次正式提出“大数据”概念。2011年2月1日,《科学》(Science)杂志专刊——Dealingwithdata,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。2011年5月,麦肯锡研究院发布报告——Bigdata:Thenextfrontierforinnovation,competition,andproductivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”大数据的定义大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的来源随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;据IDC研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB=2^50字节1EB=2^60字节1ZB=2^70字节TBPBEB ZB在2011年,这个数字达到了1.8ZB。GB数据大爆炸大数据的来源互联网每天产生的全部内容可以刻满6.4亿张DVDGoogle每天需要处理24PB的数据网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年大数据到底有多大?

以上一组互联网数据大数据的来源来自大量传感器的机器数据科学研究及行业多结构专业数据来自“大人群”泛互联网数据智能终端拍照、拍视频发微博、发微信其他互联网数据随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生。大数据的构成大数据=海量数据(交易数据、交互数据)+针对海量数据处理的解决方案海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。注:大数据不仅仅指的是数据量庞大,更为重要的是数据类型复杂大交易数据大交互数据大数据处理大数据集成大数据4V特征4V特征种类多(Variety)速度快(Velocity)价值高(Value)体量大(Volume)大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。随着现代感测、互联网、计算机技术的发展,数据生成、储存、分析、处理的速度远远超出人们的想象力,这是大数据区别于传统数据或小数据的显著特征。大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。大数据4V特征—价值高(Value)大数据有巨大的潜在价值,但同其呈几何指数爆发式增长相比,某一对象或模块数据的价值密度较低,这无疑给我们开发海量数据增加了难度和成本。挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息;价值密度低,是大数据的一个典型特征;大数据4V特征—体量大(Volume)从2013年至2020年,人类的数据规模将扩大50倍,每年产生的数据量将增长到44万亿GB,相当于美国国家图书馆数据量的数百万倍,且每18个月翻一番。1Bity1KB1MB1GB1TB1PB1EB1ZB1YB1PB相当于50%的全美学术研究图书馆藏书信息内容5EB相当于至今全世界人类所讲过的话语1ZB如同全世界海滩上的沙子数量总和1YB相当于7000位人类体内的微细胞总和一般情况下,大数据是以PB、EB、ZB为单位进行计量的大数据4V特征—速度快(Velocity)82254132215327源自英国Coda研究咨询公司大数据的增长速度快大数据的处理速度快实时数据流处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一;1s是临界点,对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的;现在及未来几年内美国的移动网络数据流量增长(PB/月)大数据4V特征—种类多(Variety)大数据与传统数据相比,数据来源广、维度多、类型杂,各种机器仪表在自动产生数据的同时,人自身的生活行为也在不断创造数据;不仅有企业组织内部的业务数据,还有海量相关的外部数据。数据来源多企业内部多个应用系统的数据、互联网和物联网的兴起,带来了微博、社交网站、传感器等多种来源。数据类型多保存在关系数据库中的结构化数据只占少数,70~80%的数据是如图片、音频、视频、模型、连接信息、文档等非结构化和半结构化数据。关联性强数据之间频繁交互,比如游客在旅行途中上传的图片和日志,就与游客的位置、行程等信息有了很强的关联性。物联网数据行业/企业内数据互联网数据大数据大数据带来的思维变革大数据大数据的核心代表着我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法更多更杂更好更多不是随机样本,而是全体数据更好不是因果关系,而是相关关系更杂不是精确性,而是混杂性大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记;主要特点是调查组织高度集中性,普查对象的全面完整性;人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查;人口大普查是一种典型的全数据模式;大数据时代小数据时代大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式人口大普查是一种耗时耗费的工程,一般是以十年为单位;各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式;源于实用并且很好的创新!随机采样分析是小数据时代的产物;大数据时代小数据时代大数据带来的思维变革—更多人口大普查全数据模式随机采样样本模式大数据应用全数据模式我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部;大数据不用随机分析法这样的捷径,而采用所有数据的方法;这里的“大”是相对的——相扑比赛所有数据存储还不需要一个TB,但是是所有的数据!在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;大数据时代小数据时代大数据带来的思维变革—更好佛教《三世因果经》主要讲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论