版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论《大数据技术基础教程》学习目标/Target掌握大数据技术的基本理论和方法了解大数据的概念、特点、应用场景等了解大数据处理的相关流程和技术章节概述/
Summary大约从2009年开始,随着以博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据正以前所未有的速度在不断的增长和累积,大数据时代已经来到,“大数据”才真正成为互联网信息技术行业的流行词汇。本章将简要介绍大数据处理相关的基本概念、技术、发展状况、应用及大数据面临的挑战。目录/Contents01020304大数据发展历程大数据的概念大数据的特征大数据的应用05大数据分析与处理方法简介06大数据面临的挑战大数据发展历程1.11.1大数据发展历程1.1.1萌芽阶段(1997-2006)1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思发表了《为外存模型可视化而应用控制程序请求页面调度》的文章1999年8月,史蒂夫·布赖森、大卫·肯怀特等发表了《千兆字节数据集的实时性可视化探索》2000年10月,彼得·莱曼与哈尔·R·瓦里安在加州大学伯克利分校网站上发布了一项研究成果:《信息知多少?》2001年2月,梅塔集团分析师道格·莱尼发布了一份研究报告《3D数据管理:控制数据容量、处理速度及数据种类》2005年9月,蒂姆·奥莱利发表了《什么是Web2.0》1.1大数据发展历程1.1.2成熟阶段(2006-2012)2007年3月,约翰·F·甘茨、大卫·莱茵泽尔及互联网数据中心(IDC)《膨胀的数字宇宙:2010年世界信息增长预测》。2008年6月,思科发布了《思科视觉网络指数——预测与方法,2007-2012》2010年2月,肯尼斯·库克尔在《经济学人》上发表了一份关于管理信息的特别报告《数据,无所不在的数据》
2011年2月,马丁·希尔伯特和普里西拉·洛佩兹在《科学》杂志上发表了《世界存储、传输与计算信息的技术能力》一文1.1大数据发展历程1.1.2成熟阶段(2006-2012)2011年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了——《大数据:创新、竞争和生产力的下一个新领域》2012年7月,联合国在纽约发布了关于大数据政务的白皮书1.1大数据发展历程1.1.3应用发展阶段(2012-至今)2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《Big Data: A Revolution That Will Transform How We Live,Work,and Think》2014年,Spark逐渐替代Mapreduce的地位,受到业界追捧。由于实时计算的需求,流式计算引擎开始出现,包括Storm、Flink、SparkStreaming。大数据存储和处理技术的发展同时也带动了数据分析、机器学习的蓬勃发展,也促使了新兴产业的不断涌现。大数据的概念1.21.2大数据的概念MervAdrian:大数据是一种在正常的时间和空间范围内,常规的软件工具难以计算、提出相关数据分析的能力。麦肯锡研究院:大数据指的是规模已经超出了传统的数据库软件工具收集、存储、管理和分析能力的数据集。美国国家标准技术研究(NIST):具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)和变化频率(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。维基百科:巨量数据,或称为大数据、大资料,指的是所涉及的数据量规模巨大到无法通过当前的技术软件和工具在一定的时间内进行截取、管理、处理,并整理成为需求者所需要的信息进行决策1.2大数据的概念通过对关于大数据的定义进行梳理可以发现,大多研究机构和学者对大数据的定义普遍从数据的规模量,以及对于数据的处理方式来进行定义的,其基本共识为:大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的特征1.31.3大数据的特征离线分析系统目前来说,大数据的特征还存在一定的争议。但按照普遍被接受的4V,即规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)1.3大数据的特征离线分析系统1.3.1数据规模大(Volume)2012年12月IDC报告显示:2007年全球数据量为0.49ZB,2010年为1.3ZB,人类正式进入ZB时代。此外,在其报告对2005—2020年的数据进行了预测。指出在这其间,数字宇宙的规模将以350倍的量进行增长。预计2020年将突破35ZB,是2008年的70倍、2011年的29倍1.3大数据的特征离线分析系统1.3.2数据种类繁多(Variety)大数据种类更加复杂,其包括结构化数据、半结构化数据和非结构化数据。其中,10%是结构化数据,存储在数据库中;90%是非结构化数据,与人类信息密切相关。1.3大数据的特征离线分析系统1.3.4数据价值密度低(Value)如果将大数据比喻为石油行业的话,那么在大数据时代,重要的不是如何进行如何炼油(分析数据),而是如何获得优质原油(优质元数据)价值密度低,商业价值高大数据的应用1.41.4大数据的应用1.4.1互联网与电子商务行业用户信息记录用户行为分析基于大数据相关性分析的推荐系统网络营销分析网络运营分析1.4大数据的应用1.4.2大数据精准扶贫精准扶贫大数据平台以信息资源整合、比对、共享为重点,实现了地区多层级扶贫部门数据和管理的互通互联,是一个集辅助决策、计划、施策、监管、反馈于一体的动态平台系统,全面提升地区脱贫攻坚信息化建设水平。1.4大数据的应用1.4.3交通业交通流量分析与预测交通安全水平分析与预测道路环境监测与分析大数据分析与处理方法简介1.51.5大数据分析与处理方法简介1.5.1大数据分析的五个基本方面可视化分析(AnalyticVisualizations)数据挖掘算法(DataMiningAlgorithms)预测性分析能力(PredictiveAnalyticCapabilities)语义引擎(SemanticEngines)数据质量和数据管理(DataQualityandMasterDataManagement)1.5项目开发流程数据采集数据导入/预处理12数据统计/分析3数据挖掘41.5.2大数据处理流程大数据面临的挑战1.61.6大数据面临的挑战
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论