第1章-大数据概论_第1页
第1章-大数据概论_第2页
第1章-大数据概论_第3页
第1章-大数据概论_第4页
第1章-大数据概论_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术与应用

计算机中心第1章大数据概论导学

一、内容与要求1.了解大数据的主要来源,掌握大数据的特点和大数据的处理流程。2.了解四层堆栈式技术架构。3.了解大数据的整体技术。4.了解大数据分析四种典型工具。5.了解大数据未来发展趋势。二、重点、难点本章重点是了解大数据的特点、特征和大数据未来发展趋势。本章的难点是了解大数据技术架构和整体技术。

大数据(BigData)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。2014年,每天会有2.3ZB量的数据产生(IBM,2015)。1ZB=1024EB1EB=1024PB1PB=1024TB1TB=1024GB这是一个什么概念?1.1大数据技术简介1.1.1IT产业的发展简史IT产业的几个发展阶段如下:1、硬件时代(80年代)代表公司:IBM,HP,Apple,联想,东芝,索尼;代表产品:服务器,台式电脑,笔记本电脑2、软件时代(90年代)代表公司:微软,Oracle,Adobe,用友;代表产品:Windows,Oracle,Office,财务软件3、互联网时代(2000年代)代表公司:yahoo!亚马逊,google,facebook,twitter,新浪,阿里,腾讯,百度;代表产品:三大门户网站,百度搜索,QQ,人人网,淘宝,天猫,京东,4、移动互联时代(2010年代)代表公司:腾讯,字节跳动,美图科技;代表产品:微信,今日头条,口袋购物,嘀嘀打车,美图秀秀,墨迹天气,高德地图5、物联网时代(现在)物联网时代,智能硬件(智能手环,google眼镜等)只是物联网的一部分,电视,冰箱,洗衣机,汽车,实时路况,空的车位都能连上网,可以实时查看,远程控制,互联联将真正实现连接人与信息,连接人与人(社交),连接人与商品(电商),连接人与服务(O2O),连接物与物(物联网),互联网将连接一切!1.1.2大数据的主要来源信息管理系统企业内部使用的信息系统,如办公自动化、业务管理系统等。主要是通过用户输入和系统的二次加工的方式生成的数据,多为结构化数据。网络信息系统如电子商务系统、社交网络、社会媒体等。这类系统多为半结构化或无结构化数据,与前者的区别在于,内部使用不接入外部公共网络。物联网系统通过传感器获取外界的物理、化学、生物等数据信息科学实验系统主要用于学术科学研究,其环境是预先设定的,数据既可以是由真实实验产生,也可以通过模拟方式获取仿真的。1.1.3数据生成的三种主要方式从数据库技术诞生以来,产生大数据的方式主要经过了三个发展阶段:被动式生成数据

采用数据库技术阶段数据的产生是被动的,数据时随着业务系统的运行产生的。主动式生成数据

Web2.0、移动互联网的发展使人们可以随时随地通过移动终端生成数据,人们开始主动地生成数据。感知式生成数据

感知技术的发展促进了数据生成方式发生了根本性的变化,如遍布城市各个角落的摄像头等数据采集设备源源不断地自动采集、生成数据。1.1.4大数据的特点

传统数据大

据数据产生方式被动采集数据主动生成数据数据采集密度采样密度较低,采样数据有限利用大数据平台,可对需要分析事件的数据进行密度采样,精确获取事件全局数据数据源数据源获取较为孤立,不同数据之间添加的数据整合难度较大利用大数据技术,通过分布式技术、分布式文件系统、分布式数据库等技术对多个数据源获取的数据进行整合处理数据处理方式大多采用离线处理方式,对生成的数据集中分析处理,不对实时产生的数据进行分析较大的数据源、响应时间要求低的应用可以采取批处理方式集中计算;响应时间要求高的实时数据处理采用流处理的方式进行实时计算,并通过对历史数据的分析进行预测分析1.1.5大数据的处理流程大数据处理的基本流程1.1.6大数据的数据格式结构化信息:这种信息可以在关系数据库中找到,多年来一直主导着IT应用,是关键任务OLTP(联机事务处理)系统业务所依赖的信息。另外,这种信息还可对结构数据库信息进行排序和查询。半结构化信息:包括电子邮件、文字处理文件及大量保存和发布在网络上的信息。非结构化信息:该信息在本质形式上可认为主要是位映射数据。1.1.7大数据的特征大数据呈现出“4V+1O”的特征,具体如下:数据量大(Volume)多样化(Variety)数据价值密度化(Value)速度快,时效高(Velocity)数据是在线的(On-Line)1.1.8大数据的应用领域RFID传感器军事侦察社会网络、数据天文学摄影档案馆视频档案医疗记录互联网搜索索引网络日志生物、基因组学大规模的电子商务1.2大数据的技术架构

大数据的四层堆栈式技术架构1.3大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。1.4大数据分析的四种典型工具简介

1.HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。2.SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。3.StormStorm是一种开源软件,一个分布式、容错的实时计算系统。4.ApacheDrill为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。ApacheDrill实现了Google’sDremel。1.5大数据未来发展趋势

1.5.1数据资源化

资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争抢的新焦点,数据将逐渐成为最有价值的资产。1.5.2数据科学和数据联盟的成立1.催生新的学科和行业数据科学将成为一门专门的学科,被越来越多的人所认知。越来越多的高校开设了与大数据相关的学科课程,为市场和企业培养人才。2.数据共享数据可能成为一种共享的趋势。1.5.3大数据隐私和安全问题1.大数据引发个人隐私、企业和国家安全问题大数据时代将引发个人隐私安全问题。大数据时代,企业将面临信息安全的挑战。大数据时代,大数据安全应该上升为国家安全。2.正确合理利用大数据,促进大数据产业的健康发展大数据时代,必须对数据安全和隐私进行有效的保护1.5.4开源软件成为推动大数据发展的动力大数据获得动力的关键在于开放源代码,帮助分解和分析数据。开源软件的盛行不会抑制商业软件的发展。相反,开源软件将会给基础架构硬件、应用程序开发工具、应用服务等各个方面相关领域带来更多的机会。1.5.5大数据在多方位改善我们的生活大数据作为一种重要的战略资产,已经不同程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论