下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
开篇实例:技术因素对企业的影响来源:“重新定义竞争:全球最高管理层调研之CEO
洞察。”IBM。2016
年每一个新技术的出现都是为了替代掉使用旧技术的人的劳动力!2017大数据版图基础设施分析应用数据技术思维统计应用算法A-SATA
model课程总览Data
life
cycle从系统的角度看数据的生命周期第8课技术架构数据感知与获取数据数据计算数据分析数据可视化数据感知与获取Acquisition数据生成的模式阶段1:20世纪90年代数字技术和数据库系统企业信息的管理系统结构化数据集阶段2:Web系统的日益流行搜索引擎和电子商务Web
2.0和社交网络半结构化和无结构的数据阶段3:移动设备的普及智能 、平板、移动APP物联网结构化、半结构化、无结构化数据三类典型的大数据商业数据:过去几十年中,和数字数据的使用对商业领域的繁荣发展起到了重要的推动作用,全球所有公司商业数据量每1.2年会翻番。网络数据:网络(互联网、移动网络和物联网)已经和人们的生活紧密联系在一起。网络应用如搜索、社交网络服务SNS、网站和点击流是典型的大数据源。这些数据源高速产生数据,需要先进的处理技术。科学研究数据:越来越多的科学应用正产生海量的数据集,若干学科的发展极度依赖于对这些海量数据的分析。–
光学观测和 、计算生物学、天文学、高能物理、……数据获取步骤数据获取阶段的任务是以数字形式将信息聚合,以待和分析处理,数据获取过程可分为三个步骤:–数据传输数据预处理1.•是指从真实世界对象中获得原始数据的过程。
方法不但要依赖于数据源的物理性质,还要考虑数据分析的目标。方法:三种常用的传感器日志文件Web爬虫传感器传感器常用于测量物理环境变量并将其转化为可读的数字信号以待处理,包括声音、振动、化学、电流、天气、压力、温度和距离等类型。有线传感器网络:系统无线传感器网络:环境、水质、土木工程、野生动物在科学实验中许多用于收集实验数据的
仪器(如磁分光计、射电望远镜等),可以看作特殊的传感器。基于传感器的 系统被认为是一个信息物理系统(Cyber-physical
system,CPS)。日志文件日志是广泛使用的
方法之一,由数据源系统产生,以特殊的文件格式记录系统的活动。日志文件可以看作是“
传感器”,几乎所有在数字设备上运行的应用使用日志文件非常有用。行为等–
用户的点击、键盘输入、以Web
服务器日志为例:通用日志文件格式(NCSA)扩展日志文件格式(W3C)IIS日志文件格式(
)The
WebAds
BaseIndexerIndex
BaseUserWeb
SpiderSearchWeb爬虫三种方法的比较日志文件是最简单的 方法,但是只能收集相对一小部分结构化数据;Web爬虫是最灵活的方法,可以获得巨量的结构复杂的数据。2.
大数据传输原始后必须将其传送到数据
基础设施如数据中心等待进一步处理。数据传输过程可以分为两个阶段:IP骨干网传输和数据中心传输。3.
数据预处理由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据预处理技术提高数据的质量。数据集成(Data
integration)数据
(D
leansing)冗余消除(Redundancy
elimination)数据集成(Data
integration)数据集成技术在逻辑上和物理上把来自不同数据源的数据进行集中,为用户提供一个
的视图。数据集成在传统数据仓库中较为成熟,又称为ETL:ETL
:extract,
transform,
load提取:连接源系统并选择和收集数据用于分析处理。变换:通过一系列规则将提取的数据转换为标准格式。装载:将提取并变换后的数据导入目标 基础设施。数据
(Dleansing)确、不完整或不数据
是指在数据集中发现合理数据,并对这些数据进行修补或移除以提高数据质量的过程,主要步骤包括:定义错误类型搜索并标识错误实例改正错误文档记录错误实例和错误类型修改数据录入程序以减少未来的错误。冗余消除(Redundancy
elimination)数据冗余是指数据的重复或过剩,无疑会增加传输开销,浪费 空间,导致数据不一致,降低可靠性。主要技术包括:冗余检测数据去重数据压缩开放数据集SODA大赛数据数据、电信数据:上网行为、用户特征市居民
卡刷卡记录强生出租车数据浦东
到离站数据•数据:道路事故、 统计、派出所出警汇纳科技商圈数据:商圈客流量城市绿化数据、工商局数据、公司数据环保数据:AQI数据、重点污染源、天气数据:实时雨量信用摩拜单车骑行数据开放数据集(Open
Dataset)•(
ernment)数据库、、地方企业(Company)AWS、、健康(Healthcare)金融(Finance)天气(Climate)休闲科学研究语言数据集、世界银行、人口与健康竞赛数据Kaggle、天池、SODA思考题请一个能够开放获取的数据,并给大家。数据数据 基本概念数据以某种格式记录在计算机
或外部介质上。数据数据的数据的方案结构方式数据的
结构所谓数据的
结构就是数据存在的形式。穿孔结构(非数字化)文件:Text、Excel、XML、JSON数据库:关系模型对象图、属性列表等文件与系统File
is
the
basic
storage
unit
in
massive
storages
thatcontain
dataanize
files.–
Text s,
photos,
mp3,…A
file
is
associated
with
many
attributesFile
name,
file
name
extensionSize,
modified
date,
read
only,
etc.It
requires
a
system
to
store,
retrieve,
andFile
systemDatabase28数据的方式纸带磁带数字随机存取
器(Random
access
memory,RAM)磁盘(HDD)和磁盘阵列级
器:闪存、SSD光盘数据库数据库
的硬件基础设施数据库服务器数据库管理DBMS数据库关系数据库管理系统(RDBMS)1970年,IBM的研究员E.F.
博士在municationof
the
ACM
上
了 “A
Relational
Model
of
Data
forLarge
Shared
Data
Banks”的,提出了关系模型的概念。随后,Codd又 了多篇文章,论述了范式理论和衡量关系系统的12条标准,用数学理论奠定了关系数据库的基础。1979年,IBM公司的San
Jose在 完成了著名的SystemR项目,论证一个全功能关系DBMS的可行性。关系型数据库的局限性和的需求数据增长速度非常迅速难以满足高并发读写的需求难以满足对海量数据高效率难以满足对数据库高可扩展性和高可用大数据是数据库的自然延伸数据库界从一开始就探索过大数据场景,但是过于保守。忘不掉ACID,舍不得Relation,忽视实际应用沉浸在自己的世界里。空值理论(Null
Value),泛关系(Universal
Relation)数据库设计的范式理论(FD,MVD,4NF,5NF,……)地奉行“一招鲜”(One
Size
Fits
All,OSFA)Hadoop+HDFS+HBase响亮一击。回到起点来考虑数据管理问题,豁然开朗。大数据总体上,按数据类型与
方式的不同,面向大数据的
系统大致可以分为三类:MPP并行数据库和内存数据库基于Hadoop开源体系的大数据系统MPP并行数据库与Hadoop的混合集群基于Hadoop开源体系的大数据系统面对的是半结构化和非结构化数据,通过对Hadoop生态体系的技术扩展和封装,实现对半结构化和非结构化数据的、管理、计算等功能。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理大规模数据的分布式程序,充分利用集群的
高速运算和
。低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。Hadoop生态系统。Hadoop生态系统思考题为什么大数据系统会部分取代关系型数据库?数据计算计算?广义上讲,一个函数变化如把x
变成了f(x)就是一个计算!如果
把一个小球扔到地上,小球又弹起来了,那么大地就完成了一次对小球的计算。如果 把一切都看作是信息,更精确的讲,计算就是对信息的变换!计算就是某个系统完成了一次从输入到输出的变换!狭义的讲,计算的本质是一个黑箱,把数据放入黑箱,黑箱按照人们规定的过程一步一步(即元运算)执行下去,然后得出结果。在大数据这个语境中,计算就是对数据的变换!在数据系统中,从数据的输入到输出的变换!数据计算模式的定义现实世界中的数据处理问题复杂多样,难以有一种单一的计算模式能涵盖所有不同的数据计算需求。所谓数据计算模式,即根据数据的不同数据特征和计算特征,从多样性的数据计算问题和需求中提炼并建立的各种
抽象(
ion)或模型(model)。数据计算模式的分类批量计算模式MapReduce计算模式DAG计算模式流式计算模式连续查询处理模式可扩展数据流模式交互式计算模式SQL
on
Hadoop图计算模式1、批量计算模式数据的批量计算模式应用于静态数据的离线计算和处理,模式设计初衷是为了解决大规模、非实时数据计算,更加关注整个计算的吞吐量。批量计算系统的设计目标一般包括数据的吞吐量、系统灵活水平扩展、能处理极大规模数据、系统具有极强的容错性、应用表达的便捷性和灵活性等。实例MapReduce计算模式:HadoopDAG计算模式:Dryad、SparkMapReduce产生背景MapReduce这种并行编程模式思想最早是在1995年
。与传统的分布式程序设计相比,MapReduce封装了并行处理、容错处理、本地化计算、负载均衡等细节,还提供了一个简单而强大的接口。MapReduce把对数据集的大规模操作,分发给一个主节点管理下的各分节点共同完成,通过这种方式实现任务的可靠执行与容错机制。MapReduce编程模型2、流式计算模式数据批量计算技术关注数据处理的吞吐量,而数据流计算技术更关注数据处理的实时性,能够更加快速地为决策提供支持。数据的流计算技术是由复杂事件处理(CEP)发展而来。流计算的典型框架包括Storm、S4、Spark
Streaming等。流计算模式包括:–连续查询处理模式、可扩展数据流模式认识SparkSpark简介快速、分布式、可扩展、容错的集群计算框架;Spark是基于内存计算的大数据分布式计算框架;低延迟的复杂分析;Spark是Hadoop
MapReduce的替代方案。–
MapReudce不适合迭代和交互式任务,Spark主要为交互式查询和迭代算法设计,支持内存 和高效的容错恢复。Spark拥有MapReduce具有的优点,但不同于MapReduce,Spark中间输出结果可以保存在内存中,减少读写HDFS的次数。Spark的发展历史Spark的特点快速–
一般情况下,对于迭代次数较多的应用程序,Spark程序在内存中的运行速度是HadoopMapReduce运行速度的100多倍,在磁盘上的运行速度是Hadoop
MapReduce运行速度的10多倍。Spark的特点易用性–
Spark支持使用Scala、Python、Java及R语言快速编写应用。同时Spark提供超过80个高级运算符,使得编写并行应用程序变得容易并且可以在Scala、Python或R的交互模式下使用Spark。Spark的特点通用性–
Spark可以与SQL、Streaming及复杂的分析良好结合。Spark还有一系列的高级工具,包括Spark
SQL、MLlib(机器学习库)、GraphX(图计算)和Spark
Streaming,并且支持在一个应用中同时使用这些组件。Spark的特点随处运行–用户可以使用Spark的独立集群模式运行Spark,也可以在EC2(亚马逊弹性计算云)、HadoopYARN或者ApacheMesos上运行Spark。并且可以从HDFS、Cassandra、HBase、Hive、Tachyon和任何分布式文件系统数据。Spark生态圈3、交互式计算模式在数据基础上的便捷交互式计算模式的出现,应该说是数据处理技术积累到一定程度后的历史必然。的底层编程接口,需Hadoop提供的MR还是面向技术要便捷的交互式查询与分析功能。SQL
on
Hadoop解决方案:Hive系:Hadoop上的数据仓库、Hive
On
SparkShark系:Spark上的数据仓库、
SparkSQLDremel系:Dremel
、Impala、PowerDrill混合系:关系数据库+Hadoop,HadoopDB4、图计算模式图由于自身的结构特征,可以很好地表示事物之间的关系,在近几年已成为各学科研究的热点。图中点和边的强关联性,需要图数据处理系统对图数据进行一系列的操作,包括图数据的 、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等。随着图
点和边数的增多(达到几千万甚至上亿数),图数据处理的复杂性给图数据处理系统提出了严峻的
。图数据处理系统:Pregel、GraphLab、TAO、Trinity等。思考题数据计算的模式有哪些?数据分析数据分析?数据分析处理来自对某一
现象的观察、测量或者实验的信息。数据分析目的是从和
相关的数据中提取尽可能多的信息,主要目标包括:推测或解释数据并确定如何使用数据;检查数据是否合法;–
给合理建议;或推断错误原因;未来将要发生的事情。数据分析的分类根据数据分析深度将数据分析分为三个层次:描述性分析:基于历史数据描述发生了什么,通常应用在商业智能和可见性系统中。–
例如,利用回归技术从数据集中发现简单的趋势,可视化技术用于更有意义地表示数据,数据建模则以更有效的方式收集、 和删减数据。性分析:用于
未来的概率和趋势。•–
例如, 性模型使用线性和对数回归等统计技术发现数据趋势,未来的输出结果,并使用数据挖掘技术提取数据模式给出预见。规则性分析:解决
和提高分析效率。–
例如,仿真用于分析复杂系统以了解系统行为并发现问题,而优化技术则在给定约束条件下给出最优解决方案。大数据的四种主要分析技术统计分析机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。可视化分析统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。统计分析统计分析是基于统计理论,是应用数学的一个分支。在统计理论中,随机性和不确定性由概率理论建模。统计分析技术可以分为描述性统计和推断性统计。(Summarization)描述性统计技术对数据集进行或描述;推断性统计则能够对过程进行推断;例如:多元统计分析包括回归、因子分析、聚类和判别分析等。统计学统计学(Statistics)是通过搜索、整理、分析、描述数据等
,以达到推断所测对象的本质,甚至对象未来的一门综合性科学。事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。大数据告知信息但不解释信息。打个比方,大数据是“原油”而不是“ ”,不能被直接拿来使用。大数据时代,统计学是数据分析的
。数据挖掘数据挖掘可以认为是发现大数据集中数据模式的一种计算过程。许多数据挖掘算法已经在人工智能、机器学习、模式识别、统
计和数据库领域得到了应用。2006年ICDM
国际会议上总结了
最高的10种数据挖掘算法,包括C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、朴素
和CART,覆盖了分类、聚类、回归和统计学习等方向。有时候,几乎可以认为很多方法间的界线逐渐淡化,例如数据挖掘、机器学习、模式识别、甚至视觉信息处理、信息处理等等,“数据挖掘”只是作为一个通称。机器学习机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问,其理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行。与传统的联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。思考题统计分析、数据挖掘和机器学习的关系是什么?数据可视化数据可视化?数据可视化是利用计算机图
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度富士康企业管理系统升级合同2篇
- 货物运输车辆租赁合同
- 海南省三亚市(2024年-2025年小学五年级语文)统编版随堂测试(下学期)试卷及答案
- 辽宁省营口市(2024年-2025年小学五年级语文)统编版质量测试(上学期)试卷及答案
- 土地流转合同
- 2024年度技术转让合同:生物制药技术的转让2篇
- 二零二四年度分包给排水安装工程成本控制合同3篇
- 2024装修合同:某体育中心室内设计工程
- 2024年度采购与销售合同3篇
- 个人股权转让合同(2024版):个人向公司转让股份的协议5篇
- 四川省绵阳市三台县2024-2025学年高二上学期期中考试历史试题 含解析
- 《司法鉴定工作实务》课件
- 二年级上册数学教案-第七单元认识时间(7课时) 人教新课标
- 2024-2030年中国海砂淡化开采产业未来发展趋势及投资策略分析报告
- 国家自然科学基金申请书模板三篇
- 2024年防汛物资购销合同范本
- DB14-T 1811-2019 旅游景区民俗燃香基本要求
- 2024-2025学年初中生物学七年级下册(2024)北师大版(2024)教学设计合集
- 期中测试卷(1-5单元)(试题)-2024-2025学年三年级上册数学人教版
- 24.1.3 弧、弦、圆心角 人教版数学九年级上册教案
- GB/T 13477.25-2024建筑密封材料试验方法第25 部分:耐霉菌性的测定
评论
0/150
提交评论