大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)_第1页
大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)_第2页
大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)_第3页
大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)_第4页
大数据导论(通识课版)-第3章-大数据技术(2020年春季学期)_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章大数据技术目录3.1概述3.2数据采集与预处理3.3数据存储和管理3.4数据处理与分析3.5数据可视化3.6数据安全和隐私保护3.1大数据技术概述3.1大数据技术概述数据的概念

数据采集与预处理

数据存储和管理

数据处理与分析

数据可视化

数据安全和隐私保护大数据技术层次3.1大数据技术概述数据的概念技术层面功能数据采集与预处理利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析;利用网页爬虫程序到互联网网站中爬取数据数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析数据可视化对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全表大数据技术的不同层面及其功能3.2数据采集与预处理提纲3.2.1数据采集的概念3.2.3数据采集的数据源3.2.2数据采集的三大要点3.2.4数据清洗3.2.1数据采集的概念数据的概念数据采集随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量之和。世界上每时每刻都在产生大量的数据,包括物联网传感器数据、社交网络数据、商品交易数据等等。面对如此巨大的数据,与之相关的采集、存储、分析等等环节产生了一系列的问题3.2.1数据采集的概念数据的概念数据采集数据采集数据采集数据采集,又称“数据获取”,是数据分析的入口,也是数据分析过程中相当重要的一个环节,它通过各种技术手段把外部各种数据源产生的数据实时或非实时地采集并加以利用。3.2.1数据采集的概念数据的概念数据采集结构化数据半结构化数据非结构化数据3.2.1数据采集的概念数据的概念来源单一,数据量相对较少数据源结构单一数据类型关系数据库和并行数据仓库数据存储来源广泛,数据量巨大数据源数据类型丰富,包括结构化、半结构化和非结构化数据类型分布式数据库,分布式文件系统数据存储传统的数据采集大数据采集传统的数据采集与大数据采集区别3.2.2数据采集的3大要点数据的概念数据采集的三大要点0203多维性全面性高效性013.2.3数据采集的数据源数据的概念数据采集的数据源03

企业业务系统数据04

日志文件01

传感器02互联网数据3.2.3数据采集的数据源数据的概念1.传感器传感器温度计、麦克风、DV录像、手机拍照功能等,都属于传感器的一部分压力传感器、温度传感器、流量传感器、声音传感器、电参数传感器传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号,或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求3.2.3数据采集的数据源2.互联网数据互联网数据采集是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。爬虫数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。3.2.3数据采集的数据源数据的概念3.日志文件日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和Web服务器记录的用户访问行为。通过对这些日志信息进行采集,然后进行数据分析,就可以从公司业务平台日志数据中,挖掘得到具有潜在价值的信息,为公司决策和公司后台服务器平台性能评估,提供可靠的数据保证。系统日志采集系统做的事情就是,收集日志数据,提供离线和在线的实时分析使用。3.2.3数据采集的数据源数据的概念ChukwaFlumeScribe3.日志文件3.2.3数据采集的数据源数据的概念4.企业业务系统数据一些企业会使用传统的关系型数据库MySQL和Oracle等来存储业务系统数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的存储。企业每时每刻产生的业务数据,以数据库一行记录的形式,被直接写入到数据库中3.2.3数据采集的数据源数据的概念企业可以借助于ETL(Extract-Transform-Load)工具,把分散在企业不同位置的业务系统的数据,抽取、转换、加载到企业数据仓库中,以供后续的商务智能分析使用图

数据仓库体系架构3.2.3数据采集的数据源

数据采集数据抽取数据转换操作数据清洗企业业务系统数据010203043.2.4数据清洗数据清洗是指将大量原始数据中的“脏”数据“洗掉”,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。比如,在构建数据仓库时,由于数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来,而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”给“洗掉”,这就是“数据清洗”3.2.4数据清洗数据的概念1.需要清洗的数据的主要类型重复数据错误数据残缺数据3.2.4数据清洗2.数据清洗的内容一致性检查无效值和缺失值的处理估算整例删除变量删除成对删除3.2.4数据清洗2.数据清洗的内容一致性检查一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案,可能以多种形式出现:如许多调查对象说自己开车上班,又报告说没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正3.2.4数据清洗2.数据清洗的内容无效值和缺失值的处理由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算、整例删除、变量删除和成对删除。估算最简单的办法就是用某个变量的样本均值、中位数或众数,代替无效值和缺失值。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。3.2.4数据清洗2.数据清洗的内容整例删除变量删除成对删除适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除成对删除是用一个特殊码代表无效值和缺失值,同时保留数据集中的全部变量和样本3.3数据存储与管理3.3.1传统的数据存储和管理技术数据的概念数据存储和管理传统的数据存储和管理技术3.3.1大数据时代的数据存储和管理技术3.3.23.3.1传统的数据存储和管理技术数据的概念文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基于NANDFlash的固态硬盘)或分区上的文件的方法和数据结构,即在存储设备上组织文件的方法。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称“文件系统”文件系统由三部分组成:文件系统的接口,对对象操纵和管理的软件集合,对象及属性。从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。具体地说,它负责为用户建立文件,存入、读出、修改、转储文件,控制文件的存取,当用户不再使用时撤销文件等。我们平时在计算机上使用的WORD文件、PPT文件、文本文件、音频文件、视频文件等,都是由操作系统中的文件系统进行统一管理的A

B

1.文件系统3.3.1传统的数据存储和管理技术数据的概念2.关系数据库除了文件系统之外,数据库是另外一种主流的数据存储和管理技术。数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。在数据库的发展历史上,先后出现过网状数据库、层次数据库、关系数据库等不同类型的数据库,这些数据库分别采用了不同的数据模型,目前比较主流的数据库是关系数据库,它采用了关系数据模型来组织和管理数据。3.3.1传统的数据存储和管理技术数据的概念2.关系数据库AB一个关系数据库可以看成是许多关系表的集合,每个关系表可以看成一张二维表格目前市场上常见的关系数据库产品包括Oracle、SQLServer、MySQL、DB2等3.3.1传统的数据存储和管理技术数据的概念学号姓名性别年龄考试成绩95001张三男218895002李四男229595003王梅女227395004林莉女2196表

学生信息表2.关系数据库3.3.1传统的数据存储和管理技术数据的概念3.数据仓库图

数据仓库体系架构数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策3.3.1传统的数据存储和管理技术数据库数据仓库数据仓库是面向主题设计的数据库是面向事务的设计数据库一般存储在线交易数据数据仓库存储的一般是历史数据3.3.1传统的数据存储和管理技术数据的概念4.并行数据库并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性3.3.1传统的数据存储和管理技术数据的概念4.并行数据库数据转移的代价是昂贵并行数据库缺点弹性差容错性差转移成本高集群处理差3.3.2大数据时代的数据存储和管理技术数据的概念1.分布式文件系统分布式文件系统(DistributedFileSystem)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统图分布式文件系统的整体结构3.3.2大数据时代的数据存储和管理技术数据的概念1.分布式文件系统谷歌开发了分布式文件系统GFS,通过网络实现文件在多台机器上的分布式存储,较好地满足了大规模数据存储的需求。Hadoop分布式文件系统HDFS是针对GFS的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行大规模分布式文件存储的能力。3.3.2大数据时代的数据存储和管理技术数据的概念2.NewSQL和NoSQL数据库

(1)NewSQL数据库NewSQL简介NewSQL是对各种新的可扩展、高性能数据库的简称,这类数据库不仅具有对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL等.特性不同的NewSQL数据库有两个显著的共同特点:都支持关系数据模型;都使用SQL作为其主要的接口。在众多NewSQL数据库中,Spanner备受瞩目,它是一个可扩展、多版本、全球分布式并且支持同步复制的数据库,是Google的第一个可以全球扩展并且支持外部一致性的数据库。代表性的NewSQL数据库3.3.2大数据时代的数据存储和管理技术数据的概念2.NewSQL和NoSQL数据库

(2)NoSQL数据库NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束,因此,与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型3.3.2大数据时代的数据存储和管理技术数据的概念数据的概念2.NewSQL和NoSQL数据库(2)NoSQL数据库灵活的可扩展性灵活的数据模型与云计算紧密融合NoSQL优点3.3.2大数据时代的数据存储和管理技术数据的概念2.NewSQL和NoSQL数据库(3)大数据引发数据库架构变革图

大数据引发数据处理架构变革3.4数据处理与分析提纲数据挖掘和机器学习算法

大数据处理与分析技术3.4.13.4.23.4.1数据挖掘和机器学习算法数据挖掘和机器学习算法数据挖掘和机器学习是计算机学科中最活跃的研究分支之一。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘可以视为机器学习与数据库的交叉,它主要利用机器学习界提供的算法来分析海量数据,利用数据库界提供的存储技术来管理海量数据。从知识的来源角度而言,数据挖掘领域的很多知识也“间接”来自于统计学界3.4.1数据挖掘和机器学习算法典型的机器学习和数据挖掘算法3.4.1分类聚类回归分析关联规则3.4.2大数据处理与分析技术由于企业内部存在多种不同的应用场景,因此,大数据处理的问题复杂多样,单一的技术是无法满足不同类型的计算需求的,MapReduce其实只是大数据处理技术中的一种3.4.2大数据处理与分析技术批处理计算流计算图计算查询分析计算3.4.2大数据处理与分析技术大数据处理分析技术类型及其代表产品大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量处理MapReduce、Spark等流计算针对流数据的实时计算Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等3.5数据可视化提纲3.5.1数据可视化的概念与作用3.5.2数据可视化案例3.5.1数据可视化的概念数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析数据可视化概念3.5.2数据可视化的重要作用数据可视化的作用依靠可视化手段进行数据分析必将成为大数据分析流程的主要环节之一。让“茫茫数据”以可视化的方式呈现,让枯燥的数据以简单友好的图表形式展现出来,可以让数据变得更加通俗易懂,有助于用户更加方便快捷地理解数据的深层次含义,有效参与复杂的数据分析过程,提升数据分析效率,改善数据分析效果。3.5.2数据可视化的重要作用数据可视化的作用(1)观测、跟踪数据图

百度地图显示的北京市实时交通路况信息3.5.2数据可视化的重要作用数据可视化的作用(2)分析数据图

用户参与的可视化分析过程3.5.2数据可视化的重要作用数据可视化的作用(3)辅助理解数据图

微软“人立方”展示的人物关系图3.5.2数据可视化的重要作用数据可视化的作用(4)增强数据吸引力图

一个可视化的图表新闻实例3.5.3数据可视化案例1234全球黑客活动互联网地图编程语言之间的影响力关系图世界国家健康与财富之间的关系3.5.3数据可视化案例1.互联网地图为了探究互联网这个庞大的宇宙,俄罗斯工程师RuslanEnikeev根据2011年底的数据,将全球196个国家的35万个网站数据整合起来,并根据200多万个网站链接将这些“星球”通过关系链联系起来,每一个“星球”的大小根据其网站流量来决定,而“星球”之间的距离远近则根据链接出现的频率、强度和用户跳转时创建的链接来确定,由此绘制得到了“互联网地图”()。图

俄罗斯工程师绘制的“互联网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论