模块五 大数据(36)_第1页
模块五 大数据(36)_第2页
模块五 大数据(36)_第3页
模块五 大数据(36)_第4页
模块五 大数据(36)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!工业和信息化精品系列教材信息技术(拓展模块)大数据模块五感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!目录认识大数据了解大数据技术了解大数据工具任务一任务二任务三熟悉大数据安全任务四感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责

2、任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!我们身处飞速发展的社会之中,整个社会每时每刻都在产生并使用海量的数据,大到工程施工、环保监测,小到外卖点餐、网络购物等,在大数据技术的帮助下,产生的这些数据都能够被我们高效地利用起来。本任务将对大数据的基本知识进行介绍,让大家对大数据有更深入的体会,再通过体验大数据带来的便利进行实践操作。任务描述任务描述认识大数据任务一感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!相关知识(一)大数据的概念和特征(二)

3、大数据的结构类型(三)大数据的时代背景相关知识认识大数据任务一(四)大数据的应用场景(五)大数据的发展趋势感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!5 (一)大数据的概念和特征在合理时间内无法用传统数据库软件工具或传统流程对其内容进行抓取、管理、处理和分析,能有效支持决策制订的复杂数据集合。要想更透彻地理解这个定义,我们还需要知道大数据的独有特征。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!

4、包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!6 (二)大数据的结构类型预定义数据类型、格式和结构的数据,可以简单地理解为数据库中的数据结构化数据具有不规则数据格式的文本数据,可使用工具将其格式化处理准结构化数据具有可识别的模式并可以解析的文本数据,如自描述和具有定义模式的XML数据等半结构化数据没有固定结构的数据,通常保存为不同类型的文件,如文本文档、PDF 文档、图像和视频文件等非结构化数据大数据的结构类型感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔

5、偿!7 (三)大数据的时代背景随着信息技术的飞速发展,互联网、移动互联网、云计算、物联网等技术相继出现并应用到我们的生活、学习和工作中,各种新型的信息交流不断涌现,全球数据信息量呈指数式增长。仅2011年,全球数据总量就达到了1.8 ZB(1 ZB 相当于1 万亿GB)。而现在,全球数据总量已经超过了40 ZB,数据已经发展成为全社会的资源,各个行业既是数据的创造者,也是数据的消费者。在这样的背景下,如何处理这样庞大的数据,如何在这些数据中快速找到实用的信息,如何将这些有价值的数据信息服务于社会,就是我们迫切需要解决的问题。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利

6、益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!8 (四)大数据的应用场景大数据的应用场景包括各行各业对大数据的处理和分析,而实际上大数据的应用远不仅限于这些行业。01零售业02金融业03医疗业04教育业05农业06交通业感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!9 (五)大数据的发展趋势与大数据相关的配套政策和实施细则,以及管理机制都将逐步完善,这些措施将促进大数据加快落地,为大数据实现政用、商用、民用

7、提供帮助和指导。人工智能将成为大数据生态中的重要组成部分,相关方面将得到广泛应用,包括医疗、电商、交通、金融、教育等领域都将取得突破性发展。工业大数据在自身基础设施建设及同其他产业平台的融合方面将更加完善,将探索出制造业网络化、数字化和智能化发展的新模式。大数据安全法律体系建设将进一步完善,安全技术、产品和服务等方面的创新应用将不断增多。伴随市场对数据交易需求的增大,以及相关机制的完善,未来有望出现立体化的数据市场交易格局。大数据学科自身的理论体系将得以建立,并有望在丰富完善过程中对学科理论基础的探索发挥更大作用。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复

8、制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!任务实践实际生活中你感受或体验过大数据带来的便利吗?请按照表所示的书写方式将具体内容填写到表格中。认识大数据任务一事项主要工作网络购物通过大数据向自己推送喜爱的商品品牌和类型,节省了购物时间任感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!目录认识大数据了解大数据技术了解大数据工具任务一任务二任务三熟悉大数据安全任务四感谢您下载包图网平台上提供的PPT作品,为了您和包图网以

9、及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!大数据技术是指人们在使用大数据时,为了实现对数据进行采集、处理、存储、分析、可视化等操作而用到的各种技术。本任务将对大数据的基本知识进行介绍,让大家对大数据有更深入的体会,再通过体验大数据带来的便利进行实践操作。任务描述任务描述了解大数据技术任务二感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!相关知识(一)大数据采集(二)大数据预处理(三)大数据存

10、储与管理相关知识(四)大数据分析与挖掘(五)大数据可视化了解大数据技术任务二感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!14 (一)大数据采集n 采集内容数据采集这类数据可以使用Hadoop、Spark、Cloudera 等专门的海量数据采集工具,能满足每秒数百MB 的数据采集和传输需求。n 采集网络数据采集这类数据可以通过网络爬虫或网站公开的应用程序接口等方式从网站上获取数据信息。n 采集其他企业或组织机构的内部数据对于需要采集某些企业的生产经营数据或研究机构的

11、学科研究数据等保密性要求较高的数据,可以通过与该企业或研究机构开展合作,使用特定系统接口等相关方式进行采集感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!15 (一)大数据采集数据仓库技术是企业较常选择的一种采集技术,可以轻松采集企业内部的大量数据,其作用是将企业中分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,

12、按照传播下载次数进行十倍的索取赔偿!16 (二)大数据预处理通过大数据预处理可以将结构复杂的数据转换为单一的或便于处理的数据,同时可以清除数据中的干扰项,保证数据的质量和可靠性,最终为数据分析打下基础。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!17 (二)大数据预处理更正、修复一些错误数据,同时对数据进行归纳整理,并将其存储数据清洗采用线性或非线性的数学变换方法,将多维数据压缩成较少维数的数据数据交换将数据源中的数据集成到一个统一的数据集合中数据集成从数据库或数

13、据仓库中选取并建立使用者感兴趣的数据集合数据规约大数据预处理感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!18 (三)大数据存储与管理大数据场景下,数据量呈爆发式增长,而数据存储能力的增长远远赶不上数据的增长,因此选择合适的大数据存储与管理技术十分重要。直接附加存储网络附加存储存储区域网络iSCSI 网络存储01020403感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照

14、传播下载次数进行十倍的索取赔偿!19 (四)大数据分析与挖掘大数据分析是指利用正确的分析方法和分析工具对经过预处理的大数据进行分析,从中提取出具有价值的信息,为大数据可视化环节提供关键的数据结果。1大数据分析01多维聚类分析02因子分析03相关分析04对应分析05回归分析06方差分析感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!20 (四)大数据分析与挖掘大数据挖掘是一个发现数据特征和模式的过程,一般来说,大数据挖掘的过程包含6 个环节。2大数据挖掘感谢您下载包图网

15、平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!21 (四)大数据分析与挖掘对于大数据挖掘的方法而言,常用的主要方法包括以下几种。神经网络算法决策树方法覆盖正例排斥反例方法模糊集方法遗传算法粗糙集方法统计分析方法感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!22 (五)大数据可视化大数据可视化的呈现形式也比一般的数据可视化的呈现形式更加多样,具体有以下3

16、种。数据可视化指标可视化数据关系可视化感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!任务实践本次任务实践将利用八爪鱼采集器采集58 同城网站中成都地区招聘程序员的数据,然后在Excel 中对数据进行预处理、分析和可视化操作,挖掘出该地区在招聘程序员时对学历要求的情况。了解大数据技术任务二(一)采集招聘数据(二)处理并分析数据感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照

17、传播下载次数进行十倍的索取赔偿!目录认识大数据了解大数据技术了解大数据工具任务一任务二任务三熟悉大数据安全任务四感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!2020 年4 月9 日发布的关于构建更加完善的要素市场化配置体制机制的意见将数据与土地、劳动力、资本、技术并称为5 种要素,数据对社会生活方式和国家治理能力产生的重要影响可见一斑。对大数据工具而言,从海量的数据背后挖掘到隐含的价值,便是其使命所在。本任务将介绍Hadoop 和Spark 这两种常用的大数据工具

18、,然后通过搜索大数据工具相关的问题进行实践操作。任务描述任务描述了解大数据工具任务三感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!相关知识(一)Hadoop(二)Spark相关知识了解大数据工具任务三感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!27 (一)HadoopHadoop 是基于Java 开发的大数据工具,它具有很好的跨平台特性

19、,其核心是分布式文件系统和MapReduce。Hadoop 作为分布式计算平台,不仅能够处理海量数据,还具备其他一些优势。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!28 (二)SparkSpark 源于美国加州大学伯克利分校AMPLab 的集群计算平台,于2010 年开放源码,在2013年进入Apache 孵化器项目,并于2014 年成为Apache 三个顶级项目之一。Spark 被称为下一代计算平台,它立足于内存计算,从多迭代批量处理出发,兼容数据仓库、流处理

20、和图计算等多种计算方式,其设计目标是让数据分析更加快速,提供比Hadoop 更上层的应用程序接口,支持交互查询和迭代计算。感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!任务实践根据表中的搜索关键词搜索相关内容,了解与大数据工具相关的知识,并回答问题。了解大数据工具任务三搜索关键词HadoopMapReduceSpark大数据工具问题 Hadoop 大数据工具在未来还会流行吗?为什么? MapReduce 到底有什么缺陷?该搜索引擎技术会过时吗? 与Hadoop 相比

21、,Spark 强大在哪些地方? 通过互联网了解了大数据工具后,你还知道哪些目前较为热门的大数据工具,它们的优势各是什么?感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!目录认识大数据了解大数据技术了解大数据工具任务一任务二任务三熟悉大数据安全任务四感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!目前,我国正处于建立健全与大数据采集、分析等环节

22、相关的监管制度中,在没有标准和相应监管措施的情况下,大数据泄露事件多有发生,这已经暴露出大数据时代用户隐私安全的尖锐问题。人们在高效利用大数据技术的同时,也需要增强安全隐私意识,加强全方位的安全隐私防护,明确数据归属及访问权限,让大数据更好地为人们的生活和工作服务。本任务将介绍大数据相关的安全问题和安全防护方法,然后通过案例分析进行实践操作。任务描述任务描述熟悉大数据安全任务四感谢您下载包图网平台上提供的PPT作品,为了您和包图网以及原创作者的利益,请勿复制、传播、销售,否则将承担法律责任!包图网将对作品进行维权,按照传播下载次数进行十倍的索取赔偿!相关知识(一)大数据应用中面临的安全问题(二)大数据的安全防护方法相关知识熟悉大数据安全任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论