大数据导论 课件 第1章 大数据概述_第1页
大数据导论 课件 第1章 大数据概述_第2页
大数据导论 课件 第1章 大数据概述_第3页
大数据导论 课件 第1章 大数据概述_第4页
大数据导论 课件 第1章 大数据概述_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据概述实例引入:三次信息化浪潮迎来大数据时代大数据产业发展概况大数据技术体系大数据相关岗位需求实例引入:三次信息化浪潮迎来大数据时代古人记录信息的手段非常原始,如果要记往一件事,他们会在绳子上打一个结,以后看到该结,就会想起那件事,这便是结绳记事。如果有很多事需要记住,那么就会在绳子上打很多结,时间长了就很难想起是什么事了。由此可见,“结绳记事”这种古老的方法虽然简单但并不可靠。随着人类文明的不断进步,记录信息的载体也在发生着变化,例如龟甲、兽骨、竹简、纸张、录音磁带、可移动磁盘、数据库等。随着第三次工业革命的到来,人类进入了信息时代,电子计算机的发明更是为信息技术的发展插上了翅膀,大量的信息由此产生,大数据的时代就此到来。信息时代数据爆炸信息时代以电子信息产业的突破与迅猛发展为标志,和工业时代有着明显的区别。在工业时代,人们更看重的是土地、厂房、机械设备、劳动力等传统生产要素。在信息时代,数据变成一种新的生产要素,蕴含了对未来事件的判断、事物之间的联系、未被发现的知识规律等,因此,数据积累就显得十分重要。在信息时代,晶体管和大规模集成电路极大地降低了信息传播的费用,随着计算机的出现和逐步普及,信息对整个社会的影响逐步提高。信息指标呈现出一种逐渐提升的态势,主要体现在信息总量的增长、信息传播速度的提升、信息处理速度的加快以及信息应用的广度和深度的扩展。信息时代数据爆炸信息技术的发展为人们学习知识、掌握知识和运用知识带来了新的机遇和挑战。虽然信息与知识并非完全等同,但通过信息技术的支持,人们可以更方便地获取各种信息资源,并利用工具和平台进行知识的积累和应用。中国信息通信研究院发布的《大数据白皮书(2020年)》中提到,根据国际权威机构Statista的统计和预测,2035年全球数据产生量将达到2142ZB,全球数据量即将迎来更大规模的爆发。三次信息化浪潮人类记录信息的方式不断的变化着,记录信息的方式经历了3次信息化浪潮三次信息化浪潮人类记录信息的方式不断的变化着,记录信息的方式经历了3次信息化浪潮第一次信息化浪潮是计算机的普及

计算机的价格不断下降,尺寸不断缩小,进入日常生活第二次信息化浪潮是互联网的普及

获取信息的便利性增大第三次信息化浪潮是大数据技术的发展网络共享的数据不断积累,通过数据挖掘,发现其中隐含的价值大数据的发展大数据的发展可以分为4个阶段大数据的发展大数据萌芽阶段(1980年—2008年)1980年,美国著名未来学家阿尔文·托夫勒(AlvinToffler)在《第三次浪潮》一书中提出大数据这一概念大数据发展阶段(2009年—2011年)在大数据发展阶段,处理海量数据已经成为整个社会迫在眉睫的事情,全球范围内开始进行大数据的研究探索和实际运用。2010年,肯尼斯·库克尔发表了长达14页的大数据专题报告《数据,无所不在的数据》,系统地分析了当前社会中的数据问题大数据的发展大数据爆发阶段(2012年—2016年)大数据成为各行各业讨论的时代主题,对数据的认知更新引领着思维变革、商业变革和管理变革,大数据应用规模不断扩大,全球开始针对大数据制定相应的战略和规划大数据成熟阶段(2017年至今)在大数据成熟阶段,与大数据相关的政策、法规、技术、教育、应用等发展因素开始走向成熟,其中,政策和法规对技术的应用进行了约束和规范,起到了至关重要的作用大数据带来思维模式的改变在计算机发明初期,由于技术条件的限制,人类无法获取大量的数据,没有办法完全利用已获得的数据来分析问题,一般采用统计学方法和建立因果关系模型来分析。但是很多问题无法通过因果关系来描述,或其因果关系非常复杂难以准确描述。在大数据时代,人类可以利用全部的样本数据,通过算法找出其中的繁杂关系;而且并不要求这些数据是完全精确的,可以是混杂的,完全符合客观世界的真实规律。这样的思路来分析问题,就是采用了大数据思维。大数据带来思维模式的改变大数据思维是在利用数据解决业务问题的过程中所表现出来的思维模式,这个过程涉及一系列的步骤,包括选择一个业务领域或主题,理解业务问题及其数据,描述业务问题及其数据等。为了完整性,大数据思维还涉及寻找合适的方法分析数据,以及如何恰当地展示分析结果,把数据处理整个流程的开始(业务需求)和结束(结果的解释和展示)关联起来,形成一个闭环。大数据的特点大数据的数据存储和处理都不同于传统数据库数据,而且出现了非结构化数据。经过总结,可以得到大数据的5个特征,简称5V特征。Volume(数据量)Variety(多样性)Value(价值)Velocity(速度)Veracity(真实性)实例引入:三次信息化浪潮迎来大数据时代大数据产业发展概况大数据技术体系大数据相关岗位需求大数据产业发展概况1.大数据产业发展现状与市场规模我国大数据经过多年高速发展,不断取得重要突破,呈现良好发展态势。一是产业规模高速增长,2021年,我国大数据产业规模增加到1.3万亿元,复合增长率(CompoundAnnualGrowthRate,CAGR)超过30%;二是创新能力不断增强,2021年我国发表大数据领域论文量占全球31%,大数据相关专利受理总数占全球超50%,均位居第一;三是生态体系持续优化,2021年我国大数据市场主体总量超18万家,一批大数据龙头企业快速崛起,初步形成了大企业引领、中小企业协同、创新大数据产业发展概况2.大数据产业应用领域及其应用价值随着大数据成为国家战略以及大数据技术和商业模式逐渐成熟,大数据的应用在各行业、各领域得到了快速拓展。在经济预警、舆情分析、健康医疗、农业精准管理、城市综合治理、电信运营、互联网金融、电子商务等领域已出现先导应用并在不断深化。金融领域电子商务领域交通领域医疗卫生行业3.大数据市场产业链大数据产业发展概况大数据产业是以数据采集、交易、存储、加工、分析、服务为主的各类经济活动,包括数据资源建设、大数据软硬件产品的开发、销售、租赁活动和相关信息技术服务。整体来看,大数据产业链由上游、中游和下游3部分组成,如右图,上游是基础支持,中游是大数据服务,下游是大数据应用,三者相互交融,形成完整的大数据产业链。实例引入:三次信息化浪潮迎来大数据时代大数据产业发展概况大数据技术体系大数据相关岗位需求大数据技术体系大数据技术体系内容大数据的出现颠覆了传统数据处理的一系列技术,如大数据获取方式的改变导致数据规模迅速膨胀,对传统的数据库系统而言,其索引、查询以及存储技术都面临着严峻的考验,而且如何快速地完成大数据的分析也是传统数据分析方法无法解决的问题。大数据技术应用于大数据系统端到端的各个环节,包括数据接入、数据预处理、数据存储、数据处理、数据可视化、数据治理,以及安全与隐私保护等。数据接入大数据系统需要从不同应用和数据源(如互联网、物联网等)进行离线或实时的数据采集、传输、分发。为了支持多种应用和数据类型,大数据系统的数据接入需要基于规范化的传输协议和数据格式,提供丰富的数据接口、读入各种类型的数据。数据预处理预处理是大数据重点技术之一。由于采集到的数据在来源、格式、数据质量等方面可能存在较大的差异,需要对数据进行整理、清洗、转换等操作,以便支撑后续数据处理、查询、分析等进一步应用。数据存储随着大数据系统数据规模的扩大、数据处理和分析维度的提升、以及大数据应用对数据处理性能要求的不断提高,数据存储技术得到持续的发展与优化。一方面,基于大规模并行数据库(MassivelyParallelProcessingDatabase,MPPDB)集群实现了海量结构化数据的存储与高质量管理,并能有效支持SQL和联机交易处理(OnlineTransactionProcessing,OLTP)查询。另一方面,Hadoop分布式文件系统(HadoopDistributdeFileSystem,HDFS)实现了对海量半结构化和非结构化数据的存储,进一步支撑内容检索、深度挖掘、综合分析等大数据分析应用。同时,数据规模的快速增长,也使得分布式存储成为主流的存储方式,通过充分利用分布式存储设备的资源,能够显著提升容量和读写性能,具备较高的扩展性。数据处理数据处理方法说明如下表。近年来,为满足不同数据分析场景在性能、数据规模、并发性等方面的要求,流计算、内存计算、图计算等数据处理技术不断发展。同时,人工智能的快速发展使得机器学习算法更多地融入数据处理、分析过程,进一步提升了数据处理结果的精准度、智能化和分析效率。方法说明离线处理离线处理通常是指对海量数据进行批量的处理和分析,对处理操作的实时性要求不高,但数据量巨大、占用计算及存储资源较多实时处理实时处理指对实时数据源(如流数据)进行快速分析,对分析处理操作的实时性要求高,单位时间处理的数据量大,对CPU和内存的要求很高交互查询交互查询是指对数据进行交互式的分析和查询,对查询操作响应时间要求较高,对查询语言支持要求高实时检索实时检索指对实时写入的数据进行动态的查询,对查询操作响应时间要求较高,并且通常需要支持高并发查询数据可视化数据可视化是大数据技术在各行业应用中的关键环节。其直观反映出数据各维度指标的变化趋势,用以支撑用户分析、监控和数据价值挖掘。数据可视化技术还可使用户借助图表、2D/3D视图等多种方式自定义配置可视化界面,实现对各类数据源进行面向不同应用要求的分析。数据治理数据治理涉及数据全生存周期端到端过程,不仅与技术紧密相关,还与政策、法规、标准、流程等密切关联。从技术角度来看,大数据治理涉及元数据管理、数据标准管理、数据质量管理、数据安全管理等多方面技术。当前,数据资源分散、数据流通困难(模型不统一、接口难对接)、应用系统孤立等问题已经成为企业数字化转型的极大挑战。大数据系统需要通过提供集成化的数据治理能力,实现统一数据资产管理及数据资源规划。安全与隐私保护大数据系统的安全与系统的各个组件、系统工作的各个环节相关,需要从数据安全(例如,备份容灾、数据加密)、应用安全(例如,身份鉴别和认证)、设备安全(例如,网络安全、主机安全)等方面全面保障系统的运行安全。同时随着数据应用的不断深入,数据隐私保护(包括个人隐私保护、企业商业秘密保护、国家机密保护)也已成为大数据技术重点研究方向之一。实例引入:三次信息化浪潮迎来大数据时代大数据产业发展概况大数据技术体系大数据相关岗位需求大数据相关岗位需求近年来,随着大数据技术的不断发展,相关就业岗位的数量和种类也不断地增加。大数据技术发展初期,受欢迎的是大数据算法开发工程师,但是大数据技术的发展带动了大数据配套产业的发展,相关的就业岗位也增加了,逐渐从大数据平台开发向着大数据应用领域开发扩展,极大地增加了就业机会,也拓宽了就业面。大数据相关岗位需求大数据主要岗位方向岗位岗位职责数据预处理数据采集工程师负责大数据采集方案设计与开发,实现基于系统集成、日志、网络爬虫等的数据采集数据清洗工程师负责发现和处理数据异常,制定确保数据质量的流程和制度数据存储工程师负责设计和开发大数据存储系统,解决存储性能优化、容量规划数据分析数据挖掘工程师负责利用算法从大量数据中搜索隐藏于其中的信息,提高大数据利用效率数据分析工程师负责数据统计分析、深度挖掘分析与业务预测,并形成分析报告数据可视化工程师负责开发数据可视化产品、输出数据可视化图表和报告数据管理数据治理工程师负责制定大数据战略、组织结构、规章制度数据管理工程师负责大数据全生命周期管理数据安全数据安全架构工程师负责制定大数据安全体系顶层规划与设计,设计组织架构和安全管理体系数据安全评估工程师负责分析、评估大数据中存在的威胁、漏洞及风险,并提出改

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论