大数据技术与应用课件第1章(上)_第1页
大数据技术与应用课件第1章(上)_第2页
大数据技术与应用课件第1章(上)_第3页
大数据技术与应用课件第1章(上)_第4页
大数据技术与应用课件第1章(上)_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第1章 大数据介绍第1章 大数据介绍大数据概述 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据时代的概念最早是全球知名咨询公司麦肯锡提出的。按照麦肯锡的理念来理解,大数据并不是神秘的,不可触摸的,它是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。大数据概述 大数据(big data),指无法在一 “大数据”一词在1980年未来学家阿尔文托夫勒著的第三次浪潮书中将“大数据”称为“第三次浪潮的华彩乐章”。 1997年美

2、国宇航局研究员迈克尔考克斯和大卫埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战。 20072008年随着社交网络的激增,技术博客和专业人士为“大数据” 概念注入新的生机。 2008年9月自然杂志在推出了名为“大数据”的封面专栏,同年“大数据”概念得到了美国政府的重视。 “大数据”一词在1980年未来学家阿尔文托夫勒著的 从2009-2010年“大数据”成为互联网技术行业中的热门词汇。 “大数据时代已经到来”出现在2011年6月麦肯锡发布了关于“大数据”的报告,正式定义了大数据的概念,后逐渐受到了各行各业关注。 2012年,大数据一词越来越多地被提及,人们用它来描述和定义信息爆

3、炸时代产生的海量数据,并命名与之相关的技术发展与创新。 2008年9月自然杂志在推出了名为“大数据”的封面专栏,同年“大数据”概念得到了美国政府的重视。 从2009-2010年“大数据”成为互联网技术行业 2014年“大数据”首次出现在我国国内的政府工作报告中。 2015年国务院正式印发促进大数据发展行动纲要。 2016年我国大数据行业发展的相关政策细化落地,国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案。 2014年“大数据”首次出现在我国国内的政府工作报告大数据的影响(1)大数据对科学活动的影响(2)大数据对思维方式的影响 (3)大数据对社会发展的影响(

4、4)大数据对就业市场的影响大数据的影响(1)大数据对科学活动的影响数据 在我们的生活中,数据无处不在。比如银行通过收集客户的受教育程度、经济能力、住房情况等数据,可以开展相应的金融业务和服务。再比如医院的电子病历上,通常包含患者的病程情况、检查检验结果、手术记录等,这些数据可以有效的辅助医生来监控病人的病情。数据 在我们的生活中,数据无处不在。比如银行通过收 简单来说,数据就是为了某种目的而收集和转换的任意字符集。数据既包括文本、数字,也包含图像、语音和视频等。将数据记录下来,可以帮助我们更好地分析、整理和提取数据中蕴含的知识以及规律。数据在计算机系统中是以二进制的形式来存储的,用0或1来表示

5、。 简单来说,数据就是为了某种目的而收集和转换的任结构化数据 存储在计算机的数据又分成两类。第一类称为结构化数据,是指在系统中定义好数据的结构,再严格地按照定义好的结构来存储、计算和管理数据。 最常见的结构化数据就是关系型数据库中的二维表,其中每一行称为一个记录,每一列称作一个字段。比如在表中我们记录的是每一年每个国家二氧化碳的总排放量和人均排放量,那么在表中先定义了4个字段,年份、人均二氧化碳排放量、国家和总二氧化碳排放量。结构化数据非结构化数据另一类称为非结构化数据,是指数据结构不规则或不完整,甚至没有预定义的数据模型。非结构化数据是大量存在的,比如文本、图像、视频和语音等。这些数据对我们

6、的生活是非常重要的。在很多的行业领域里,80%的业务相关的信息都是来自于非结构化数据,特别是文本数据。在图中展示了从2009年到2017年数据的增长情况,可以看出非结构化数据增长得非常迅速。非结构化数据 非结构化数据的第一类文本数据,是最常见的也是最多的。我们展示了两个文本数据,第一个是新闻数据,标题是“解码澳门经济快速发展的隐形翅膀”,它的来源是新华社的一篇新闻。这样一个有标题、有正文的新闻是一个典型的文本数据。 非结构化数据的第一类文本数据,是最常见的也是最 文本数据比结构化数据要占用更多的内存,比如“hello!”这样一个简单的单词,计算机用二进制表示出来,会看到一长串数字。那么可想而知

7、,大量的文本将占用更多的存储空间,表示起来也更加复杂。 文本数据比结构化数据要占用更多的内存,比如“hel 图像是另一种非结构化数据。一张标有数字8的图像,大家看到它可能会想到马路上各种各样的广告牌和数字显示LED屏。这个图像是由很多小方格组成的,小方格被称为像素点。 图像是另一种非结构化数据。一张标有数字8的图像,大 数字8的图像中,横排有16个像素点,竖排有22个像素点,一共由1622个像素点组成。图像是黑白的灰度图,为了表现黑白的深浅不同,我们在每一个像素点上标有不同的数值,大家可以发现最小的是0,最大的是255,也就是说用256个等级来区分颜色的深浅度,这样我们就得到了一个矩阵。事实上

8、在计算机中也是用数字矩阵的形式存储图像的。 数字8的图像中,横排有16个像素点,竖排有22 语音是第三种非结构化数据形式。例如人说话的声音、唱歌,都是由于空气震动而产生的声波。除了空气以外,在固体和液体中声音也是可以传播的。 语音是第三种非结构化数据形式。例如人说话的声音、唱 第四类非结构化数据是视频,它是由一系列的静态影像与声音组合而成的。视频按照一定的刷新频率进行刷新和播放,利用了人眼的视觉暂留原理,当播放的速率超过每秒24帧以上时,可以给人一种平滑连续变化的动态视觉效果。因此视频的本质实际上是不断变化的图像,可以把它看作是单位时间内声音的存储和若干帧图像的存储来处理,只不过处理视频需要更

9、强大的存储和计算能力。 第四类非结构化数据是视频,它是由一系列的静态影像与 在我们的日常生活中数据随处可见。数据是为了某种目的而收集和整理的任意字符集。在计算机中数据最终使用0和1来表示。数据可以分类结构化数据和非结构化数据。非结构化数据包括文本、图像、语音和视频等,它们是现在大数据和人工智能领域关注的重点。 在我们的日常生活中数据随处可见。数据是为了某种大数据的特征 随着对大数据认识的不断加深,人们认为大数据一般具有四个特征:数据量大、数据类型繁多、数据产生速度快以及数据价值密度低。大数据的特征 随着对大数据认识的不断加深,人们认为1. 数据量大 大数据中的数据量大,就是指的海量数据。由于大

10、数据往往是采取全样分析,因此大数据的“大”首先体现在其规模和容量远远超出传统数据的测量尺度1. 数据量大 2. 数据类型繁多(1)结构化数据常指存储关系在数据库中的数据,该数据遵循某种标准,如企业财务报表、医疗数据库信息、行政审批数据、学生档案数据等。(2)非结构化数据常指不规则或不完整的数据,包括所有格式的办公文档、XML、HTML、各类报表、图片、图像以及咅频、视频信息等。企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。在网络中非结构化数据越来越成为数据的主要部分。值得注意的是:非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。它可能是文本的或非文本的,也可能是人为的或机器生成的。它也可以存储在像NoSQL这样的非关系数据库中。(3)半结构化数据常指有一定的结构与一致性约束,但在本质上不存在关系的数据,如常用于跨平台传输的XML数据以及JSON数据等。 2. 数据类型繁多3.数据产生速度快 在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。大数据是一种以实时数据处理、实时结果导向为特征的解决方案3.数据产生速度快4. 数据价值密度低 随着互联网以及物联网的广泛应用,信息感知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论