2.1.1 熟悉大数据的定义_第1页
2.1.1 熟悉大数据的定义_第2页
2.1.1 熟悉大数据的定义_第3页
2.1.1 熟悉大数据的定义_第4页
2.1.1 熟悉大数据的定义_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据导论》熟悉大数据的定义所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别:第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据;第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降;第三,随着云计算兴起,大数据的存储、处理环境已经没有必要自行搭建。一、大数据的定义所谓“用现有的一般技术难以管理”,例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。一、大数据的定义麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。”一、大数据的定义随着“大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。一、大数据的定义从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。IBM说:“可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据”。二、大数据的3V和5V特征二、大数据的3V和5V特征(1)Volume(数量)最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且在持续增长。数据容量大能够影响数据的独立存储和处理需求,同时还能对数据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。二、大数据的3V和5V特征典型的生成大量数据的数据源包括:(1)在线交易,例如官方在线销售点和网银。(2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。(3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。(4)社交媒体、脸书、推特、微信、QQ等。二、大数据的3V和5V特征(2)Variety(种类、多样性)数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。二、大数据的3V和5V特征种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。二、大数据的3V和5V特征3.Velocity(速度,速率)数据产生和更新的频率,也是衡量大数据的一个重要特征。在大数据环境中,数据产生得很快,在极短的时间内就能聚集起大量的数据集。从企业的角度来说,数据的速率代表数据从进入企业边缘到能够马上进行处理的时间。处理快速的数据输入流,需要企业设计出弹性的数据处理方案,同时也需要强大的数据存储能力。有效处理大数据需要在数据变化的过程中对它的数量和种类执行分析,而不只是在它静止后执行分析。根据数据源的不同,速率不可能一直很快。二、大数据的3V和5V特征

IBM在3V的基础上又归纳总结了第四个V一一Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。”二、大数据的3V和5V特征IDC(互联网数据中心)说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据并不是新生事物。然而,它确实正在进入主流,并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”二、大数据的3V和5V特征这个定义除了揭示大数据传统的3V基本特征,即大数据量、多样性和高速之外,还增添了一个新特征:价值。考虑到非结构化数据的较低信噪比需要,数据真实性(Veracity)随后也被添加到这个特征列表中。最终,其目的是执行能够及时向企业传递高价值、高质量结果的分析。二、大数据的3V和5V特征除了数据真实性和时间,价值也受如下几个生命周期相关的因素影响:(1)数据是否存储良好?(2)数据有价值的部分是否在数据清洗的时候被删除了?(3)数据分析时我们提出的问题是正确的吗?(4)数据分析的结果是否准确地传达给了做决策的人员?二、大数据的3V和5V特征大数据实现的主要价值可以基于下面3个评价准则中的1个或多个进行评判:(1)它提供了更有用的信息吗?(2)它改进了信息的精确性吗?(3)它改进了响应的及时性吗?总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。二、大数据的3V和5V特征

狭义上,大数据的定义着眼点于数据的性质上,我们在广义层面上再为大数据下一个定义。三、广义的大数据广义的大数据“所谓大数据,是一个综合性概念,它包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。”“存储、处理、分析的技术”,指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等;“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。三、广义的大数据大数据具有多种形式,从高度结构化的财务数据,到文本文件、多媒体文件和基因定位图的任何数据,都可以称为大数据。数据量大是大数据的一致特征。由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(MassivelyParallelProcessing,MPP),这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或半结构化的,这需要不同的技术和工具来处理和分析。四、大数据的结构类型大数据最突出的特征是它的结构。如图显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型(半、准和非结构化)。四、大数据的结构类型人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准”结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同的技术来分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论