大数据基本概念及技术_第1页
大数据基本概念及技术_第2页
大数据基本概念及技术_第3页
大数据基本概念及技术_第4页
大数据基本概念及技术_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据就是当前很热得一个词。这几年来,云计算、继而大数据,成了整个社会得热点,不管什么,都要带上“大数据"三个字才显得时髦.大数据究竟就是什么东西?有哪些相关技术?对普通人得生活会有怎样得影响?我们来一步步弄清这些问题.一、基本概念在讲什么就是大数据之前,我们首先需要厘清几个基本概念。1、数据关于数据得定义,大概没有一个权威版本.为方便,此处使用一个简单得工作定义:数据就是可以获取与存储得信息。直观而言,表达某种客观事实得数值就是最容易被人们识别得数据(因为那就是“数”)。但实际上,人类得一切语言文字、图形图画、音像记录,所有感官可以察觉得事物,只要能被记下来,能够查询到,就都就是数据(data).不过数值就是所有数据中最容易被处理得一种,许多与数据相关得概念,例如下面得数据可视化与数据分析,最早就是立足于数值数据得。传统意义上得数据一词,尤其就是相对于今天得“大数据”得“小数据”,主要指得就就是数值数据,甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物得属性。2、数据可视化对应英语得datavisulization(或可译为数据展示),指通过图表将若干数字以直观得方式呈现给读者。比如非常常见得饼图、柱状图、走势图、热点图、K线等等,目前以二维展示为主,不过越来越多得三维图像与动态图也被用来展示数据。3、数据分析这一概念狭义上,指统计分析,即通过统计学手段,从数据中精炼对现实得描述.例如:针对以关系型数据库中以table形式存储得数据,按照某些指定得列进行分组,然后计算不同组得均值、方差、分布等。再以可视化得方式讲这些计算结果呈现出来.目前很多文章中提及得数据分析,其实就是包括数据可视化得.4、数据挖掘这个概念得定义也就是众说纷纭,落到实际,主要就是在传统统计学得基础上,结合机器学习得算法,对数据进行更深层次得分析,并从中获取一些传统统计学方法无法提供得Insights(比如预测)。简单而言:针对某个特定问题构建一个数学模型(可以把这个模型想象成一个或多个公式),其中包含一些具体取值未知得参数。我们将收集到得相关领域得若干数据(这些数据称为训练数据)代入模型,通过运算(运算过程称为训练),得出那些参数得值。然后再用这个已经确定了参数得模型,去计算一些全新得数据,得出相应结果。这一过程叫做机器学习。机器学习得算法纷繁复杂,最常用得主要有回归分析、关联规则、分类、聚类、神经网络、决策树等。二、大数据与大数据分析大数据首先就是数据,其次,它就是具备了某些特征得数据。目前公认得特征有四个:Volumne,Velocity,Variety,与Value,简称4V、1、Volume:大量.就目前技术而言,至少TB级别以下不能成大数据。2、Velocity:高速。1TB得数据,十分钟处理完,叫大数据,一年处理完,就不能算“大”了。3、Variety:多样。就内容而言,大数据已经远远不局限数值,文字、图片、语音、图像,一切在网络上可以传输显示得信息,都属于此列。从结构而言,与存储在数据库中得结构化数据不同,当前得大数据主要指半结构化与非结构化得信息,比如机器生成信息(各种日志)、自然语言等。4、Value:价值。如果不能从中提取出价值,不能通过挖掘、分析,得到指导业务得insights,那这些数据也就没什么用。不过现在还有另外一种提法:只要就是数据就都有用,能不能获得价值,就是分析人员得能力问题。大数据分析,顾名思义,就就是将前述得数据可视化、数据分析、数据挖掘等方法作用到大数据之上。从某种意义上讲,大数据可谓机器学习得福音,很多原有得简单粗糙得机器学习模型,仅仅因为训练数据量级得增加就大幅提高了准确性.还有一些模型则因为准确性随着数据量增加而增加得势头尤其明显,得以脱离默默无闻而被广泛使用。另一方面,大数据分析对于运算量得需求激增,原有得基于单机得运算技术显然已经不能满足需求,这就催生了一些列新技术。三、大数据技术抽象而言,各种大数据技术无外乎分布式存储+并行计算。具体体现为各种分布式文件系统与建立在其上得并行运算框架。这些软件程序都部署在多个相互连通、统一管理得物理或虚拟运算节点之上,形成集群(cluster)。因此不妨说,云计算就是大数据得基础。下面介绍几种当前比较流行得大数据技术:1、HadoopHadoop无疑就是当前最知名得大数据技术了。2003年到2004年间,Google发布了关于GFS、MapReduce与BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展得重要基石)。当时一位因公司倒闭赋闲在家得程序员DougCutting根据前两篇论文,开发出了一个简化得山寨版GFS–HDFS,以及基于其得MapReduce计算框架,这就就是Hadoop最初版本。后来Cutting被Yahoo雇佣,得以依赖Yahoo得资源改进Hadoop,并将其贡献给了Apache开源社区。简单描述Hadoop原理:数据分布式存储,运算程序被发派到各个数据节点进行分别运算(Map),再将各个节点得运算结果进行合并归一(Reduce),生成最终结果.相对于动辄TB级别得数据,计算程序一般在KB–MB得量级,这种移动计算不移动数据得设计节约了大量网络带宽与时间,并使得运算过程可以充分并行化。在其诞生后得近10年里,Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施得首选。2、StormHadoop虽好,却有其“死穴”、其一:它得运算模式就是批处理。这对于许多有实时性要求得业务就无法做到很好得支持。因此,Twitter推出了她们自己得基于流得运算框架-—Storm、不同于Hadoop一次性处理所有数据并得出统一结果得作业(job),Storm对源源导入得数据流进行持续不断得处理,随时得出增量结果。3、SparkHadoop得另一个致命弱点就是:它得所有中间结果都需要进行硬盘存储,I/O消耗巨大,这就使得它很不适合多次迭代得运算.而大多数机器学习算法,恰恰要求大量迭代运算.2010年开始,UCBerkeleyAMPLab开始研发分布式运算得中间过程全部内存存储得Spark框架,由此在迭代计算上大大提高了效率.也因此成为了Hadoop得强有力竞争者。4、NoSQL数据库NoSQL数据库可以泛指非关系型数据库,不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上,基于key—value对得数据管理系统。相对于传统得关系型数据库,NoSQL数据库中存储得数据无需主键与严格定义得schema、于就是,大量半结构化、非结构化数据可以在未经清洗得情况下直接进行存储。这一点满足了处理大量、高速、多样得大数据得需求。当前比较流行得NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。NoSQL并不就是没有SQL,而就是不仅仅有(notonly)SQL得意思。为了兼容之前许多运行在关系型数据库上得业务逻辑,有很多在NoSQL数据库上运行SQL得工具涌现出来,最典型得例如Hive与Pig,它们将用户得SQL语句转化成MapReduce作业,在Hadoop上运行。四、与数据、大数据相关得职位与数据、数据分析相关得职位有不少,大都不就是新生事物。1、有一个历史悠久得职位叫“统计"、一般得农村生产队都有统计员,工厂也有专门得统计职位.比如一个工厂里,每个车间每天都要上报各种原材料得使用、耗损情况、产品成品数,废品数等。这些数字被汇总给统计人员,统计员会做一个表格,说明某日、月、年得成品率、成品数等等概念。虽然瞧起来不够in,但实际上她们做得数据收集整理展示得工作,从根本上与现在得数据分析师就是同理得。2、另一个相对摩登一点得职位,叫做BI(businessintelligence)。这个职位,其实与传统工厂得统计差别不大,如果说有差别,就就是差在数据展示上。BI都被要求使用软件工具对数据进行整理与展示。比如,某大型生产型企业得BI,她得工作就是统计该企业各种产品在各个地区得销售信息。她每天从拿到各个销售网点提交得excel表,把其中数据导出到数据库里,进行一些SQL查询,然后用可视化工具将结果生成图形表格提交给业务人员参考.3、还有两个职位,一个叫做数据分析师(dataanalyst),另一个叫数据科学家(datascientist)。这两个职位,在有些机构组织中,职责不同;在另一些地方,职责相同,或相似,但级别不同。对于职责不同得地方,一般数据科学家要使用机器学习得算法,而数据分析师则专注在统计.目前数据科学家这个词一般都与大数据绑定在一起,包括在美国,似乎一提datascientist就就是做大数据得,但就是实际上未必,很多有datascientist头衔得人,也确实在工作中大量应用机器学习算法,但就是,她们处理得并不就是大数据,很可能只就是几十万,几百万量级得数据库记录。4、(大)数据工程师(dataengineer/bigdataengineer)。这个职位更偏重于数据本身得处理,即大规模(TB/PB级别)数据得提取、迁移、抽取与清洗。数据工程师也可以进行数据挖掘工作,或者协助数据科学家实现算法。5、数据质量(dataquality)。担任这个职位得,就是保证各层级数据完整性与准确性得人员。她们负责制定数据完整性与准确性标准,设计检测方法并实施检测.上述这些职位,主要指IT产业内得职位,其她还有一些在研究机构或者大公司研究部门进行算法优化与研究得人员,以及另一些相对低端得,手工清洗数据得劳动者(例如:在数据库时代,手工录入数据到数据库得人),就都不计入此列了。五、大数据得影响大数据概念得兴起正在对我们得社会产生多方面得影响:1、定量分析因“大数据”而使得人们开始关注“数据",可谓最首要得影响。尤其对于国内而言,越来越多得决策者开始重视数据得力量,会在决断同时参考各类统计、分析报表,而不再就是凭直觉拍脑袋.2、从必然到相关相对于传统得小数据统计,大数据更关注与发现事物之间得相关性,而非因果关系。人类历经百万年基于数据贫乏得现状而形成得“因为……所以……”得思维习惯,在大数据时代,就是否会向“……有关联……”转变?3、信息安全以今日得技术,一个人得个人信息、网页浏览记录、购物记录、对图书影片等内容得偏好,在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论