版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据与我们的生活2013 年被称为“大数据元年”,这一年几乎所有的世界级互联网企业,都将业务触角延伸至大数据产业; 无论社交平台逐鹿、 电商价格大战还是门户网站的竞争,都有它的影子。如今,一个大规模生产、分享和应用数据的时代正在开启。大数据时代的作者维克托教授曾说, 大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。互联网的出现使得我们身边的社交网络,电子商务与移动通信把人类社会带入了一个以“PB1024TB”()为单位的结构与非结构数据的新时代。而发掘数据价值、征服数据海洋的“动力”就是云计算。云计算出现之前, 传统的计算机是无法处理如此量大并且不
2、规则的“非结构数据”的。而以云计算为基础的信息存储、分享和挖掘手段, 可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两个方面:一个是问题, 一个是解决问题的方法。 那么在这里普 及 一 下 云 计 算 的 概 念 。 云 计 算 (CloudComputing) 是 分 布 式 处 理 (DistributedComputing) 、并行处理 (Parallel Computing)和网格计算 (Grid Computing)的发展, 或者说是这些计算机科学概念的商业实现。云计算的基本原理是,通过使计算分布在大量的分布式计算机上,
3、而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。这里我们没有必要将云计算的概念搞得十分透彻,因为它本身就像云一样, 我们只需要知道它可以为我们提供本地主机无法提供的超强计算能力和各种服务,可以用云计算的方式解决许多在原本看来无法解决的问题。我们回到正题,什么是大数据?对于“大数据”(Bigdata )研究机构Gartner给出了这样的定义。“大数据”是需精选文库要新处理模式才能具有更
4、强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔- 舍恩伯格及肯尼斯·库克耶编写的大数据时代 中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。而 IBM 则提出了大数据的 5V 特点: Volume (大量)、Velocity (高速)、Variety (多样)、Veracity (精确)、Value (价值)。大量是指数据量的规模可以从数百TB 到数十百 TB甚至 EB。高速是指大数据需要在一定的时间限度下得到及时的处理。多样是指大数据包括各种格式和形态的数据。 精确是指大数据的处理结果要保证一定的准确性
5、。价值则是大数据的根本所在。数据的收集方式有很多方法,通过浏览器可以获取用户上网的浏览记录,搜索引擎可以轻而易举地获取全球每天发出的数十亿条搜索指令,购物网站可以得到顾客的购买记录,也可以根据人们在社交软件上面的聊天记录来收集有用的信息,还可以通过让别人做网页上面的答卷来收集信息,知道人们对于一种东西的看法和态度。这些收集起来的数据就会全部都储藏在一起,然后有用的时候就会用特殊的软件来分析处理这些数据, 国家有国家的数据, 很多的公司也有自己的数据库,一个公司的数据库越大就代表了这个公司的实力越强,未来发展的可能性也就越大越好。当然这些数据最主要的并不是绝对的大,而是有用的信息比较多,覆盖的范
6、围比较广,是一种相对的大。 这样分析出来的结果也就越准确,这些数据可以准确的反映现在社会上面发生的事情和现在人们的心理状态,可以预测到很多事情的未来的发展方向,有的公司可以根据这些数据发现自己的不足和管理漏洞,及时的改变和处理, 延长企业的寿命, 增加企业的资产和竞争能力。 通过数据, 也可以知道现在社会上面主流的东西是什么,只有抓住主流的社会,才能跟上时代的步伐,顺应历史的潮流,抓住机遇,发展自己的公司和事业。-2精选文库大数据时代的三个转变大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。第一个转变就是,在大数据时代, 我们可以分析更多的数据,有时候甚至可以
7、处理和某个特别现象相关的所有数据,而不再依赖于随机采样。19 世纪以来,当面临大量数据时,社会都依赖于采样分析,但采样分析是信息缺乏时代和信息流受限制的模拟数据时代的产物。为了让分析变得简单,我们会把数据量缩减到最小,潜意识里认为我们与大量数据的交流困难是自然现象, 而没有意识到这只是当时技术条件下的一种人为限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节。第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。这种思维方式适用于掌握“小数据量”的情况,因为
8、需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录。 当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。并不是说我们完全放弃精确度,只是适当忽略围观层面上的精确度让我们在宏观层面拥有更好的洞察力。第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,在大数据时代, 我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且具有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但它会提醒我们这件事请正在发生。大数据告诉我们“是什么”而不是“为什么”。在大数
9、据时代,我们不必知道现象背后的原因,我们只需要让数据发声。要全体不要抽样当我们可以获得海量数据的时候,采样这种用最少的数据得到最多信息的方法就没什么-3精选文库意义了。随着收集和处理数据的技术能力越来越强,我们更加倾向于“样本= 总体”的数据处理方式。 收集的数据越来越多,分析和预测结果就会越来越准确。乔布斯在与癌症抗争的过程中采用了不同的方式,成为世界上第一个对自身所有的DNA 和肿瘤 DNA 进行排序的人,他得到的不是一个只有一系列标记的基因组样本,而是包括整个基因密码的数据文档。对于普通的癌症患者,医生只能期望他的DNA排列同实验中使用的样本足够相似,但是,乔布斯的医生们能够基于乔布斯的
10、特定基因组成按所需效果用药。如果癌症病变导致药物失效,医生就可以及时更换另一种药。虽然传奇的乔布斯最终在2011 年离开了这个曾被他改变的世界,但是这种获得所有数据而不仅仅是样本的方法还是使他的生命延长了好几年。要效率不要绝对精确对于小数据而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少, 所以我们必须确保记录下来的数据尽量精确。同时我们需要与各种各样的混乱作斗争。混乱,简单的说就是随着数据的增加,错误率也会相应的增加,还可以指格式的不一致。2000 年的时候,微软研究中心一直在寻求改进Word中拼写检查的方法。但是他们不能确定是努力改进现有的算法、研发新算法还是添加更
11、细腻精致的特点更有效。所以在实施这些措施之前,他们往现有的4 种常见算法中添加更多的数据,先是一千万字,再到一亿字,最后到十亿。 当数据只有500 万的时候, 有一种简单的算法表现很差,但当数据达到10 亿的时候,它变成了最好的,准确率从原来的75% 提高到了95% 以上。相反少量数据情况下运行的最好的算法,加入到更多的数据时也会像其他算法一样有所提高,但却成了在大数据条件下运行得最不好的,它的准确率从86% 提高到了94% 。 2006年,谷歌公司也开始涉足机器翻译。 谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些
12、国际组织发布的官方文件和报告的译本。谷歌翻译部的负责人指出,“谷歌的翻译系统不会像IBM 的 Candide一样只-4精选文库是仔细地翻译 300 万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿文档。”尽管其输入源很混乱, 但较其他翻译系统而言,谷歌的翻译质量相对而言还是最好的。和微软一样,谷歌翻译的成功在于它接受了有错误的数据。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。要相关不要因果亚马逊公司为了提高书籍销量,最初雇佣了一个由20多名书评家和编辑组成的团队,他们创立了 “亚马逊的声音”这个版块,为的就是发掘潜在的顾客,提高顾客购买商品的概率。后来, 亚马逊的创始人以
13、及总裁林登,决定尝试一个极富创造力的想法:根据顾客个人以前的购物喜好, 为其推荐具体的书籍。亚马逊从每一个顾客身上捕获了大量的数据,顾客的信息数据量非常大, 亚马逊先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。 但是这种算法的推荐效果并不好。很快,林登意识到推荐系统实际上并没有必要把顾客与其他顾客进行对比, 而只需要找到产品之间的关联性。这样一来, 每个人登录了亚马逊网站后看到的商品信息都会与自己曾经的浏览、购买记录相关联, 是专门为我们每个人 “设计”的网页。我们身边的大数据搜狗输入法最新版本的iOS 版搜狗拼音输入法可以通过已经输入的文字来预测下一个可能需要输入的文字。电脑
14、版的搜狗拼音输入法可以纠正拼音输入时的错误比如说我们输入了zengzahng,输入法会自动纠正为zengzhang,从而匹配出“增长”各类猜你喜欢一是从你的购买或浏览记录分析,推荐相似的产品。二是从人的角度,推荐和比较相似的其他人所购买的产品。-5精选文库Siri 的语音识别iDevices的 Siri 语音识别功能已被证明非常受欢迎,它也受到大数据的支持。通过机器捕捉的语音数据被上传到云分析平台上,在那里与其他用户数以百万计的输入命令进行对比,帮助其更好地识别语音模式(机器学习),更精确地将用户与他们正在寻找的数据匹配起来。大数据存在的问题大数据能告诉我们是什么,但不能告诉我们为什么尽管大数据能够非常好地检测相关性,特别是那些用小数据集可能无法测出的微妙相关性,但是它并不会告诉我们哪一种相关性是有意义的。大数据只能是辅助工具,通过大数据下结论是有风险的大数据可以辅助科学调查,但不可能成功地完全代替。比如谷歌预测流感的案例曾经是大数据的典范。2009 年,谷歌通过相当大的宣传称它可以通过分析与流感相关的搜索预测流感爆发的趋势, 这种准确性和快速甚至超过了疾病控制和预防中心等官方机构。但是几年后,谷歌宣称的流感预测并没有得到好的结果。最近一篇科学杂志的文章解释道,谷歌流感预测的失败很大程度上是因为谷歌搜索引擎自己在不断的更新,这个时候收集的数据未必
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 挖掘机拆迁安全协议书
- 《水分析化学》重点笔记
- 2024-2025学年六年级上册数学北师大版期中模拟检测卷(1-3单元)(含答案)
- 气体储存技术新进展
- 高考数学复习:三角函数的概念与三角公式应用
- 合伙企业的账务处理-做账实操
- 2024年煤层气(煤田)项目资金需求报告代可行性研究报告
- 【北京】期中模拟卷【18-19章】
- 公司生产设备购买合同(3篇)
- 左传读书心得体会三篇
- 公文格式(全区)课件
- 输血查对制度-课件
- 初中青春期健康教育课件
- 六年级语文课外阅读含答案
- 校长在初三年级家长会讲话课件
- 解决方案销售课件
- 各类水质标准对照一览表
- 骨质疏松症诊疗指南
- 蜜蜂养殖技术课件
- 特种门安装分项工程(防火卷帘门)检验批质量验收记录表
- 实验室安全检查项目表1
评论
0/150
提交评论