版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 Page * MERGEFORMAT 9大数据的十大局限“忽如一夜春风来,千树万树梨花开”,似乎在一夜之间,大数据就红遍了南北半球,大数据被神化得无处不在,无所不包,无所不能。这里面有认识上的原因,也有故意忽悠的成份。笔者以为,越是在热得发烫的时候,越是需要有人在旁边吹吹冷风。在这里谈大数据的十大局限性,并非要否定其价值。相反,只有我们充分认识了大数据的特点和优劣势,才能更加有效地对其进行采集、加工、应用,充分挖掘和发挥其价值。 1、数据噪声:与生俱来的不和谐大数据之所以为大数据,首先是因为其数据体量巨大。然而,在这海量的数据中,并非所有的数据都是有用的,大多数时候,有用的数据甚至只是其中的
2、很小一部分。随着数据量的不断增加,无意义的冗余、垃圾数据也会越来越多,而且其增长的速度比数据信息更快。这样一来,我们寻求的重要数据信息或客观真理往往会被庞大数据所带来的噪声所淹没,甚至被引入歧途和陷阱,得出错误的结论。 2、真实性:不得不接受的虚假“引领我们进入困局的并不是我们不知道的事物,而是我们知道、但不那么真实的事物。”真实性是一切数据价值的基础,然而这同时也是大数据的一大先天性缺陷。网络是大数据最重要的来源之一,而网络本身就充斥着大量的虚假信息。例如,网络数据中存在着大量的虚假个人注册信息、假账号、假粉丝、假交易、灌水贴及虚假的意思表示等。这种失真是由网络本身的特性决定的,比如说,绝大
3、多数社交网站很难也不会对会员注册信息的真实性进行全面核查,电商平台也无法控制一人注册多账号,或账号与实际消费个体的非对应关系(想想你家有没有共用一个宽带或电商账号的情况)。除了网络数据,即便是通过原始方法采集的个人信息数据也无法保障其真实、准确。就拿电信运营商来说,即便推行了实名制,数据质量与期望仍有相当差距。可以预见,在相当长的时间内,即使最优秀的数据科学家、最先进的数据处理方法也无法消除或修正某些数据固有的错误和不足,对大数据真实性的追求无疑是摆在我们面前的又一挑战。 3、代表性:永不可能的全样本迈尔舍恩伯格在大数据时代一书中阐述的一个核心观点便是,大数据是全样本,因此不再依赖随机取样。笔
4、者认为,这种观点是错误的。大数据来源大致可以分为两类,一类来自于物理世界的科学数据,如实验数据、传感数据、观测数据等;另一类则来自于人类社会活动,主要是互联网数据,如社交关系、商品交易、行为轨迹等个人信息。然而,这两类数据的产生、收集都存在很大的盲区和局限性。例如:很多人在网上订餐或消费的时候往往会参考其他人的推荐和点评,但经常在消费以后发现并不如意。撇开个人口味和刷评的因素,还有一个重要原因在于,网上点评的人并不具备足够的代表性。喜欢上网的本身就只是消费人群中的一部分,上网消费同时又喜欢点评的人更只是其中的一小部分,所以,由带有明显倾向的小众来代表整个群体明显是错误的。无论科学技术如何发达,
5、来自于物理世界和网络社会的大数据永远都不可能覆盖整个自然界和人类社会;如果再考虑宗教、法律、伦理、道德上的诸多限制,那么大数据就更不可能成为“全样本”了。而且,被遗漏的那部分数据往往并不是随机偏差,而是系统偏差,在统计分析时不能不考虑。也正因为如此,社会学家对大数据的代表性总是保持着一份可贵的疑虑和审慎,在许多领域仍然坚持用传统的抽样方法而不是大数据来进行社会研究。 4、完整性:广度与深度的缺失大数据的完整性不足主要是指单个组织所能获取的数据体量虽然巨大,但所包含的实际信息却十分有限,以致难以以此为基础进行复杂的逻辑运算或全面描述。这种不完整主要包括信息维度(决定信息广度)的缺失和维度信息(决
6、定信息深度)的缺失。举例而言,电信运营商由于把控着数据管道,从而可以较全面地掌握用户的上网信息,有着较好的信息广度,但其掌握的信息深度却不够。运营商可以清楚地知道用户在什么时间、什么地点、以什么终端、什么网络访问了京东、亚马逊、天猫等电商,浏览了何种商品,停留了多长时间等(信息广度充分),但却不能掌握用户是否在某电商平台上购买了商品、购买了何种商品、参与了什么促销活动、以什么方式付款、支付了多少款额等(信息深度不足)。很显然,京东对用户在自己商城的浏览、消费行为了如指掌(信息深度充分),但它却无法了解用户的其他互联网行为及在其他电商平台的消费行为(信息广度不足)。在大多数情况下,对某种自然、社
7、会现象的深入研究或者对用户的超级刻画,信息广度和信息深度缺一不可。从这个意义上讲,真正的大数据应是建立在共同的标准基础之上,融合了企业、政府、科学研究等跨领域、跨行业、跨平台数据的集合,是社会大数据。然而,当前的大数据依然以独立孤岛的形式存在,没有任何一个组织能够获取在广度和深度上都足够充分的数据。应该大力推进全社会的数据公开和共享,其中政府数据开放尤其重要。毫不夸张地讲,真正核心的数据绝大部分掌握在政府手中,没有政府参与,就没有真正的大数据。 5、时效性:秒级价值存在任何数据都位于一个连续的时间轴上,都有其时间属性,即数据年龄。不同年龄的数据有着不同的价值特性,往往老数据具有总体或趋势分析价
8、值,新数据则更具有个体应用价值。大数据时代,信息更新速度非常快,从应用的角度看,大数据的时效性往往非常短。用于探测地震和海啸的传感器所产生的数据时效往往只有几秒钟,在此之后就基本失去意义了。美国国家海洋局的超级计算机能够利用传感器传输的数据,在日本地震后9分钟内计算出海啸的可能性及强度。短短的9分钟,基本反映了当前人类计算的最高水平,但这对于瞬间消失的生命来说还是太长了。实时营销对用户状态信息的时效性也有很高的要求,试想想,如果你的目标用户在离开店面500米后才收到你所谓“量身定做”的促销信息,他(她)是不是会对此嗤之以鼻?大数据时效性的要求对数据的实时采集、实时加工、实时分发提出了极高的要求
9、。数据处理上有一个著名的“1秒定律”,即要在秒级的时间范围内计算出分析结果并分发出去,超过这个时间,数据就失去价值了。这在许多时候还很难做到,从而在相当程度上限制了大数据的应用。 6、解释性:不能没有因果关系对于舍恩伯格关于大数据的另一个核心观点,“不是因果关系,而是相关关系”,只需要了解是什么或未来会发生什么,而不是为什么和事情发生的内在原因,笔者同样不敢苟同。相关关系仅代表着过去和个案,没有解释性,有时甚至是错误的,而且不能推而广之。只有掌握了事物之间的因果关系、原因机制和科学原理,才能举一反三,迭代更新,持续推动社会进步。这是很简单的道理,不必赘言。关于相关性,一直为人津津乐道的便是啤酒
10、与尿布的故事。然而,沃尔玛商品品种成千上万,相关关系数十亿之多,我想类似的绝妙组合尚有不少,为什么再也难见?更何况,人们仍然对啤酒与尿布的相关关系进行了合理的因果逻辑解释。试想,如果首先发现了这样的因果关系,再通过相关关系予以验证,是否可以发现更多的“啤酒和尿布”?大数据分析需要借助机器来完成,而机器从来就只能给出数据间的相关关系,而不能说明因果逻辑。因果关系需要人的思考和判断,电脑现在没有、将来也不可能完全替代人脑。玩笑一下,如此急迫地强调相关关系而不是因果关系,难道我们真的不需要脑子了吗?7、预测性:让过去决定未来大数据分析无论被赋予多么绚丽的光环,从根本上讲都只是对过去和现实的归纳和总结
11、,其本身并不具有趋势和方向性的特征。决定趋势的是事物发展的内在因素及相互作用,在此方面大数据无能为力,这是大数据的先天性缺陷之一。舍恩伯格也坦言,与大数据同行是有一定风险的,大数据有可能会把我们锁定在以往的错误当中,使我们堕入让过去决定未来的陷阱。现在有些基金公司推出大数据指数基金,期望通过大数据对股票行情进行准确的预测。历史行情走势只是过去已经发生的影响股票市场的诸多因素共同作用的结果,以此来预测未来的市场根本不靠谱。普林斯顿大学经济学教授伯顿麦基尔早在1973年的畅销作品漫步华尔街中就指出,把一只猴子蒙上双眼后让它向报纸的金融版掷飞镖而选中的投资组合,和那些专家经过大量研究而谨慎选择的投资
12、组合相比,盈利性可能一样好。近几年甚至有研究者提出,麦基尔的这种看法低估了猴子(应该是高估了基金经理吧)。2008年,好事的俄国人更是用实验证明了这一点。俄罗斯财经周刊从马戏团找来一只猴子,让它从代表不同股票的牌子中选择8支进行模拟投资组合,并投入100万虚拟卢布。一年后,当金融专家再次观察猴子所选股票的表现时不由大吃一惊,其市值上涨了近3倍,跑赢了94%的基金。必须承认,我们处于一个不确定的世界里,有许多事件是无法预测的。过分依赖大数据和预测模型是危险的,因为有许多决定性的影响因素都不能纳入模型参数的覆盖范围之内。从天气预报、地震预测、足球比赛到金融危机等等,都对这一点做了很好的诠释。8、误
13、导性:数据也会说谎与大数据的代表性、真实性、完整性、解释性等局限性相关的,对统计现象只看结果不重解释,很可能导致错误甚至危险的结论。二战时期英国与德国的空战中,工程师发现,每次战斗机回来机翼上都带有很多枪眼,因此认为机翼是最容易受到攻击的地方,需要进行特别防护。可是增加防护之后,飞机的损失率不但没有降低,反而提高了。问题究竟出在哪呢?原来工程师们被这一统计结果误导了,从而采取了错误地防护措施。对机翼枪眼的统计只针对成功返航的飞机,而那些不幸的飞机被击落的原因并没有被统计和发现。相反,机翼受损还能飞回来,说明机翼被攻击并不是飞机被击落的主要原因。至于为什么增加防护后飞机损失率反而提高了,原因很简
14、单,因为负荷增加降低了飞机的灵活性和航程。后来,工程师们反其道而行之,在没有枪眼的部位加强防护,因为这些部位被击中的飞机都没有返航,事实证明效果良好。9、合法性:数据安全与隐私保护大数据本身及其采集、使用过程都极有可能会涉及个人隐私、商业机密、公众权益和国家信息安全。因此,安全性和合法性问题构成了大数据价值发挥的限制性因素之一。商业和技术很重要,但商业和技术背后的价值观更重要。Google曾将不作恶作为自己的公司价值观;百度为了短期商业利益售卖多个贴吧,公然践踏公众隐私,结果遭千夫所指,万人唾骂。这些都充分反映了公众对隐私和信息安全的关注和重视。白宫曾在2014年发表书面声明称,大数据创造的社
15、会价值与经济价值得以遵从该国提倡的“隐私、公正、平等、自主”。中国政府在此方面虽然尚未立法,也从来没有明确的说法,但民众的基本权益和诉求理当被审慎考虑。诚然,安全性、合法性要求限制了大数据的使用和商业价值的充分发挥,但从社会价值的角度来看,是值得的,也是必须的。10、价值性:投入与收益的平衡价值密度低是被公认的大数据特征之,这也在一定程度上限制了大数据的研究和应用。一方面,因为大数据的低密度价值特征,那么要使其价值达到可用的程度,就必须有足够规模的数据积累和有效的价值提取。以常规的监控视频为例,连续24小时的视频监控中,有用的数据可能仅有数秒。如何优化存储,并通过强大的机器能力迅速完成数据的加工处理和价值呈现,到目前为止还是大数据面临的一大难题。另一方面,大数据边际效用递增规律的存在,使许多企业、组织的数据无法达到基本的规模要求,从而也使其数据价值无法充分显现。同时,前面讲到的大数据代表性、真实性、完整性、解释性上的不足及由此引起的结论误导,不仅会降低数据的价值,甚至可能产生负面作用。除此之外,大数据的采集、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《时空会客厅》节目方案
- 安质部管理制度
- 公共厕所保洁制度
- 2024年道路客运从业资格证模拟考试下载
- 2024年吉林客运驾驶员考试虚拟场景考试题目
- 2024年哈尔滨客运从业资格证题库
- 吉首大学《风景建筑速写》2021-2022学年第一学期期末试卷
- 《机械设计基础》期末考试试卷六
- 广东省公务员考试2021-2020申论真题(附答案)
- 吉林艺术学院《数字空间设计表现》2021-2022学年第一学期期末试卷
- 超星尔雅学习通走近核科学技术章节测试答案
- 初中艺术鄂教七年级上册(2022年新编) 漫步艺术长廊舞剧欣赏《永不消逝的电波》教学设计
- 水电厂检修标准化作业流程图
- 中考数学复习专题课件:瓜豆原理之直线型
- GB 18384-2020 电动汽车安全要求
- 腹股沟斜疝护理查房ppt
- 精品堆垛机安装指导书
- PMC生产计划与物料控制实务课件
- 鸡的饲养管理-优质课件
- 人工湿地设计规范标准[详]
- 提灌站项目施工组织设计
评论
0/150
提交评论