疑读《大数据时代》6--相关关系与因果关系的辩证_第1页
疑读《大数据时代》6--相关关系与因果关系的辩证_第2页
疑读《大数据时代》6--相关关系与因果关系的辩证_第3页
疑读《大数据时代》6--相关关系与因果关系的辩证_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、唐人家居电商相关关系与因果关系的辩证-疑读大数据时代6By唐人大数据时代给出的大数据时代的第三个特征,是“不是因果关系,而是 相关关系”。无论是因果关系还是相关关系,在书中都是指两个变量之间的关系, 是数据中最简单的关系。因果关系与相关关系有什么关系?为什么“不是因果关系而是相关关系”?所谓“不是因果关系而是相关关系”有什么问题吗?相关关系之重要性首先谈谈为什么是相关关系,谈谈大数据时代相关关系的重要性。迈尔大叔用亚马逊的图书推荐系统,引出了相关关系的重要性,因为这个相 关关系,成为线上商城在向浏览网页的网友推荐有关商品的基本算法。 我们通常 把这种根据相关关系推荐的商品称为关联商品。地球人基

2、本上都知道这种相关关系:如果购买商品A的消费者中有相当部分 也购买了商品B,那就可以认为商品A和B是相关联的,所以当再有消费者购买 商品A时,就向他推荐商品B。迈尔大叔对相关关系的评价是:“关联物,预测的关键”。他说:“知道是 什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象 背后的原因,而是要让数据自己发声。”随之又列举了沃尔玛将蛋挞与飓风用品放在一起销售的案列。在这个例子 里,蛋挞与飓风用品一起购买的关联行为就是“是什么”,迈尔大叔认为没有必 要探究为什么飓风来了美国人民喜欢吃蛋挞。你认为有必要知道“为什么”吗?我认为, 至少没有必要说“没有必要知道 为什么”。另外,在预测

3、分析中更多应用的不是简单的两个变量之间的相关关系,而是一组变量与某个变量之间的相关关系。关于这一点,迈尔大叔基本上没有解释, 只是在某些案列里用十分惊讶的语气进行了感叹,如在例举美国个人消费信用评 估公司“遵从医嘱评分”时介绍说:它分析一系列的变量来确定这个人是否会按 时吃药,包括一些看起来有点怪异的变量。比方说,一个人在某地居住了多久, 这个人结婚了没有,他多久换一个工作以及他是否有私家车。事实上,美国个人消费信用评估公司使用了多个在迈尔大叔看起来非常奇怪 的变量来预测一个人是否会按照医嘱吃药。 接下来连续介绍的益佰利的个人收入 评分、Aviva的健康预测模型、还有塔吉特的怀孕预测等,都不是

4、简单的相关关 系分析。而是更加复杂的多元回归分析。其中最可能使用的分析方法应该是一种 被称为Logistic Regression的分析方法。从迈尔大叔对这些案例以及其他相关案例的描述来看,他很可能并不太了解这样的分析方法。为何不是因果关系?因果关系就是对相关关系问个为什么。 我们来看看为什么迈尔大叔说是 “不 是因果关系”。首先是没有必要知道:大数据却显示,还有另外一个在某些方面更有用的方 法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是 什么就够了,没必要知道为什么。这句话说白了,就是机器分析发现了两个变量之间的相关性, 那就足够做关 联商品推荐了,你用不着去分析为什

5、么它们是关联的。另一个“不是因果关系”的原因,则有点难以理解。迈尔大叔说:专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联 物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物 相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。如果不合适, II唐人家居电商人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不 承认一幵始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的 反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及团体的偏见 会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过程中犯错 误。总之,

6、这是一个烦琐的过程,只适用于小数据时代。如果不太能够理解的话,白话一下:上面迈尔大叔描述了一般社会科学(如 心理学、社会学等)研究的过程,即首先进行科学的理论假设,然后通过数据的 相关分析来证明其理论假设的正确与否。这个理论假设,就是解决“为什么”的问题。看来迈尔大叔把数据的关联分析局限于二维的数据分析,局限于他描述的社会科学的研究过程,并且认为传统的关联分析一定必须回答“为什么”关联。相关关系与因果关系相关关系回答了两个变量之间是否关联,而因果关系却要回答这两个变量为 什么关联。迈尔大叔的第三个有关大数据时代的特征,也是最受争议的。即使是该书的译者,也在序中指出该特征总结的偏差。可能迈尔大叔

7、在其著书时也意识到这个问题, 所以也没有把话说死,保留了 一点余地:因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大 数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互 联系,但是,我们知道因果关系只是一种特殊的相关关系。可以看到,迈尔大叔是在两个很狭隘的思想指导下得到大数据时代“不是因果关系,而是相关关系”的结论:一是因果关系只来自理论假设和数据验证的学 术研究;二是事物间的关系只是两个事物间的相互关系。我们拿在迈尔大叔书中反复提到却从来没有任何说明的预测分析技术Logistic Regression来说,这是一个绝对出现在小数据时代的分析技术,而 且在小数据时代就被广泛应用。在运用该分析方法建立预测模型时, 很可能是将 iii唐人家居电商所有能够获得的变量放进去分析, 看哪些变量具有预测的能力。这时分析人员只 是关注迈尔大叔所谓的相关关系(事实是在多维分析中,两个变量之间的关系要 比简单的相关关系复杂得多.)0当预测模型建成后,分析人员会对预测模型中的 一些变量尝试进行解释,即试图得到因果关系。又一次,因为知识的局 限以及思维的狭隘,迈尔大叔错误地理解了大数据 时代的特征。这是疑读大

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论