数据时代的社会研究(计算社会学)_第1页
数据时代的社会研究(计算社会学)_第2页
数据时代的社会研究(计算社会学)_第3页
数据时代的社会研究(计算社会学)_第4页
数据时代的社会研究(计算社会学)_第5页
已阅读5页,还剩180页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据时代的社会研究计算社会学目录TOC\h\h第1章简介\h1.1一处墨迹\h1.2欢迎来到数字时代\h1.3研究设计\h1.4本书的主题\h1.5本书梗概\h第2章观察行为\h2.1简介\h2.2大数据\h2.3大数据的10个共同特征\h2.4研究策略\h2.5结论\h第3章提问\h3.1简介\h3.2提问与观察\h3.3调查误差总框架\h3.4向谁提问\h3.5提问的新方法\h3.6与大数据资源相结合的调查\h3.7结论\h第4章开展实验\h4.1简介\h4.2什么是实验\h4.3实验的两个维度:实验室–实地以及模拟–数字\h4.4超越简单实验\h4.5使实验成为现实\h4.6建议\h4.7结论\h第5章进行大规模协作\h5.1简介\h5.2人本计算\h5.3公开征集\h5.4分布式数据采集\h5.5设计你自己的大规模协作项目\h5.6结论\h第6章道德伦理\h6.1简介\h6.2三个事例\h6.3数字时代的不同\h6.4四项原则\h6.5两种道德框架\h6.6困难面\h6.7实用技巧\h6.8结论\h历史附录\h第7章未来\h7.1展望\h7.2未来主题\h7.3回到开始第1章简介1.1一处墨迹2009年夏天,手机铃声响遍了整个卢旺达。除了来自家人、朋友和商业伙伴的数百万个电话之外,大约有1000名卢旺达人还接到了由乔舒亚·布卢门斯托克(JoshuaBlumenstock)及其同事打来的电话。研究人员从卢旺达最大手机供应商的数据库中随机抽样进行调查,以完成对财富与贫困的研究,这个数据库中有150万名客户。布卢门斯托克和他的同事会询问这些被随机选中的人是否愿意参与调查,然后向其解释这项研究的性质,接下来便会询问一系列有关他们的人口学特征、社会特征和经济特征方面的问题。到目前为止,我所描述的一切都让这项研究听起来像是一项传统的社会科学调查。但接下来我要描述的就不再传统了,至少目前来说是这样的。除了调查而来的数据外,布卢门斯托克和同事还拥有这150万人的完整通话记录。他们将这两部分数据结合起来,利用调查数据训练了一个机器学习模型,使模型能根据一个人的通话记录预测其财富状况。接着,他们利用这个模型评估数据库中150万名客户的财富状况,还利用通话记录中包含的地理信息判断这150万名客户的居住位置。最后他们将所有这些信息——估算的财富状况以及居住位置,综合到一起,绘制出高分辨率的卢旺达财富地理分布图。尤其是,他们能够估算出卢旺达2148个街区(该国的最小行政单位)中每一个街区的财富状况。要证实这些估算是不可能的,因为从来没有人估算过卢旺达中如此小的地理区域的财富状况。但在布卢门斯托克和同事把这些估算值汇总为分别反映卢旺达30个地区财富状况的数值后,他们发现,这些数值与通过人口统计和健康调查(DemographicandHealthSurvey)得到的数据非常接近,而人口统计和健康调查被认为是发展中国家调查的黄金标准。虽然这两种方法在此案例中产生了类似的结果,但布卢门斯托克和同事的方法要比传统的人口统计和健康调查的方法快了差不多10倍,成本为后者的1/50左右。这些明显更快、更节省成本的预测为研究人员、政府和公司创造了新的可能性(Blumenstock,Cadamuro,andOn2015)。这项研究有点像一个罗夏墨迹测验:人们看到的事物取决于他们的背景。许多社会科学家从中看到了一个新的测量工具,这个工具可以检验经济发展理论。许多数据科学家从中看到了一个很酷的、新的机器学习问题。许多商界人士看到了一个可以让他们从已经搜集到的大数据中获利的好方法。许多隐私权倡导者从中看到了一个可怕的警示:我们也许生活在一个大规模监控的时代。最后,许多政策制定者从中看到了新技术能够帮助我们创造一个更好的世界。其实,这项研究与这些都相关,而且正是因为它融合了这么多特征,所以我把它看作了解社会研究之未来的一扇窗。罗夏墨迹测验是一种著名的人格测验,它会向被试呈现由墨迹偶然形成的图案,让被试观看并说出由此联想到的事,研究人员由此对反应符号进行分析,从而判断被试的人格特征。——编者注1.2欢迎来到数字时代数字时代无处不在,它在不断发展,并且改变着研究的可能性。这本书的核心前提是数字时代能为社会研究创造新的机会。研究人员现在能以不久前还几乎不可能的方式观察行为、提出问题、开展实验以及彼此协作。但新的风险也随之而来:研究人员现在能以过去绝不可能的方式去伤害人们。这些机会和风险源于从模拟时代到数字时代的转变。这种转变并不是像开灯那样瞬间就发生了,事实上,这种转变目前还尚未彻底完成。但目前为止发生的事情,已经足以让我们相信有大事正在发生了。注意到这种转变的一个方法是观察发现你们日常生活中的变化。生活中,许多曾经是模拟的东西现在变成智能的了。也许你曾经用的是带胶卷的相机,但现在用的是数码相机(可能你们的智能手机就有数码相机的功能)。也许你们曾经读的是纸质的报纸,现在却在线看新闻。也许你们曾经用现金来付款,现在却是用信用卡。在上述每一种情况下,从模拟到数字的转变,都意味着更多关于你的信息被以数字化的形式获取并存储了下来。事实上,总体来看,从模拟到数字的转变所产生的影响是非常惊人的。信息量正在迅速增加,更多的信息以数字化的形式被存储,进而便于分析、传输和归并。这些数字信息被称为“大数据”。在数字数据爆炸式增长的同时,有条件使用计算机的人的数量也在不断增加(图1.1)。这些趋势,即越来越多的数字数据以及越来越多的使用计算机的人,在可预见的未来很可能会持续下去。图1.1信息存储能力和计算能力正在显著提高。此外,信息存储现在几乎已经全部数字化了。这些变化为社会研究人员创造了不可思议的机会。改编自HilbertandLópez(2011)。考虑到社会研究的目的,我认为数字时代最重要的特征就是计算机随处可见。从最初房间般大的、只有政府和大公司才能使用的计算机发展而来,今天的计算机,其尺寸在不断缩小,普及程度在不断增加。从20世纪80年代开始,每10年就会有一种新型的计算机诞生:个人计算机、笔记本电脑、智能手机以及现在“物联网”中的嵌入式处理器(即汽车、手表和恒温器等设备内部的嵌入式计算机)(Waldrop2016)。除了计算,这些随处可见的计算机还开始具备越来越多的功能:感知、存储和传输信息。对研究人员来说,利用网络最容易看出随处可见的计算机所产生的影响。互联网是一个被全面监测的环境,非常适合研究人员开展实验。例如,一个网上商店很容易就可以搜集到精确的数百万顾客的购买行为数据。然后,它可以随机选择几组顾客并为其提供不同的购物体验。这种在精准掌握了顾客购物数据的基础上再进行随机选择的能力,意味着网上商店能够持续开展随机对照实验。事实上,只要曾在网上买过东西,你的购买行为就已经被记录下来了,之后你也几乎必然地会成为某项实验的参与者,无论你自己是否知道。这种被全面监测、完全随机化的情况不仅局限于网上,这在线下也开始变得越来越普遍。实体店已经搜集了非常详细的购买行为数据,同时它们也正在开发相关基础设施,以便追踪顾客的购买行为,并将实验研究结果用于日常商业活动中。“物联网”意味着现实世界中的行为会越来越多地被数字传感器捕获。换句话说就是,当你思考数字时代的社会研究时,你不应该只想到“在线”社会研究,你应该想到它可以发生在任何地方。数字时代使行为测量和实施随机化的处理成为可能,同时还为人们创造了新的交流途径。这些新的交流途径使研究人员能够开展创新性的调查,并与同事以及普通大众进行大规模协作。怀疑论者可能会说,上述这些功能并不能算是真正意义上的新事物。也就是说,在过去,人们的交流途径也曾有过其他一些重大的进步,例如电报(Gleick2011),而且自20世纪60年代以来,计算机的运行速度也基本上一直在以同样的速度增长(Waldrop2016)。但这些怀疑论者所忽略的是,在某种程度上,多个相同的东西合起来会变成一个不同的东西(Halevy,Norvig,andPereira2009)。让我用我喜欢的一个类比来阐明这一观点:如果你能捕捉到一匹马在某一刻的画面,你便拥有了一张照片;而如果你在一秒内捕捉到一匹马的24个画面,那么你便拥有了一部电影的片段。当然,一部电影其实就是许多张照片,但只有顽固的怀疑论者才会坚持声称照片和电影完全一样。研究人员正在进行一项类似于从摄影到拍电影的转变,但这一转变并不代表我们过去所学的所有东西都应该被摒弃。正如摄影的原理会影响拍电影的原理一样,那些在过去100年里发展起来的社会研究理论也会对未来100年的社会研究产生影响。这一转变意味着我们不应该一直做同样的事情。相反,我们必须把过去的、现在的以及未来的方法结合起来。例如,乔舒亚·布卢门斯托克和同事所做的研究就结合了传统的调查研究和一些人可能称之为数据科学的方法。单凭调查研究或是单凭通话记录都无法绘制出高分辨率的反映财富估值的地图,这两个是缺一不可的。更概括地说,社会研究人员需要将社会科学和数据科学的思想结合起来,才能充分利用数字时代带来的机会,只靠其一是不够的。1.3研究设计研究设计是将问题和答案联系起来。本书是为两个群体所写的,这两个群体有很多需要互相学习的地方。一方面,这本书是写给社会科学家的,他们接受过社会行为研究方面的训练,也有这方面的经验,但对数字时代所带来的机会不是很熟悉。另一方面,这本书是写给那些能得心应手地使用数字时代工具,但对社会行为研究来说是新手的研究人员的。这类研究人员不愿被冠以一个简单的称谓,但我将把他们称为数据科学家。这些数据科学家经常会接受计算机科学、统计学、信息科学、工程学和物理学等方面的训练,已成为最早开展数字时代社会研究的一群人,这部分是因为他们能够获得必要的数据,同时也具备相应的计算能力。本书试图让这两个群体彼此合作,进而创造出比单独一个群体所能创造的更加丰富、更加有趣的东西。要实现这一强有力的合作,最好的方式不是专注于抽象的社会理论或是花哨的机器学习。最好的起点是研究设计。如果你将社会研究看作询问和回答有关人类行为问题的过程,那么研究设计就是“结缔组织”,它能将问题和答案联系起来。而建立正确的联系是设计出令人信服的研究的关键。本书将重点介绍4种方法:观察行为、提问、开展实验以及与他人合作。这些方法你之前应该已经见过或可能用过,但特别之处在于,数字时代为我们带来了新的搜集和分析数据的机会。这些新机会要求我们将这些经典的方法现代化,但不是要取代这些方法。1.4本书的主题本书的两个主题分别是:(1)将现成品和定制物结合起来;(2)道德伦理。这两个主题将贯穿整本书,我之所以在这里强调它们,是为了让你们在其反复出现时能够注意到。第一个主题可以通过对比马塞尔·杜尚(MarcelDuchamp)和米开朗琪罗(Michelangelo)这两位伟人来阐述。杜尚主要是因为他的现成品艺术作品(例如《泉》)而闻名,这些艺术作品都是普通物品经他稍做修改而创造出来的。而米开朗琪罗则不是通过修改现成品进行创作的。当他想创作一尊大卫的雕像时,他并没有去寻找一块看起来像大卫的大理石,而是花了三年的时间雕刻出了他的杰作。因此,《大卫》不是一个现成品艺术作品,而是一个非现成品艺术作品(图1.2)。这两种风格——现成品艺术作品和非现成品艺术作品,大致可以映射出数字时代的社会研究所采用的风格。正如你们将要看到的,本书中的一些例子就涉及对某些大数据资源的巧妙的重新配置,而这些大数据资源最初是由公司或政府所创建的。在其他例子中,研究人员则从一个特定的问题出发,然后使用数字化工具创建出回答该问题所需的数据。如果做得好的话,这两种模式都非常强大。因此,数字时代的社会研究将既包括现成品作品又包括非现成品作品,既包括杜尚又包括米开朗琪罗。如果你们通常使用的是现成数据,那么我希望这本书能告诉你们非现成数据的价值。同样,如果你们通常使用的是非现成数据,那么我希望这本书能告诉你们现成数据的价值。最后,也是最重要的,我希望这本书能告诉你将这两种数据结合起来使用的价值。例如,乔舒亚·布卢门斯托克及其同事就是杜尚和米开朗琪罗的结合体:他们把通话内容录音(一个现成数据)用于不同的用途,同时又创建了自己的调查数据(一个非现成数据)。在整本书中,你们都将看到现成品与非现成品的结合,这种结合往往既需要社会科学的思想也需要数据科学的思想,并且这种结合常常会带来最令人兴奋的研究。图1.2马塞尔·杜尚的《泉》和米开朗琪罗的《大卫》。《泉》就是一件现成品艺术作品,这类作品是艺术家对现实世界中已经存在的东西进行创造性加工修改后而产生的艺术品。而《大卫》则是有意创造的艺术品,是一件非现成品艺术作品。数字时代的社会研究将既包括现成品作品又包括非现成品作品。《泉》由艾尔弗雷德·施蒂格利茨(AlfredStieglitz)摄于1917年(来源:TheBlindMan,no.2/WikimediaCommons)。《大卫》由约尔格·比特纳·翁纳(JörgBittnerUnna)摄于2008年(来源:Galleriadell’Accademia,Florence/WikimediaCommons)。贯穿本书的第二个主题是道德伦理。我将告诉你们,研究人员如何利用数字时代的机会开展令人兴奋且意义重大的实验。同时我也将告诉你们,利用这些机会的研究人员将如何做出艰难的伦理决策。本书第6章全部是关于道德伦理的,但其他章节也会涉及这一话题,因为在数字时代,道德伦理将成为研究设计中越来越重要的一个部分。布卢门斯托克及同事的实验可以再次被用来证明这一点。150万人的通话记录为他们的研究创造了很好的机会,但同时也提供了造成伤害的机会。例如,乔纳森·迈耶(JonathanMayer)及同事在2016年已经表明,即使是对“匿名化”的通话内容录音(即没有名字和地址的数据),在结合公开信息后,研究人员也可能从中识别出属于某些特定人员的通话内容,进而推断出有关他们的敏感信息,例如某些健康状况的信息。也就是说,虽然布卢门斯托克及同事并未试图找出某些特定的人并推断有关他们的敏感信息,但这一可能性会让他们很难拿到通话数据,这迫使他们在进行研究时要采取全面的保护措施。除了详细的通话记录以外,数字时代的许多社会研究中都存在一个让人很不安的根本性问题:研究人员(经常与公司和政府合作)对实验参与者的生活拥有越来越强的控制力。我所说的控制力是指在未征得参与者同意,甚至在他们不知情的情况下,对他们做一些事情的能力。例如,研究人员现在可以观察数百万人的行为,而且正如我后文将描述的,研究人员也可以让数百万人参加大规模的实验。所有这些事情都可能在未征得当事人同意或其不知情的情况下进行。研究人员的控制力在不断增强,对如何使用这一控制力的规范却没有相应地变得更加明确。也就是说,研究人员必须在彼此不一致、相互重叠的法律法规的基础上决定他们该如何行使这一控制力。因此,即便是善意的研究人员,在面对强大的控制力和模糊的指导方针时,可能也会被迫去做一些艰难的抉择。如果你们通常关注的是数字时代的社会研究所创造的新机会,那么我希望这本书能让你们明白这些机会也会带来新的风险。同样,如果你们通常关注的是这些风险,那么我希望这本书能帮助你们发现新机会(需要冒险的机会)。最后,同时也是最重要的,我希望这本书能帮助大家负责任地平衡数字时代的社会研究所带来的机会和风险。当研究人员开始拥有更强的控制力时,他们也必须承担更大的社会责任。1.5本书梗概本书主要围绕4种广泛的研究方法展开:观察行为、提问、开展实验以及进行大规模协作。不同的方法需要研究者和参与者之间建立起不同的关系,并且不同的方法能让我们了解到不同的东西。也就是说,如果选择对参与者提问,那我们将获得仅通过观察行为无法获得的信息。同样,如果选择开展实验,那我们将获得仅通过观察行为和提问无法获得的信息。最后,如果选择和参与者协作,那我们将获得仅通过观察行为、提问和开展实验无法获得的信息。这4种方法在50年前就都被以某些形式采用了,我相信,在从现在起的50年里,它们仍将被以某些形式采用。对每种方法我都将单独用一章去阐述,同时探讨围绕该方法的伦理问题。之后还会有专门针对道德伦理的一章。正如前言所述,我将尽可能使文字简洁,本书最后将以参考文献结尾,这部分将包括重要的书目信息和更详细的资料推荐。在第2章(观察行为)中,我将阐述研究人员通过观察人们的行为能了解到什么以及如何通过观察行为获取信息,尤其是通过公司和政府所创建的大数据资源。我不会描述任何一个特定资源的细节,相反,我将描述大数据资源的10个共同特征以及这些特征对研究人员使用它们进行研究的能力有何影响。然后,我将阐述三个策略,利用这些策略可以有效地从大数据资源中获取有效信息。在第3章(提问)中,我首先将介绍,当研究人员不局限于以前的大数据时能够了解到什么。通过问人们问题,研究人员能够了解到通过观察行为无法轻易了解到的东西。为了系统地介绍数字时代带来的机会,我将对传统的调查误差总框架进行回顾。然后,我将介绍数字时代如何为抽样和面对面访问提供新方法。最后,我将介绍把调查数据和大数据资源结合起来的两个策略。在第4章(开展实验)中,我首先将介绍,当研究人员不局限于观察行为和提问时能够了解到什么。尤其是随机对照实验,它能够让研究人员弄清楚一些因果关系。在这种实验中,研究人员会采取非常具体的方式进行干预。我会对过去我们能做的实验的种类和现在能做的实验的种类进行对比。在此背景下,我将介绍开展数字实验的两个主要策略所涉及的权衡问题。最后,我将介绍如何利用数字实验的真正优势以及伴随这些优势而来的责任。在第5章(进行大规模协作)中,我将介绍研究人员怎样才能进行诸如众包和公众科学这样的大规模协作,进而完成社会研究。通过介绍成功的大规模协作项目以及一些关键组织原则,我希望能说服你们相信以下两件事情:第一,大规模协作可以被用来开展社会研究;第二,研究人员利用大规模协作能够解决以前似乎不可能解决的问题。在第6章(道德伦理)中,我将论述的观点是:研究人员对参与者的控制力正在迅速增强,且其增强速度超过了法律法规的更新速度。不断增强的控制力以及缺乏如何使用这一控制力的共识,使得善意的研究人员陷入两难的境地。为解决这一问题,我认为研究人员应该采用基于原则的方法。也就是说,研究人员应该根据现有的规则条例(如果有的话)以及更普遍的原则评估他们的研究。我将介绍四个早已制定的原则和两个伦理框架,帮助指导研究人员做出决策。最后,我将介绍一些我认为研究人员在未来可能遇到的特定的伦理问题,同时鉴于这一领域缺乏健全的伦理规范,我也会给出一些实用的建议。最后,在第7章(未来)中,我将回顾贯穿全书的主题,然后通过它们预测未来重要的主题。数字时代的社会研究将融合过去我们所做的以及未来将赋予我们的截然不同的能力。因此,社会科学家和数据科学家都将影响社会研究的发展。每个群体都能做出自己的贡献,每个群体也都有需要学习的东西。第2章观察行为2.1简介在模拟时代,搜集有关谁在什么时间做了什么的行为数据,代价是很高昂的,因此它们相对较稀少。在如今的数字时代,却有数十亿人的行为被记录、存储和分析。例如,每当你点开一个网站,用手机打一个电话,或用信用卡付款,商家就会创建并存储一条有关你行为的数字记录。这些类型的数据是人们日常行为的副产品,所以通常被称为数字痕迹。除了商家所拥有的这些数字痕迹外,政府也拥有大量无比丰富的数据。这两部分数据结合起来通常被称作大数据。不断增加的海量大数据意味着我们已经从一个缺乏行为数据的世界进入一个行为数据极其丰富的世界。而要想从这些大数据中学到东西,第一步就是要认识到大数据是更为广泛的、多年被用来进行社会研究的观察数据的一部分。粗略地说,在不以某种方式进行干扰的情况下,通过观察某一社会系统所得来的任何数据都是观察数据。我们可以粗略地把观察数据想象成在获取数据的过程中不涉及与人交谈(例如第3章的主题——提问)或改变人们所处环境(例如第4章的主题——实验)的数据。因此,除了商家和政府所拥有的数字记录外,观察数据还包括报纸文章和卫星照片等内容。本章包含三个部分。首先,在2.2节中,我将更详细地介绍大数据资源,阐明它与过去社会研究通常采用的数据的根本区别。紧接着,在2.3节中,我将介绍大数据资源的10个共有特征。理解这些特征能让你们很快辨别出现有资源的优缺点,并帮助你们更好地利用将来可用的新资源。最后,在2.4节中,我将介绍三个主要的研究策略:计数、预测和近似实验。你们能利用这些策略从观察数据中获得有用的信息。2.2大数据大数据是由公司和政府为研究以外的目的而创建和搜集的。因此,如果要利用这些数据进行研究,就需要对其稍做调整。许多人接触到数字时代社会研究的第一种方式是通过人们通常所说的大数据。尽管这一术语被广泛使用,但人们对大数据到底是什么还没有达成共识。大数据最常见的定义之一主要包含了3个“V”:Volume(大量)、Variety(多样)、Velocity(高速)。粗略地说,大数据就是大量被不断创建的各种类型的数据。一些大数据的倡导者还为这一定义增加了别的词语,例如Veracity(真实性)和Value(价值),而批评者则增加了诸如Vague(模糊)和Vacuous(空洞)这样的词语。但就社会研究这一目的来说,我认为相比于上述几个“V”,以下5个“W”才是更好的出发点:Who(谁)、What(什么)、Where(在哪儿)、When(什么时间)以及Why(为什么)。事实上,我认为大数据资源带来的许多挑战和机会都源于最后这个“W”:Why。在模拟时代,大多数用于社会研究的数据都是为了做研究而创建的。然而在数字时代,大量数据正在被公司和政府创建,但其不是为了做研究,而是为了提供服务、创造利润以及执行法律等。但富有创造力的人已经意识到,我们可以对公司和政府所创建的数据稍做调整,进而将其用于研究。回想一下第1章中的艺术类比,就像杜尚通过对一个现成品稍做修改而创造了艺术品一样,现在科学家也可以通过对现成数据稍做调整而将其用于研究。尽管对数据进行再利用无疑有众多机会,但利用那些不是为研究而创建的数据也存在着很多挑战。就以社交媒体(例如推特)以及传统的民意调查(例如综合社会调查)为例。推特的主要目的是通过为用户提供某种服务来获取利润,而综合社会调查则主要是为社会研究(尤其是民意调查)搜集通用数据。尽管这两种数据都可被用来研究民意,但这种目的上的差异意味着它们具有不同的属性。推特的用户规模和更新速度是综合社会调查无法比拟的,但推特没有像综合社会调查那样对用户进行仔细的挑选,也没有努力让数据在一段时间内具有可比性。因为这两种数据资源十分不同,所以也没办法说到底哪个更好。如果你想了解全球人民在一个小时内的情绪状态(例如GolderandMacy2011),那么推特将是最好的选择。但如果你想了解美国民众态度两级分化的长期变化(例如DiMaggio,Evans,andBryson1996),那么综合社会调查将是最好的选择。总的来说,这一章将试图阐明大数据资源更适合被用于哪种类型的研究问题,以及对于哪种研究问题不太理想,而不是试图论证大数据资源要比其他类型的数据更好或更坏。当想到大数据资源时,许多研究人员会立即将注意力全部放在由公司创建和搜集的在线数据上,例如搜索引擎的日志和社交媒体上的帖子。但这种狭隘的关注范围忽略了另外两个很重要的大数据资源。首先是现实世界中数字设备所产生的越来越多的公司的大数据资源。例如,我在这一章中将提到一个研究,探讨一个员工的工作效率如何受其同伴工作效率的影响(MasandMoretti2009),该研究就对超市的结账数据进行了再利用。之后的章节还将介绍一些利用手机通话记录(Blumenstock,Cadamuro,andOn2015)和电力公司账单数据(Allcott2015)开展的研究。这些事例表明,公司的大数据资源不仅仅是关于在线行为的。另外一个被忽略的重要的大数据资源是政府创建的数据。这些数据被研究人员称为政府行政记录,包括税收记录、学校记录以及重要的统计记录(例如出生和死亡登记)等。政府一直在创建该类型的数据,有的记录已经持续了数百年,而社会科学方面也几乎是从第一个社会科学家开始就在利用这些数据。但不同的是,数字化极大地简化了政府对数据的搜集、传输、存储和分析工作。例如,我在这一章中将提到一个利用纽约市政府出租车计量器的数据开展的研究,该研究旨在解决劳动经济学中的一个根本性争论(Farber2015)。后面的章节还将分别介绍政府搜集的投票记录如何在一项调查(AnsolabehereandHersh2012)和一个实验(Bondetal.2012)中被使用。我认为,将数据稍做调整以用于研究这一想法是从大数据资源中获得有用信息的基础,因此,在更具体地讨论大数据资源的属性(2.3节)以及如何在研究中使用这些资源(2.4节)之前,我想先就这一想法给出两条常规建议。首先,关于我所提出的“发现”数据和“设计”数据之间的差异,这二者的差异很小,但也不是没有。尽管从研究人员的视角来说,大数据资源是被发现的,但它们并不完全就是从天而降的。相反,研究人员发现的大数据资源也是某些人出于某些目的而设计的。因此,鉴于发现的数据也是由某些人所设计的,我通常建议尽量多地了解设计这些数据的人和流程。其次,当你将数据稍做调整以用于研究时,想象一下适用于你要解决的问题的理想数据集应该是什么样的,这通常会非常有帮助,然后将理想的数据集与你正在使用的数据集进行比较。如果数据不是你自己搜集的,那么你拥有的数据和你想要的数据之间可能会有很重要的差别,注意到这些差别将有助于你弄清楚哪些是可以通过现有数据获得的,哪些是无法获得的,同时这也可能透露出你还需要搜集哪些新数据。在我的经验中,社会科学家和数据科学家倾向于以截然不同的方式看待将数据稍做调整以用于研究这件事。习惯于处理为研究而设计的数据的社会科学家,通常会快速地指出调整后再用于研究的数据的问题,而忽略它的优势。而数据科学家则通常会快速地指出这类数据的优势,并忽略它的劣势。当然,最好的方法就是上述两种态度的结合。也就是说,研究人员需要了解大数据资源的特征,了解它的优点和缺点,然后弄清楚如何从中获得有用的信息。这也是本章剩余部分所要探讨的。在2.3节中,我将介绍大数据资源的10个共同特征。然后在2.4节中我将介绍三种能够很好地处理这些数据的研究方法。2.3大数据的10个共同特征各种大数据资源往往具有许多共同的特征,其中一些有利于社会研究,另一些则相反。尽管每种大数据资源都是不同的,但它们往往会呈现出某些共同的特征,意识到这一点是很有帮助的。因此,我将介绍大数据资源的10个一般性特征,而不是采用一种平台化的方法(例如分别介绍对推特、谷歌等平台,你需要知道什么)。从每个特定系统的细节中跳出来,着眼于这些一般性特征,能够让研究人员很快从现有的数据资源中获得有用的信息,并拥有一套可用于未来数据资源的可靠想法。尽管对一个数据资源的期望特征取决于研究目标,但我发现把这10个共同特征粗略地分为以下两大类也是有帮助的:·通常情况下有利于研究的:海量性、持续性以及不反应性;·通常情况下不利于研究的:不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性。2.3.1海量性大型数据集是实现目的的一种手段,其本身并不是最终目的。大数据资源最被广为讨论的特征就是其数据量是“海量的”。例如,许多论文会以详述(有时是吹嘘)其分析了多少数据作为开篇。例如在《科学》(Science)杂志上发表的一篇研究谷歌图书(GoogleBooks)语料库中词汇使用趋势的论文就包括了以下内容(Micheletal.2011):我们的语料库包含了超过5000亿个单词,有英语(3610亿)、法语(450亿)、西班牙语(450亿)、德语(370亿)、汉语(130亿)、俄语(350亿)以及希伯来语(20亿),最古老的作品出版于16世纪。起初的几十年里,语料库每年仅收录几本书,包含的单词量也就几十万。到1800年,语料库每年的单词量增加到9800万;到1900年,达到18亿;2000年则达到110亿。语料库中的内容一个人是无法读完的。就算只阅读2000年的英语词条,以每分钟200个单词的合理速度计算,即便一个人不吃不睡也将需要约80年。由字母组成的序列要比人类的基因组长1000倍,如果你将它们沿着一条直线全部写出来,其长度大约可在地球和月球之间往返10次。该数据的规模无疑是很可观的,而且我们都很幸运,因为谷歌图书团队对公众开放了这些数据。(事实上,本书末尾的一些“活动”就利用了这一数据。)但是,每当看到类似的数据时,你都应该提出这样的问题:这些数据真的有用吗?如果数据的长度只够从地球到月球往返一次,那么人们还能做同样的实验吗?如果数据的长度只能到达珠穆朗玛峰的顶部或者埃菲尔铁塔的顶部又会怎么样呢?事实上,针对谷歌图书语料库的这一研究确实需要一个收录有多年词汇量的巨大语料库。例如,他们的研究之一是语法的演变,尤其是不规则动词词形变化率的改变。鉴于有些不规则动词非常罕见,因此需要大量的数据才能发现其随时间的变化。但很多时候,研究人员似乎会把大数据资源的规模大小当作一种目的,旨在告诉别人“看我能处理多少数据”,而不是将其看作实现某些更重要的科学目标的手段。根据我的经验,大型数据集往往能让研究人员实现三类科学目的,而对稀有事件的研究就是其中第一类。第二类是对异质性的研究,正如拉伊·切蒂(RajChetty)和同事对美国社会流动的研究(2014)。在过去,许多研究人员通过对比父母和孩子的人生成就来研究社会流动。从有关这些研究的文献资料中可以得出这样一个结论:社会经济地位等处于优势的父母,他们的孩子也更容易获得较高的社会经济地位,但在不同的时间、国家,这两者之间的关联度也是不同的(HoutandDiPrete2006)。最近,切蒂和同事利用4000万人的缴税记录对美国各地区代际流动的异质性水平进行了估算。他们发现,在加利福尼亚州圣何塞,如果一个小孩来自收入水平最低的家庭(共分为5个等级),那么他成为全国收入水平最高的1/5人口的概率约为13%,而在北卡罗来纳州的夏洛特,这一概率仅为4%。你可能会有这样的疑问,为什么有些地方的代际流动要高于其他地方呢?切蒂和同事也有同样的疑问,而且他们还发现,流动性高的地区居住区分割现象、收入不平等现象都较少,而且有更好的小学、社会资本,家庭稳定性也更高。当然,只有这些关联还不足以表明这些因素能带来高流动性,但这也确实表明了其中可能存在着某些机制,需要进一步的研究,而这也正是切蒂和同事接下来所做的。需要注意的是,数据规模的大小在上述项目中是非常重要的。如果切蒂和同事使用的是4万人而不是4000万人的缴税记录,就无法对区域异质性的水平进行估算,也完全不可能进行后续的研究,找出导致区域差异的机制。最后,除了研究稀有事件和异质性,大型数据集还能让研究人员发现那些细微的差异。事实上,业界对大数据的关注大多数都是关于这些细微差异的:准确地检测到一个广告1%的点击率和1.1%的点击率之间的差别,就能带来数百万美元的额外收入。然而在一些科学背景下,这样细微的差异可能就不是特别重要了,即便它们具有重要的统计学意义(PrenticeandMiller1992)。但对一些政策制定来说,当考虑到最终的总的影响时,这些细微差异也可能变得很重要。例如,如果有两种公共卫生干预措施,其中一种比另一种稍微更有效一些,那么选择更有效的措施可能最终就能多挽救成千上万人的生命。使用正确的话,海量性通常来说是一个有利的属性,但我注意到它有时也会导致概念误差。出于某些原因,海量性这一特征似乎会让研究人员忽略他们的数据是如何产生的。尽管海量数据确实会减少随机误差出现的概率,但它实际上又增加了系统误差出现的概率。接下来我就要介绍,因对数据产生方式认识不足而造成的系统误差。例如,在本章随后介绍的一个项目中,研究人员利用2001年9月11日的信息制作了一个反映恐怖袭击后人们反应的高分辨率情绪时间表(Back,Küfner,andEgloff2010)。因为他们拥有大量的信息,所以没必要担心他们所发现的规律(即人们的愤怒情绪在一天之中不断上涨)是否能用随机变化来解释。他们所拥有的信息量十分巨大,而且这一规律又非常明显,所有的统计检验都表明这是一条正确的规律。但这些统计检验人员并不知道这些数据是如何产生的。事实上,他们发现的很多信息都是由一个自动程序产生的,该程序在一天中会产生越来越多的无意义信息。因此删除这一程序就会使论文中的某些关键发现不再成立(Pury2011;Back,Küfner,andEgloff2011)。简单地说,不考虑系统误差的研究人员在使用大型数据集时,其精确计算的对象可能是一个不重要的数据,例如上述自动程序产生的无意义信息中所包含的情绪内容。综上所述,大型数据集本身并不是目的,但它们能让某些类型的研究成为可能,其中包括对稀有事件的研究、对异质性水平的估算以及对细微差异的发现。但大型数据集似乎也会让研究人员忽略他们的数据是如何产生的,进而导致他们精确地计算不重要的数据。2.3.2持续性大数据系统的持续运行使得研究突发事件和进行实时监测成为可能。许多大数据系统都是持续运行的,它们在不断地搜集着数据。这一特征使研究人员能够获得纵向数据(即在一段时间内的数据),它对研究有以下两个重要的影响。首先,不间断的数据采集使研究人员能以之前不可能的方式来研究突发事件。例如,对2013年夏天发生在土耳其的盖齐公园示威活动感兴趣的研究人员通常会关注示威者在活动期间的行为。而杰伦·布达克(CerenBudak)和邓肯·瓦茨(DuncanWatts)凭借推特的持续运行属性,对在示威之前、期间以及之后使用推特的示威者进行研究,并且创建了由未参加示威的人组成的对照组,对照组也分为示威之前、期间以及之后(图2.1)。最终,他们的事后纵向数据(ex-postpanel)共搜集了30000人在两年内的所有推文。通过在研究人员常用示威者数据的基础上增加这一额外的信息,布达克和瓦茨可以研究更多的内容:评估什么类型的人更有可能参与盖齐公园示威活动以及参与者和非参与者在短期(对比示威之前和示威期间的数据)和长期(对比示威之前和示威之后的数据)内的态度变化。图2.1布达克和瓦茨用来研究2013年夏天发生在土耳其的盖齐公园示威活动的设计。利用推特的持续运行属性,研究人员搜集了约30000人在两年内的推文,并将这一数据称为事后纵向数据。与关注示威期间参与者的典型研究相比,事后纵向数据增加了:(1)示威前、后参与者的数据;(2)示威前、中、后非参与者的数据。这一更丰富的数据使布达克和瓦茨能对“什么类型的人更有可能参加盖齐公园示威活动”以及参与者和非参与者在短期(对比示威之前和示威期间的数据)和长期(对比示威之前和示威之后的数据)内的态度变化进行评估。怀疑论者可能会指出,即便没有不间断的数据采集资源,上述某些评估(例如长期内的态度变化)也是可以进行的。这一观点是正确的,尽管搜集30000人的数据成本相当高昂,但只要有足够的预算,这一问题便能解决。然而我想不出有什么办法能让研究人员穿梭到过去,直接观察参与者在过去的行为。最接近的办法可能是搜集有关参与者行为的回顾性报告,但这些报告的粒度是有限的,准确度也不高。表2.1列出了一些利用持续运行的大数据系统进行的突发事件研究。除了研究突发事件以外,持续运行的大数据系统还能让研究人员进行实时评估。对政府或各行业的决策者来说,当他们想要依据态势感知确定应对措施时,这一点就会变得很重要。例如,利用社交媒体数据指导对自然灾害的应急响应(Castillo2016),利用各种不同的大数据资源对经济活动进行实时评估(ChoiandVarian2012)。综上所述,持续运行的大数据系统能让研究人员对突发事件进行研究,也能为决策者提供实时信息。但如果要追踪很长一段时间内的变化,我认为这些系统就不适用了。因为很多大数据系统是不断变化的,我把这一过程称为漂移,并将在后面的2.3.7小节中具体介绍。表2.1利用持续运行的大数据系统进行的突发事件研究2.3.3不反应性大数据资源中的测量对象不太可能改变行为。社会研究面临的一个挑战是,当知道自己正在被研究人员观察时,人们就会改变自己的行为。社会科学家通常把这一现象称为反应性(Webbetal.1966)。例如,在实验室研究中,人们会比在现场研究中表现得更慷慨,因为在实验室中,他们非常清楚自己正在被观察(LevittandList2007a)。许多研究人员看好的大数据的一个方面是,参与者一般不会意识到他们的数据正在被捕获,或者他们对这些数据采集已经很习惯了,所以也不会改变自己的行为。由于参与者不会改变他们的行为,所以许多大数据资源可以被用来研究以前无法精确衡量的行为。例如,带有种族歧视的词汇在搜索引擎记录中是非常普遍的,于是斯蒂芬斯–达维多维茨(Stephens-Davidowitz)就利用这一点衡量了美国不同地区的种族敌意。搜索数据的不反应性和海量性这两个属性使很多通过其他方法(例如调查)难以进行的测量成为可能。但不反应性并不能确保这些数据就是人们行为或态度的直接反映。例如,在一项基于当面访问的研究中,一位受访者说:“我并不是没有问题,只是没有把它们发在脸谱网上而已。”(Newmanetal.2011)换句话说,尽管一些大数据资源是不反应的,但并不一定能避免社会期许误差,即人们倾向于以尽可能好的方式呈现自己而带来的误差。此外,正如我在本章后续部分所描述的,从大数据资源中捕获的行为有时会受到平台所有者目标的影响,我将之称为算法干扰。最后,尽管不反应性对开展研究是有利的,但在未征得参与者同意或在他们不知情的情况下追踪其行为的做法,也会带来一些道德伦理问题,对此我将在第6章进行描述。以上3个属性——海量性、持续性以及不反应性,一般来说是有利于研究的,但也并非总是如此。接下来,我将介绍大数据资源的另外7个属性——不完整性、难以获取、不具代表性、漂移、算法干扰、脏数据以及敏感性。在开展研究时,这些属性一般来说会引发额外的问题,但也并非总是如此。2.3.4不完整性不管你的大数据有多大规模,其中仍可能没有你想要的信息。许多大数据资源中是没有我们想要的研究数据的,从这个意义上讲,大多数大数据资源是不完整的。这是出于研究以外的目的而创建的数据所共有的一个特征。许多社会科学家已经拥有处理不完整数据的经验了,例如某社会科学家获得了一组现有的调查数据,但其中未包含他要研究的问题。遗憾的是,不完整的问题在大数据中往往更加极端。根据我的经验,大数据通常缺少以下三种对社会研究有用的信息:有关参与者的统计信息、在其他平台上的行为以及使理论构念具有可操作性所需的数据。在上述三种缺失的信息中,缺失使理论构念具有可操作性所需的数据是最难解决的。而且根据我的经验,这一问题经常会被忽略。粗略地说,理论构念就是社会科学家所研究的抽象概念,而使一个理论构念具有可操作性则意味着想办法用可观测的数据捕获这一构念。遗憾的是,这个听起来简单的过程事实上往往相当困难。试想一下,如果要用科学测验检验“越聪明的人挣钱越多”这一看似简单的说法,那么我们就需要对“智力”进行测量。但什么是智力呢?霍华德·加德纳(HowardGardner)曾提出,智力实际上有8种不同的形式。那有没有能够精确测量这些智力的程序呢?尽管心理学家在这方面做了大量的工作,但这个问题还是没有明确的答案。因此,即便是“越聪明的人挣钱越多”这样相对简单的说法,也可能很难用科学测验来对其进行评定,因为要想使理论构念实现数据层面的可操作性是很困难的。其他一些重要却难以实现可操作性的例子包括“规范”、“社会资本”和“民主”。社会科学家将理论构念和数据之间的匹配程度称为构念效度(CronbachandMeehl1955)。正如上述几个构念所示,构念效度问题是社会科学家长期以来一直在努力解决的问题。但以我的经验来看,当使用不是为研究而创建的数据时,构念效度问题就会变得更加难以解决(Lazer2015)。研究结果通常是用构念来表述的,而利用研究所使用的数据对其进行重新表述则是评估一项研究结果构念效度的快速且有效的方法。例如,假设有两个旨在证明“越聪明的人挣钱越多”的研究:在第一个研究中,研究人员发现,在一项成熟的、测量分析性智力的瑞文推理测验(Carpenter,Just,andShell1990)中得分高的人,其纳税申报单中填报的个人收入也较高;在第二项研究中,研究人员发现,在推特上使用更长的单词的人更有可能提到奢侈品牌。就这两项研究而言,研究人员均声称他们已经证明了“越聪明的人挣钱越多”。但在第一项研究中,研究人员通过相关数据对理论构念进行了充分的测量,而第二项研究没有。此外,正如上述事例所示,更多的数据并不意味着构念效度问题就能迎刃而解。也就是说,无论第二个研究是基于100万条推文,1000万条推文,还是1万亿条推文,我们对其结果都应持怀疑态度。对不熟悉构念效度的研究人员来说,可以参阅表2.2中使用数字痕迹测量理论构念的研究实例。表2.2使用数字痕迹测量理论构念的实例尽管反映理论构念的完整数据很难找到,但对其他常见的不完整性问题,比如不完整的人口统计信息和在其他平台上的不完整的行为信息,我们还是有一些常见解决方案的。第一种解决方案是实际搜集自己所需的数据,在第3章谈到调查时我会对此进行介绍。第二种主要方案是进行数据科学家所说的用户属性推断,社会科学家则称之为归属。采取该方案时,研究人员需利用他们所掌握的一些人的信息来推断其他人的属性。第三种可能的解决方案是整合多个数据资源。这一过程被称为记录链接。我最喜欢的有关这一过程的比喻说法出自艾伯特·邓恩(HalbertDunn),他写出了有史以来第一篇关于记录链接的论文,他在第一段是这样写的:世界上的每一个人都在书写一本生命之书。这本书从我们出生开始写起,直到我们生命的终结,每一页都记录了我们生命中的主要事件。而记录链接就是将这些书页装订成册的过程。邓恩写这一段时,想象着这本生命之书会记录出生、结婚、离婚和死亡这样的重大生活事件。但其实它所记录的要远超过这些,因此,如果将这些不同的书页(即我们的数字痕迹)整合在一起的话,这本生命之书将是一幅详细的令人难以置信的画像。这本生命之书对研究人员来说是非常好的资源。但正如我在第6章中将描述的那样,它也可以被用于各种不道德的用途,所以也可以被称为毁灭性的数据库(Ohm2010)。2.3.5难以获取研究人员很难获取公司和政府所持有的数据资源。2014年5月,美国国家安全局在犹他州的一个小镇开设了一个名字很长的数据中心——情报体系综合性国家计算机安全计划数据中心。然而据报道,这个习惯上被称为犹他数据中心的地方拥有惊人的能力。一份报告称,该数据中心能够存储和处理所有形式的通信信息,包括“私人电子邮件、手机通话和谷歌搜索的完整内容,以及停车收据、旅行路线、书店采购记录和其他‘口袋垃圾’等各种形式的个人数字痕迹”(Bamford2012)。犹他数据中心存储的大部分信息都是敏感信息,因此在引发担忧之外,它也很好地诠释了为什么有些丰富的数据资源是研究人员难以获取的。更普遍地讲,许多有用的大数据资源都被政府(例如税收数据和教育数据)和公司(例如搜索引擎记录和通话记录元数据)控制和限制。因此,尽管这些数据是存在的,但对社会研究来说是无用的,因为它们很难获取。根据我的经验,许多大学研究人员都误解了数据难以获取的原因。这些数据难以获取,不是因为公司和政府的人愚蠢、懒惰或冷漠,而是有严格的法律、商业和伦理限制阻碍了数据的获取。例如,一些网站的服务协议只允许员工使用数据或将数据用于改进服务。因此,某些形式的数据共享可能会让公司面临来自客户的法律诉讼。此外,共享数据也可能为公司带来巨大的商业风险。试想一下,如果个人搜索数据意外从谷歌泄露,并被用于某项大学的研究,公众的反应会如何?类似这样的数据外泄,如果严重的话,甚至可能威胁到公司的生存。因此,谷歌和大多数大公司为了规避风险,都不愿与研究人员分享数据。事实上,几乎所有有能力提供大量数据的人应该都知道阿卜杜勒·乔杜里(AbdurChowdhury)的故事。2006年,时任AOL(美国在线)研究主管的乔杜里,有意向研究人员公布他认为是匿名的65万名AOL用户的搜索记录。据我所知,乔杜里和AOL的研究人员是出于好意,而且他们认为自己已经对数据进行了“匿名化”处理。但他们错了,这些数据很快被发现并没有研究人员所想的那样安全,而且,《纽约时报》的记者能够很轻松地辨别出数据集中某一个人的身份(BarbaroandZeller2006)。这些问题刚被发现,乔杜里就移除了AOL网站上的相关数据,但为时已晚,这些数据已被转载到了其他网站上,在你读这本书时,可能这些数据仍然能被找到。最终,乔杜里被解雇了,AOL的首席技术官也辞职了(Hafner2006)。正如这个例子所示,公司内部特定人员是有能力促进数据共享的,但他们并不会因此而受益,相反还有可能要承担极其严重的后果。然而,研究人员有时也能获取普通大众无法获取的数据。一些政府有特定的程序,研究人员可以遵循这些程序,申请对数据的访问权。此外,正如本章后面的例子所示,研究人员有时也能获得对公司数据的访问权。斯坦福大学经济学教授利兰·埃纳维(LiranEinav)等人就曾与易贝(eBay)的一位研究人员合作研究在线拍卖。有关这一合作研究的更多信息,我将在本章后面部分介绍,而我现在提及它是因为它具备我在成功的伙伴关系中所看到的4个要素:研究人员兴趣、研究人员能力、公司兴趣以及公司能力。我见过很多原本可能达成的合作最终以失败告终,其原因就是研究人员或其合作对象(公司或政府)不具备上述某一要素。即便能与公司建立合作关系或能够访问到受限制的政府数据,你还是会面临一些问题。首先,你可能无法与其他研究人员共享你的数据,这也就意味着其他研究人员将无法验证和扩展你的研究结果。其次,你能提出的问题可能是有限的,因为公司不太可能允许你开展有损其形象的研究。最后,这些合作关系至少会引发有关利益冲突的问题,即人们可能会认为你的研究结果受到了合作关系的影响。所有这些问题都是可以解决的,但重要的是你要认识到,处理并非人人都能访问的数据是既有好处又有坏处的。综上所述,研究人员在访问某些数据时,会面临来自法律、商业和道德伦理方面的层层限制,很多大数据资源都是他们难以获取的。而且这些限制不会随着技术的进步而消失,因为它们并非技术层面的限制。一些国家的政府已经建立了相关的程序,以便让研究人员能够访问某些数据集,但未从国家和地区层面对具体过程进行统一安排。此外,在某些情况下,研究人员可以通过与公司合作获得数据的访问权,但这也可能给研究人员和公司带来各种各样的问题。2.3.6不具代表性不具代表性的数据不利于样本外的泛化,但对样本内的对比是很有用的。一些社会科学家习惯于处理从明确的总体(例如某个国家的所有成年人)中抽取的随机样本数据。这类数据被称作代表性数据,因为这些样本能够代表总体的属性。许多研究人员都认为代表性数据很有价值,对他们中的一些人来说,代表性数据就是科学严谨性的代名词,而不具代表性的数据则是杂乱的代名词。在最极端的情况下,一些对不具代表性的数据持怀疑态度的人似乎认为,从这些数据中学不到任何东西。如果这是真的,那么这将严重限制我们从大数据资源中可以学到的东西,因为许多大数据资源都不具代表性。幸运的是,这些怀疑者只是部分正确。不具代表性的数据对有些研究目标来说显然是不适用的,但对其他一些研究目标来说可能非常有用。让我们通过一个经典的科学研究,即约翰·斯诺(JohnSnow)对1853—1854年伦敦霍乱暴发的研究,来阐明这一区别。当时,许多医生都认为霍乱是由瘴气引起的,但斯诺认为霍乱是一种传染病,它可能通过被病人排泄物污染的饮用水来传播。为了验证这一想法,斯诺对比了由两家不同的公司——兰姆博斯(Lambeth)以及萨瑟克–沃克斯霍尔(Southwark&Vauxhall),供水的家庭的霍乱发病率,我们现在把这种实验称作自然实验。这两家公司分别为社会经济地位等相似的家庭供水,但它们有一个重要的区别:兰姆博斯于1849年,即疫情开始的前几年,从伦敦的主要污水排放处向上游移动了它的进水管道,而萨瑟克–沃克斯霍尔则依旧把进水管道置于污水排放的下游。斯诺在比较由这两家公司供水的家庭的霍乱死亡率时发现,饮用由萨瑟克–沃克斯霍尔提供的被排泄物污染的水的用户,其死于霍乱的可能性是由兰姆博斯供水的用户的10倍。尽管这一结果不是基于能够代表所有伦敦人口的样本所得出的,但它为斯诺有关霍乱起因的说法提供了强有力的科学依据。然而,如果要回答另外一个也很重要的问题——在疫情暴发期间,伦敦的霍乱患病率是多少,上述两家公司的数据就不再适用了,我们需要的是一个能代表全伦敦人口的代表性样本。正如斯诺的例子所表明的,不具代表性的数据对有些科学问题来说是非常有效的,但对其他一些科学问题不太适用。区分这两种问题的一个粗略的办法是,有些问题是关于样本内比较的,而有些则是关于样本外泛化的。这一区别可以通过另外一个流行病学的经典研究案例来进一步阐明。这项研究就是英国医生研究(BritishDoctorsStudy),它在证明吸烟能导致癌症方面发挥了重要的作用。在这项研究中,理查德·多尔(RichardDoll)和布拉德福德·希尔(A.BradfordHill)对约25000名男性医生进行了多年的追踪,并根据研究开始时他们吸烟的数量比较其晚年的健康状况。多尔和希尔发现了一个很强的“暴露–反应关系”:抽烟越多的人,死于肺癌的可能性就越大。当然,根据这组男性医生的情况估算所有英国人的肺癌患病率显然是不明智的,但样本内的比较能为证明吸烟致癌提供证据。鉴于我已经阐明了样本内比较和样本外泛化的区别,接下来便是两个需要注意的地方。首先,肯定会产生这样的问题:在上述英国男性医生的样本中成立的某一关系,在由英国女性医生、英国男性工人、德国女性工人或其他许多群体所构成的样本中,适用程度如何?这种问题很有趣,也很重要,但它们与从样本到总体的泛化程度的问题不同。例如,你可能会认为,在英国男性医生中发现的吸烟与癌症之间的关系在其他群体中可能也是类似的。但你的这一推断并非来自英国男性医生可被看作任何人群的随机样本;相反,它来自对吸烟和癌症之间的联系机制的理解。因此,从样本到抽取样本的目标总体的泛化基本上是一个统计问题,但有关在一个群体中所发现的规律到另一个群体的可移植性的问题则基本上不属于统计问题(PearlandBareinboim2014;Pearl2015)。就这一点而言,持怀疑态度的人可能会说,大多数的社会规律在不同群体间的可移植性可能都要低于吸烟和癌症之间关系的可移植性。这个观点我是同意的。那么我们应该期望这些规律具有多大的可移植性呢?这最终还是一个取决于理论和证据的科学问题。这些规律不应被自动假定为可移植的,但也不应被假定为不可移植的。你如果关注过围绕研究人员通过研究本科生能对人类行为有多少了解的争论(Sears1986,Henrich,Heine,andNorenzayan2010b),就会对这些有点抽象的关于可移植性的问题感到熟悉。然而,尽管有这些争论存在,你也不能说研究人员通过研究本科生了解不到任何东西。第二个需要注意的问题是,大多数拥有不具代表性数据的研究人员并不会像斯诺以及多尔和希尔那样细心研究数据。因此,我将通过安德拉尼克·图玛斯严(AndranikTumasjan)和同事针对2009年的德国联邦议会大选开展的研究,说明研究人员在利用不具代表性的数据进行样本外泛化时可能出现的错误。分析了10万多条推文后,图玛斯严和同事发现,提及某一政党的推文比例与该政党在议会选举中的得票比例是相匹配的(图2.2)。换句话说,基本免费的推特数据似乎可以取代传统的民意调查,传统的民意调查往往比较昂贵,因为它注重搜集的是代表性数据。考虑到你可能很了解推特,估计你会立即对这个结果表示怀疑。首先,2009年使用推特的德国人并不能算是德国选民的随机样本。其次,一些政党的支持者可能会比其他政党的支持者更经常地发表有关政治的推文。因此,当最终结果是所有你能想象到的偏差都莫名其妙地相互抵消了,而推特的数据竟能直接反映德国选民的意愿时,这似乎令人感到震惊。图玛斯严等人的研究发现令人难以置信。安德烈亚斯·容赫尔(AndreasJungherr)、帕斯卡尔·于尔根斯(PascalJürgens)以及哈拉尔德·舍恩(HaraldSchoen)在后续的一篇论文中指出,图玛斯严等人的分析并未包含在推特上出现率最高的政党:盗版党。这是一个反对政府监管网络的小党。如果将盗版党纳入分析范围的话,政党在推特上的出现率与最终的选举结果就大相径庭了。正如这个例子所示,使用不具代表性的大数据资源进行样本外泛化可能会产生很大的错误。此外还应注意的是,分析了10万多条推文这一事实基本上是无关紧要的,因为大量不具代表性的数据依然是不具代表性的,我在第3章谈论调查时将继续这一话题。图2.2政党在推特中的出现率似乎可以预测2009年德国大选的最终结果(Tumasjanetal.2010),但需将出现率最高的盗版党排除在外(Jungherr,Jürgens,andSchoen2012)。有关支持将盗版党排除在外的论点可参见Tumasjanetal.(2012)。上图改编自Tumasjanetal.(2010)的表4以及Jungherr,Jürgens,andSchoen(2012)的表2。综上所述,许多大数据资源都不是从明确的总体中抽取的具有代表性的样本。对那些需要将研究结果从样本泛化到抽取样本的目标总体上的研究来说,这无疑是一个严重的问题。但对需要进行样本内比较的研究来说,不具代表性的数据又可以是非常有效的,只要研究人员清楚他们的样本特征,并能为其研究结果的可移植性提供相应的理论或实验证据即可。事实上,我希望大数据资源能让研究人员在许多不具代表性的群体中进行更多的样本内比较,我的猜测是,与基于一个随机样本而得出的单一结论相比,基于多个不同群体所得出的多个结论更能促进社会研究的发展。2.3.7漂移用户漂移、行为漂移以及系统漂移使利用大数据资源研究长期趋势变得困难。许多大数据资源的一大优点是,它们搜集的是一段时间内的数据。社会科学家把这种一段时间内的数据称为纵向数据。这种数据对研究变化当然是非常重要的。但是,要想准确地测量变化,就必须保证测量系统的稳定性。引用社会学家奥蒂斯·达德利·邓肯(OtisDudleyDuncan)的话就是:“你如果想测量变化,就不要改变测量过程。”(Fischer2011)遗憾的是,许多大数据系统,尤其是商业系统,都处于持续变化中。我将这一过程称为“漂移”。具体而言,这些系统主要从三个方面发生变化:用户漂移(使用系统的人的变化)、行为漂移(人们使用系统的方式的变化)以及系统漂移(系统本身的变化)。这三种漂移意味着某一大数据资源中的模式既可能是由世界上的一个重要变化所引起的,也可能是由某种形式的漂移所引起的。第一种漂移是用户漂移,由使用系统的用户的变化所引起,这些变化既可能是短期内发生的也可能是长期内发生的。例如,在2012年美国总统大选期间,由女性所写的有关政治的推文,比例每天都在波动(Diazetal.2016)。因此,有时推特上推文的基调有所变化,实际上可能只是因为当时发推文的用户改变了而已。除了这些短期的波动以外,从长期来看,某些人群还呈现出选用或弃用推特的趋势。除了使用系统的用户发生变化以外,使用系统的方式也会变化,我称之为行为漂移。例如,在2013年土耳其的盖齐公园示威活动期间,随着示威的演变,示威者改变了对标签的使用。以下是泽奈普·图费克奇(ZeynepTufekci)对这一行为漂移的描述,她之所以会得出这些发现,是因为她当时在推特和现实中观察了人们的行为:事情的经过是,当示威变成热门话题时,很多人就停止使用旨在让人们关注某一新现象的标签了。随着示威的持续,甚至愈演愈烈,有关这一话题的标签就逐渐消失了。我采访人们,得出的两个原因是:首先,推特是限制推文字符数的,所以一旦每个人都知道某个话题了,标签就变得多余了;其次,标签被认为只有在吸引人们关注某一话题时有用,而对于讨论某一话题则没用。因此,这一行为漂移会让一些研究人员对当时所发生的事情形成扭曲的认识,他们通过分析为示威活动相关内容加标签的推文来研究这次活动。例如,他们可能会认为有关示威的讨论减少了,但实际上,很长一段时间之后,讨论才减少。第三种漂移是系统漂移。在这一情况下,是系统本身,而非用户或用户的行为发生了改变。例如,随着时间的推移,脸谱网增加了对状态更新的字数限制。这一系统变化影响了人们所发的状态,进而影响所有针对脸谱网状态更新的纵向研究。系统漂移与算法干扰紧密相连,我将在2.3.8小节中对算法干扰进行介绍。综上所述,许多大数据资源都存在漂移现象,因为使用它们的用户在变,使用方式在变,系统本身也在变。这些变化有时能成为非常有趣的研究问题,但也让使用大数据资源追踪长期变化变得更加复杂。2.3.8算法干扰大数据系统中的行为不是自然发生的,而是在系统设计目标的驱使下发生的。尽管许多大数据资源是不反应的,因为用户不知道他们的数据正在被记录(2.3.3小节),但研究人员也不能因此就认为这些在线系统中的行为是“自然发生的”。事实上,记录行为的数字系统都是经过精心设计的,目的是诱导特定行为,例如点击广告或发布一些内容。系统设计者的目标能将模式引入数据,这被称为算法干扰。社会科学家相对而言不太了解算法干扰这个概念,但谨慎的数据科学家很关注这一问题。而且,与用数字追踪其他一些问题不同的是,算法干扰在很大程度上是不可见的。一个相对简单的算法干扰的例子是,在脸谱网上,拥有约20个好友的用户异常多,正如约翰·乌甘德(JohanUgander)和同事在2011年所发现的一样。分析这一数据的科学家如果对脸谱网的工作原理一无所知,无疑会提出许多有关“‘20’是某种神奇的社交数字”的说法。幸运的是,乌甘德和同事对产生这一数据的过程十分了解,他们知道脸谱网会鼓励那些好友较少的用户多交朋友,直到他们有20个好友为止。尽管乌甘德和同事在其研究论文中没有提及这一点,但这一政策应该是脸谱网为鼓励新用户变得更加活跃而创建的。如果不知道这一政策的存在,就很容易从数据中得出错误的结论。换句话说,拥有约20个好友的用户的数量异常多,但这一数据告诉我们的更多的是关于脸谱网的信息,而不是关于人类行为的信息。在上述例子中,算法干扰产生了一个奇怪的结果,一个细心的研究人员可能会发现并进一步研究这一结果。然而,当在线系统的设计者意识到社会理论的存在并将其录入系统的运行方式中时,就会产生更为复杂的算法干扰。社会科学家称之为述行性,即当一个理论以使世界与理论更为符合为目的改变着世界时,我们就说该理论具有述行性。当系统存在述行性算法干扰时,数据的干扰性可能是不可见的。在线社交网络中的可迁性是一种由述行性引发的规律。在20世纪七八十年代,研究人员屡次发现,随机选择的名为艾丽斯和鲍勃的两个人,如果他们同时是你的朋友,那么这两个人将更容易成为朋友。研究人员在脸谱网的社交图中也发现了这一规律(Uganderetal.2011)。因此,有人可能会得出这样的结论:脸谱网上的交友模式复制了线下的交友模式,至少就可迁性而言是这样的。然而,脸谱网社交图中可迁性的强弱部分上是由算法干扰驱动的。也就是说,脸谱网的数据科学家了解有关可迁性的实验研究和理论研究,并将其融入脸谱网的运行程序中。脸谱网有一项功能是“可能认识的人”,旨在向用户推荐新的朋友,而决定向你推荐谁的一个依据就是可迁性。也就是说,脸谱网更有可能将你朋友的朋友推荐给你。因此,这一功能还会增加脸谱网社交图中的可迁性。换句话说,可迁性的理论让世界变得更加符合这一理论的预测(Zignanietal.2014;Healy2015)。因此,当大数据资源似乎印证了社会理论的预测时,我们必须确保理论本身并没有被纳入系统的运作方式。有人将通过大数据资源观察人们比作在自然环境中观察他们,但我认为将其比作在赌场中观察人们会更贴切。赌场是经过精心设计的场所,旨在诱导特定的行为,研究人员肯定也不会期望在赌场中观察到的行为能为他们研究人类行为提供一个不受限制的窗口。当然,通过研究赌场中的人,你也能了解到一些关于人类行为的知识,但如果你忽略了数据是在赌场中生成的,你就可能无法得出正确的结论。不幸的是,处理算法干扰是非常困难的,因为许多在线系统的功能都是专有的,缺乏文档记录,且不断变化。例如,正如我在本章后续内容中将解释的那样,算法干扰可能是导致谷歌流感趋势(GoogleFluTrends)逐渐失灵的原因之一(2.4.2小节),但这一说法很难得到验证,因为谷歌搜索算法的内部工作原理是专有的。具有动态属性的算法干扰也是一种系统漂移。算法干扰意味着,我们要对基于某个单一数字系统得出的有关人类行为的任何说法都持谨慎态度,无论这个数字系统的规模有多大。2.3.9脏数据大数据中含有许多垃圾和重复数据。许多研究人员认为大数据资源,尤其是在线资源,都是洁净的,因为这些数据都是自动搜集的。事实上,那些与大数据资源打交道的人都知道,在大多数情况下,这些资源都含有脏数据。也就是说,它们经常包含研究人员不感兴趣的数据。大多数社会科学家已经熟悉了清理大规模社会调查数据的过程,但清理大数据资源似乎更加困难。我认为造成这一困难的最终原因是,许多大数据资源从来都不是为了用于研究而存在的,因此其数据也没有以方便清理的方式被搜集、存储和记录。我在本章前面章节中简要提及的米蒂亚·巴克(MitjaBack)和同事关于人们对2001年9月11日恐怖袭击事件的情绪反应的研究,可以证明脏数据的危险性。研究人员一般会用通过数月甚至数年搜集而来的回顾性数据研究人们对悲惨事件的反应。但巴克和同事发现了一个不间断运行的记录数字痕迹的资源——标有时间的、自动记录的85000个美国传呼机的信息,这使他们能研究更小时间单位内的情绪反应。他们根据与(1)悲伤(例如“哭泣”和“悲痛”),(2)焦虑(例如“担忧”和“恐惧”)以及(3)愤怒(例如“憎恨”和“批评”)相关词汇的出现比例对传呼机信息中的情绪内容进行了编码,进而制作了一个以分钟为单位的2001年9月11日的情绪时间表。他们发现,与悲伤和焦虑相关词汇的出现比例全天都在波动,但没有一个明显的模式,与愤怒相关词汇的出现比例在一天中却有明显的增加。这一研究似乎完美地诠释了不间断运行的大数据资源的优势,如果使用传统的数据资源,就不可能获得如此高分辨率的突发事件即时情绪反应时间表。然而,仅仅一年之后,辛西娅·普利(CynthiaPury)更仔细地研究数据后发现,大量原来被认为包含与愤怒相关词汇的信息都是由一个传呼机产生的,而且内容也完全相同。以下就是这些信息的内容:“重启在【位置】柜【名称】内的NT机【名称】,CRITICAL(情况危急),【日期和时间】。”这些信息被认为与愤怒相关,因为其包含了“CRITICAL”这一单词,而该单词一般来说具有愤怒地批评之意,但它在上面这句话中不是此意。将这一自动传呼机产生的信息删除之后,愤怒情绪就没有原来那么明显的上涨趋势了(图2.3)。换句话说,米蒂亚·巴克、阿尔布雷希特·屈夫纳(AlbrechtKüfner)以及鲍里斯·埃格洛夫(BorisEgloff)的主要发现其实是一个传呼机的“杰作”。正如这个例子所示,对相对复杂和凌乱的数据进行相对简单的分析,就很有可能出现严重的错误。图2.3基于85000个美国传呼机而估算出的2001年9月11日当天愤怒情绪的趋势(Back,Küfner,andEgloff2010;Pury2011;Back,Küfner,andEgloff2011)。起初,三位研究人员称,从全天来看,愤怒情绪呈现出不断上涨的模式。然而,这些表面看起来包含愤怒情绪的信息大多是由一个自动传呼机产生的。将这一信息移除后,愤怒情绪的上涨趋势便不那么明显了(Pury2011;Back,Küfner,andEgloff2011)。改编自Pury(2011),图1b。上述自动传呼机所产生的重启信息并不是有意创建的脏数据,就这样的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论