数据时代的社会研究(计算社会学)_第1页
数据时代的社会研究(计算社会学)_第2页
数据时代的社会研究(计算社会学)_第3页
数据时代的社会研究(计算社会学)_第4页
数据时代的社会研究(计算社会学)_第5页
已阅读5页,还剩237页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章简介1.1一处墨迹1.3研究设计1.4本书的主题1.5本书梗概第2章观察行为2.1简介2.2大数据2.3大数据的10个共同特征2.4研究策略2.5结论第3章提问3.1简介3.2提问与观察3.4向谁提问3.5提问的新方法3.7结论第4章开展实验4.1简介4.6建议4.7结论第5章进行大规模协作5.1简介5.2人本计算5.3公开征集5.6结论第6章道德伦理6.1简介6.2三个事例6.4四项原则6.6困难面6.7实用技巧6.8结论第7章未来7.2未来主题7.3回到开始第1章简介1.1一处墨迹成对财富与贫困的研究,这个数据库中有150万名客户。布卢门和同事还拥有这150万人的完整通话记录。他们将这两部分数据结这个模型评估数据库中150万名客户的财富状况,还利用通话记录150万名客户的居住位置。最后他们将所有这些信息——估算的财富状况以个街区(该国的最小行政单位)中每一个街区的财富状况。调查的方法快了差不多10倍,成本为后者的1/50左右。这些明显更快、更节省成本的预测东西现在变成智能的了。也许你曾经用的是带胶数据”。在数字数据爆炸式增长的同时,有条件使用计算机的人的数量也在不断增加(图0普及程度在不断增加。从20世纪80年代开始,每10年就会有一种新型的计算机诞生:个人计算机、笔记本电脑、智能手机以及现在“物联网”中的嵌入式处理们的交流途径也曾有过其他一些重大的进步,例如电报(Gleick2011),而且自20世纪60怀疑论者所忽略的是,在某种程度上,多个相同的东西合起来会变成一个不同的东西所有东西都应该被摒弃。正如摄影的原理会影响拍电影的原理一样,那展起来的社会研究理论也会对未来100年的社会研究产生影响。1.3研究设计究设计就是“结缔组织”,它能将问题和答案联系起来。而建立正确的联系是设计出令人信服的研究的关键。本书将重点介绍4种方法1.4本书的主题本书的两个主题分别是:(1)将现成品和定制物结合起来;(2)道德伦理。意到。第一个主题可以通过对比马塞尔·杜尚(MarcelDuchamp)和米开朗琪罗(Michelangelo)这两位伟人来阐述。杜尚主要是因为他的现成品艺术作品(例如《泉》)品,而是一个非现成品艺术作品(图1.2)。也是最重要的,我希望这本书能告诉你将这两种数据结合起来使用的价值。例如,乔舒成数据)用于不同的用途,同时又创建了自己的调查数据(一个非现成数据)。在整本书中,现成品艺术作品非现成品艺术作品(JörgBittnerUnna)摄于2008年(来源:Galleriadell'Accademia,Florence/WikimediaCommons)。研究人员(经常与公司和政府合作)对实验参与者的生活拥有越来越强的控制力。我所说的能帮助你们发现新机会(需要冒险的机会)。最后,同时也是最重要的,我希望这本书能帮1.5本书梗概本书主要围绕4种广泛的研究方法展开:观这4种方法在50年前就都被以某些形式采用了,我相信,在从现在起的50年里,它们仍将在第2章(观察行为)中,我将阐述研究人员通过观察人们的行为能了解到什么以及如何通在第3章(提问)中,我首先将介绍,当研究人员不局限于以前的大数据时能够了解到什么。在第4章(开展实验)中,我首先将介绍,当研究人员不局限于观察行为和提问时能够了解在第5章(进行大规模协作)中,我将介绍研究人员怎样才能进行诸如众包和公众科学这样在第6章(道德伦理)中,我将论述的观点是:研究人员对参与者的控制力正在迅速增强,基于原则的方法。也就是说,研究人员应该根据现有的规则条例(如果有的话)以及更普遍最后,在第7章(未来)中,我将回顾贯穿全书的主题,然后通过它们预测未来重要的主题。第2章观察行为2.1简介在获取数据的过程中不涉及与人交谈(例如第3章的主题——提问)或改变人们所处环境(例如第4章的主题——实验)的数据。因此,除了商家和政府所拥有的数字记录外,观察本章包含三个部分。首先,在2.2节中,我将更详细地介绍大数据研究通常采用的数据的根本区别。紧接着,在2.3节中,我将介绍大数的新资源。最后,在2.4节中,我将介绍三个主要的研究策略:计数、预测和近似实验。你2.2大数据含了3个“V”:Volume(大量)、Variety(多样)、Velocity(高速)。粗略地说,大数语,例如Veracity(真实性)和Value(价值),而批评者则增加了诸如Vague(模糊)和Vacuous(空洞)这样的词语。但就社会研究这一目的来说,我认为相比于上述几个“V”,么时间)以及Why(为什么)。事实上,我认为大数据资源带来的许多挑战和机会都源于最而将其用于研究。回想一下第1章中的艺术类比,就像杜尚通过对挑战。就以社交媒体(例如推特)以及传统的民意调查(例如综合社会调查)为例。推特的主要目的是通过为用户提供某种服务来获取利润,而综合社会调查则主要是为社会研究(尤其是民意调查)搜集通用数据。尽管这两种数据都可被用来研究民民在一个小时内的情绪状态(例如GolderandMacy2011),那么推特将是最好的选择。但如果你想了解美国民众态度两级分化的长期变化(例如DiMaggio,Evans,andBryson1996),那么综合社会调查将是最好的选择。总的来说,这一章将试图阐明大数据资源更适记录,包括税收记录、学校记录以及重要的统计记录(例如出生和死亡登记)等。政府一直 在更具体地讨论大数据资源的属性(2.3节)以及如何在研究中使用这些资源(2.4节)之前,也是本章剩余部分所要探讨的。在2.3节中,我将介绍大数2.3大数据的10个共同特征有帮助的。因此,我将介绍大数据资源的10个一般性特征,而不是采用一种平台化的方法·通常情况下不利于研究的:不完整性、难以获取、不具代表性、漂移、算法干扰、脏数2.3.1海量性大数据资源最被广为讨论的特征就是其数据量是“海量的”。时是吹嘘)其分析了多少数据作为开篇。例如在《科学》(Science)杂志上发表的一篇研究谷歌图书(GoogleBooks)语我们的语料库包含了超过5000亿个单词,有英语(3610亿)、法语(450亿)、西班牙语(450亿)、德语(370亿)、汉语(130亿)、俄语(350亿)以及希伯来语(20亿),最几十万。到1800年,语料库每年的单词量增加到9800万;到1900年,达到18亿;2000年则达到110亿。语料库中的内容一个人是无法读完的。就算只阅读2000年的英语词条,以每分钟200个单词的合理速度计算,即便一个人不吃不睡也将需要和月球之间往返10次。据。(事实上,本书末尾的一些“活动”就利用了这一数据。)但是,每当看到类似的数据时,你都应该提出这样的问题:这些数据真的有用吗?如果数据的长度只够从地球到月球往返一次,那么人们还能做同样的实验吗?如果数据的长度只能到达珠穆朗玛峰的顶部或者埃会把大数据资源的规模大小当作一种目的,旨在告诉别人“看我能处流动的研究(2014)。在过去,许多研究人员通过对比父母和孩子的人生成就来研究社会流度也是不同的(HoutandDiPrete2006)。最近,切蒂和同事利用4000万人的缴税记录对个小孩来自收入水平最低的家庭(共分为5个等级),那么他成为全国收入水平最高的1/5人口的概率约为13%,而在北卡罗来纳州的夏洛特,这一概率仅为4%。你可能会有这样的疑问,为什么有些地方的代际流动要高于其他地方呢?切蒂和同事也有同样的疑问,而且他们使用的是4万人而不是4000万人的缴税记录,就无法对区域异质性的水平进行估算,也完全这样细微的差异可能就不是特别重要了,即便它们具有重要的统计学意义(Prenticeand2.3.2持续性典型研究中的数据集布达克和瓦茨的事后纵向数据(2015)前(2012年1月1间(2013年5月28后(2013年8月1日—2013年5月28日日—2013年8月1日)日—2014年1月1日)怀疑论者可能会指出,即便没有不间断的数据采集资源,上述某些评估(例如长期内的态度变化)也是可以进行的。这一观点是正确的,尽管搜集30000人的数据成本相当高昂,但只要有足够的预算,这一问题便能解决。然而我想不出有什么办法能让研究人员穿梭到过去,直接观察参与者在过去的行为。最接近的办法可能是搜集有关参与者行为的回顾性报告,但这些报告的粒度是有限的,准确度也不高。表2.1列出了一些利用持续运行的大数据系统进除了研究突发事件以外,持续运行的大数据系统还能让研究人员进行实时评估。对政府或各行业的决策者来说,当他们想要依据态势感知确定应对措施时,这一点就会变得很重要。例如,利用社交媒体数据指导对自然灾害的应急响应(Castillo2016),利用各种不同的大数据资源对经济活动进行实时评估(ChoiandVarian2012)。综上所述,持续运行的大数据系统能让研究人员对突发事件进行研究,也能为决策者提供实时信息。但如果要追踪很长一段时间内的变化,我认为这些系统就不适用了。因为很多大数据系统是不断变化的,我把这一过程称为漂移,并将在后面的2.3.7小节中具体介绍。土耳其盖齐公园示威活动纽约市警察遭枪击事件拦截盘查报告Magdy,Darwish,andWe传呼机信息Back,Küfner,andEglo(2010),Pury(2011),Back,2.3.3不反应性大数据资源中的测量对象不太可能改变行为。们会比在现场研究中表现得更慷慨,因为在实验室中,他们非常清楚自己正在被观察 -达维多维茨(Stephens-Davidowitz)就利用这一点衡量了美国不同地区的种族敌意。搜索数据的不反应性和海量性这两个属性使很多通过其他方法(例如调查)难以进行的测量成为问的研究中,一位受访者说:“我并不是没有问题,只是没有把它们发在脸谱网上而已。”不知情的情况下追踪其行为的做法,也会带来一些道德伦理2.3.4不完整性力呢?霍华德·加德纳(HowardGardner)曾提出,智力实际上有8种不同的形式。那有没有能够精确测量这些智力的程序呢?尽管心理学家在这方面做了大研究结果构念效度的快速且有效的方法。例如,假设有两个旨在证明“越聪明的人挣钱越多”无论第二个研究是基于100万条推文,1000万条推文,还是1万亿条推文,我们对其结果都应持怀疑态度。对不熟悉构念效度的研究人员来说,可以参阅表2.2表2.2使用数字痕迹测量理论构念的实例一所大学的邮件日志(仅元数据)社会关系一个公司的邮件日志(元数据及全文)一个组织中的文化契合度决方案是实际搜集自己所需的数据,在第3章谈到多个数据资源。这一过程被称为记录链接。我最喜欢的有关这一过程的比喻说法出自艾伯但其实它所记录的要远超过这些,因此,如果将这些不同的书页(即我们的数字痕迹)整合来说是非常好的资源。但正如我在第6章中将描述的那样,它也可以被用于各种不道德的用2.3.5难以获取2014年5月,美国国家安全局在犹他州的一个小镇开设了一个名字很长的数据中心——情报据资源是研究人员难以获取的。更普遍地讲,许多有用的大数据资源都被政府(例如税收数据和教育数据)和公司(例如搜索引擎记录和通话记录元数据)控制和限制。因此,尽管这公众的反应会如何?类似这样的数据外泄,如果严重的话,甚至可能威胁到公司的生存。因的故事。2006年,时任AOL(美国在线)研究主管的乔杜里,有意向研究人员公布他认为是在本章后面部分介绍,而我现在提及它是因为它具备我在成功的伙伴作最终以失败告终,其原因就是研究人员或其合作对象(公司或政府)不具备上述某一要素。2.3.6不具代表性一些社会科学家习惯于处理从明确的总体(例如某个国家的所有成年人)中抽取的随机样本让我们通过一个经典的科学研究,即约翰·斯诺(JohnSnow)对1853—1854年伦敦霍乱暴比了由两家不同的公司——兰姆博斯(Lambeth)以及萨瑟克-沃克斯霍尔(Southwark&Vauxhall),供水的家庭的霍乱发病情开始的前几年,从伦敦的主要污水排放处向上游移动了它的进水亡率时发现,饮用由萨瑟克-沃克斯霍尔提供的被排泄物污染的癌症方面发挥了重要的作用。在这项研究中,理查德·多尔(RichardDoll)和布拉德福德·希尔(A.BradfordHill)对约25000名男性医生进行了多年的追踪,并根据研究开始时他们吸烟的数量比较其晚年的健康状况。多尔和希尔发现了一个很强的“暴露-反应关系”:抽烟越多的人,死于肺癌的可能性就越大。当然,英国男性工人、德国女性工人或其他许多群体所构成的样本中,适用程度如何?这种问题很关在一个群体中所发现的规律到另一个群体的可移植性的问题则基本上不属于统计问题(PearlandBareinboim2014律具有多大的可移植性呢?这最终还是一个取决于理论和证据的科学问题。这些规律不应被本科生能对人类行为有多少了解的争论(Sears1986,Henrich,Heine,andNorenzayan党的推文比例与该政党在议会选举中的得票比例是相匹配的(图2.2)。换句话说,基本免左翼党,基社盟综上所述,许多大数据资源都不是从明确的总体中抽取的具有代表性的样本。对那些需要将研究结果从样本泛化到抽取样本的目标总体上的研究来说,这无疑是一个严重的问题。但对需要进行样本内比较的研究来说,不具代表性的数据又可以是非常有效的,只要研究人员清楚他们的样本特征,并能为其研究结果的可移植性提供相应的理论或实验证据即可。事实上,我希望大数据资源能让研究人员在许多不具代表性的群体中进行更多的样本内比较,我的猜测是,与基于一个随机样本而得出的单一结论相比,基于多个不同群体所得出的多个结论更2.3.7漂移用户漂移、行为漂移以及系统漂移使利用大数据资源研究长期趋势变得困难。许多大数据资源的一大优点是,它们搜集的是一段时间内的数据。社会科学家把这种一段时间内的数据称为纵向数据。这种数据对研究变化当然是非常重要的。但是,要想准确地测量变化,就必须保证测量系统的稳定性。引用社会学家奥蒂斯·达德利·邓肯(OtisDudleyDuncan)的话就是:“你如果想测量变化,就不要改变测量过程。”(Fischer2011)移”。具体而言,这些系统主要从三个方面发生变化:用户漂移(使用系统的人的变化)、行为漂移(人们使用系统的方式的变化)以及系统漂移(系统本身的变化)。这三种漂移意2.3.8算法干扰尽管许多大数据资源是不反应的,因为用户不知道他们的数据正在被记录(2.3.3小节),一个相对简单的算法干扰的例子是,在脸谱网上,拥有约20个好友的用户异常多,正如约翰·乌甘德(JohanUgander)和同事在2行程序中。脸谱网有一项功能是“可能认识的人”,旨在向用户推荐新的朋友,而决定向你流感趋势(GoogleFluTrends)逐渐失灵的原因之一(2.4.2小节),但这一说法很难得到2.3.9脏数据我在本章前面章节中简要提及的米蒂亚·巴克(MitjaBack)和同事关于人们对2001年9月这使他们能研究更小时间单位内的情绪反应。他们根据与(1)悲伤(例如“哭泣”和“悲痛”),(2)焦虑(例如“担忧”和“恐惧”)以及(3)愤怒(例如“憎恨”和“批评”)的2001年9月11日的情绪时间表。他们发现,与悲伤和焦虑相关词汇的出现比例全天都在急),【日期和时间】。”愤怒情绪就没有原来那么明显的上涨趋势了(图2.3)。换句话说,米蒂亚·巴克、阿尔布每条信息中与愤怒相关词汇的数量每条信息中与愤怒相关词汇的数量★不包括一个自动传呼机的重启信息H06:0008:0010:0012:0014:0016:0018:0020:0022:0000:00(时间)Pury2011;Back,Kofner,andEgloff2011)上述自动传呼机所产生的重启信息并不是有意创建的脏数据,就这样的数据而言,比较细心的研究人员还是可以发现的。但还有一些在线系统吸引的是有意的垃圾数据发送者。这些人会积极制造脏数据,而且努力保证其脏数据的隐蔽性。(通常是在利益的驱使下。)例如,为了让某些政治目的看起来比实际更受欢迎,推特上的政治活动至少会给用户推送一些适度的宣传广告(Ratkiewiczetal.2011)。不幸的是,要想移除这些有意制造的脏数据却可2.3.10敏感性要研究,但如果将其公之于众,就可能导致情感伤害(例如尴尬)或经济伤害(例如失业)。不幸的是,事实证明,想确定哪些信息属于敏感信息是非常棘手的(Ohm2015),网飞奖(NetflixPrize)就是一个例子。2006年,网飞(Netflix)公开了近50万会员的一亿条了姓名等所有明显的个人信息。但仅在数据公开两周后,阿尔温德·纳拉亚南(Arvind息的技巧,这个技巧我将在第6章进行介绍。取向的女同性恋者加入了针对网飞的集体诉讼。以下是这起诉讼中对这一问题的表述个人兴趣和/或所面临的各种高度个人化的困扰(包括性、精神疾病、酗酒康复),以及乱伦、被认为是侵犯隐私一样,在未经当事人同意的情况下搜集敏感数据(是何其之难)也可能引发隐私问题。我将在第6章再回到这一话题。1.构念(Constructs)是对某一学科研究领域内的模糊(抽象)要素进行概括或概念化的途径,是旨在探究研究对2.4研究策略考虑到大数据资源的上述10个特征,以及即便是完美的观测数据也存在的固有局限性,我认为以下三个主要策略能让我们从大数据资源中获取有用的信息:计数、预测和近似实验。这些策略可以被称作“研究策略”或“研究秘诀”,我将对每种策略进行描述,并通过举例来阐明这些策略。这些策略并不相互矛盾,也并非详尽全面的。2.4.1计数如果你能将好的问题和好的数据结合起来,那么简单的计数也会变得有趣。虽然表述社会研究的语言听起来很复杂,但许多社会研究实际上就是计数而已。在大数据时代,研究人员所能统计的数字要比以往任何时候都多,但这并不意味着他们就可以随意计数。相反,研究人员应该考虑这样的问题:哪些事情是值得计数的?这似乎是一个完全主观的问题,但其实也有一些规律。“我要对别人从未统计过其数量的东西进行计数”,这经常会成为学生们进行计数研究的出发点。例如,一个学生可能会说,许多人研究过移民,也有许多人研究过双胞胎,但没有人研究过双胞胎移民。我将这种策略称作由缺位引起的动机。但根据我的经验,这一动机通常相比于将别人未计数过的事情作为研究对象,我认为更好的策略是寻找重要的或有趣的问题(或两者兼备的理想情况)进行研究。重要和有趣这两个术语都有点难以界定,但判断研究重要性的一个方法是看它是否对决策者的重要决定有显著影响或是否能为其提供可观的信息。例如,统计失业率就是重要的,因为它是推动政策制定的一项重要经济指标。一般来说,我认为研究人员对什么是重要的都有着很好的认识。因此,在本节剩余部分,我将举两个我认为其计数符合有趣这一标准的事例。在每个例子中,研究人员都不是在随意地进行计数;相反,他们是在特定的背景下进行计数的,并且提出了关于“社会系统如何运作”这种更加普遍的问题的重要见解。换句话说,这些特定的计数研究之所以有趣,在很大程度上是因为这些更加普遍的问题,而不是因为数据本身。其中一个能体现计数作用的事例是亨利·法伯(HenryFarber)在2015年对纽约市出租车司机行为的研究。尽管出租车司机这一群体本身听起来可能不是很有趣,但他们是测试劳动经济学中的两个对立理论的合适群体。出租车司机的工作环境中有两个重要的特征有助于实现法伯的研究目的,它们分别是:(1)出租车司机的小时收入每天都会波动,这部分程度上是由于天气等因素;(2)他们每天工作的小时数也会因其个人决定而波动。这些特征引出了一个有趣的问题,即小时收入与工作小时数之间的关系问题。根据经济学中的新古典主义模型,出租车司机的小时收入高时,其一天的工作小时数也会更高。而根据行为经济学中的模型,则得到恰恰相反的结论:如果司机设定一个特定的收入目标,比如每天100美元,然后达到目标就结束工作,那么当他们的小时收入较高时,其一天的工作小时数会相应地较低。也就是说,如果你是这样的司机,那么当收入好的时候(每小时25美元),你可能一天就工作4个小时,而当收入不好的时候(每小时20美元),你则一天工作5个小时。那么,出租车司机究竟是在小时收入较高时工作更长时间(符合新古典主义模型),还是在小时收入较低时工作更长时间(符合行为经济学模型)?为了回答这一问题,法伯拿到了从2009年到2013年纽约市出租车每趟行程的数据,这些数及小费(仅限用信用卡支付的小费)。根据这些电子计量器搜集来的数据,法伯发现,大多量器搜集的数据基本上就是法伯想要的数据。(有一个区别就是,法伯想要的是包括车费和2.4.2预测和临近预测此,预测并不是目前社会研究的重要组成部分(尽管它是人口学、经济学、流行病学和政治学的一个小却重要的组成部分)。但在这里,我想集中介绍的是一种特殊的预测——临近预测(nowcasting),这个术语来源于“现在”和“预测”的结合。与预测未来不同的是,临近预测试图利用预测出的观点了解世界的现状:它试图“预测现在”(ChoiandVarian病毒。例如,1918年的流感暴发估计造成了5000万~1亿人死亡(MorensandFauci2007)。美国疾病控制与预防中心的职员)想到了一个重要而聪明的方法现这个模型的确可以进行准确的、有用的临近预测(图2.4)。这些结果被发表在了《自然》周周周54543一谷歌流感趋势的数据一美国疾病控制与预防中心的数据2040424446485052周数据进行线性外插法的简单模型相比,谷歌流感趋势的表现并没有好很多(Goeletal.2010)。而且在某些时间段,谷歌流感趋势实际上还不如上述简单模型(Lazeretal.2014)。换句话说,拥有大量数据、机器学习和强大计算能力的谷歌流感趋势,其表现并没的表现开始逐渐衰退。而找出这一衰退的原因很困难,因为谷歌的搜索算法是专有的,在的搜索词(现在不会了)。作为一个搜索引擎的运营商,增加这一功能是完全合理的,但这2.4.3近似实验有的差别所致呢?这是一个难题,而且它不验中,研究人员随机研究某些人,而不研究其他人。我将用整个第4章来介绍实验,所以在(或几乎随机)研究某些人而不研究另一些人的事情。第二个策略是对非实验数据进行统计而不研究另一些人。这样的情况被称作自然实验。最能说明自然实验的例子是1990年乔舒张纸条上,然后每次抽一张来决定征召这些适龄男性的顺序(适龄女性不在征兵范围内)。根据抽签结果,9月14日出生的男性为第一批被征召参战的,4月24日出生的则为第二批,以此类推。最终,在这次抽签征兵中,有195个不同的日期被选中了,而其余171个日期未Administration)的系统,该系统搜集了几乎所有美国人的就业收入信息。通随机(或似乎是随机的)变化+不间断运行系统的数据=自然实验图2.51969年12月1日,国会议员亚历山大·皮尔尼(AlexanderPirnie)正在进行义务兵役征兵的第一次抽签。乔实质性的研究课题自然实验的来源不间断运行的数据系统同侪效应对生产力水平的影响工作时间的安排结账数据友谊的建立飓风脸谱网情绪的蔓延下雨脸谱网点对点货币转移地震移动支付数据个人消费行为美国政府关门个人财务数据推荐系统的经济影响多种来源亚马逊浏览数据压力对未出生婴儿的影响2006年以色列对黎巴嫩真主党之战出生记录实质性的研究课题自然实验的来源不间断运行的数据系统维基百科上的阅读行为斯诺登的多次揭秘维基百科的日志同侪效应对运动锻炼的影响天气是每个被征召的人都会入伍(有各种各样的豁免),而且也不是所有服兵役的人都是应征入伍的(人们也可以志愿入伍)。因为被征召的对象是随机的,所以研究人员可以评估被征召其对“依从者”(被征召时就会去服兵役,不被征召就不去的男性)这一特定群体的影响天真的方法,而考虑开展一个实地实验,即在特定的条件的方法的主要诀窍是从易贝上已经发生的事中找到与实地实验相似的事情。图31条拍卖信息彼此略有不同,例如不同的起拍价、截止日期或运费。换句话说“budgetgolfer”正在为研究人员做实验一样。合并在成千上万的匹配集内进行比较的结果,埃纳维和同事用每个均成交价)对其起拍价和成交价进行了重新表述。例如,如果上述球杆的参考价是100美元(根据其售价),那么10美元的起拍价就会被表述为0.1,120美元的成交价就被表述为 SarthrmvlshraromsAotWiswa国日目jtatn5onnTAYLORMADEBU附研09DRMER2009.00UFau8NEW105FH1TAYLORMADEBUME09DRMER2009.000FauONEW1051IAYLQFMADEBMER0的9D8MR200900EQueN.IAYLOFMADEBURMNER09DRMEIAYLOFMADEBURNER09DRMR200900Choosemore-TAYLOFMADEBU职09DRMER20090TAYLORMADEBLRNER09DRMER/290471001772=Go_Obshgsh=tem43系是非线性的(图2.7)。尤其是在0.05~0.85之间的起拍价,其对成交价的影响是很小的,但他们最初的分析完全没发现这一点。此外,与评估所有产品起拍价的平均影响不同,埃纳维和同事分别评估了23种不同类别商品(例如宠物用品、电子产品和运动类纪念品)起拍价—10美元--100~1000美元起拍价对成交价的影响起拍价对成交价的影响图2.8研究人员分别针对每类商品进行的评估。实心圆点是将所有类2015)。这些评估表明,对于更具特色的商品,例如运动类纪念品,其起拍价对成交可能性的影响(x轴)较小,对成交价的影响(y轴)则较大。改编自Einavetal.(2015),图8。不同类别的商品汇集在一起而进行的简单因果推断,图2.7和图2.8让我们对易贝有了更丰这4个特征作为精确匹配的条件。如果商品在上述4个特征以外存在差异,就会导致对比的不公平性。例如,如果“budgetgolfer”在冬季(高尔夫球杆的销售淡季)降低了球杆的起种不同的匹配。例如,埃纳维和同事分别以不同的时间为条件对拍卖信息进行了匹配(即分别创建了包含一年内、一个月内以及同期内出售的商品的匹配集),并对所有匹配集进行了例如当(1)影响的异质性不容忽视;(2)已经测量了匹配所需的重要变量时,在大量数据中进行匹配可能比开展少量的实地实验要有效。表2.4是一些有关如何将匹配 (例如匹配)等方法。尽管这些方法在某些情况下会出现严重的错误,但只要谨慎运用,还是有助于解决一些我将在第4章介绍的实验方法无法解决的问题的。此外,不间断运行的大表2.4利用匹配从大数据资源中找出合适的比较对象的研究实例的影响拦截盘查记录投票记录和捐赠记录社会感染沟通和产品使用数据2.5结论今天的大数据资源往往具有以下10个特征,未来的大数据资源也可能通常是(但并不总是)有助于研究的:海量性、持续性以及不反应性。而其余7个则通常是(但并不总是)不利于研究的:不完整性、难以获取、不具代表性、漂移、算法干扰、脏数如何通过调整数据采集的方法,通过提问(第3章)、开展实验(第4章),甚至直接选择一部分人参与研究过程(第5章)这些与人们更直接的互动了解更多不同的东西。今天我们所认可的调查研究起源于20世纪30年代。在调查研究的第一个时代,研究人员会随机选取地理区域(如城市街区),然后前往这些地区,与随机选取的住户进行面对面的交如,由于各种技术和社会原因,多年来无回答率(即样本中未参与调查的受访者的比例)一查以及使用大数据资源进行调查,将成为调查研究第三个时代的特征(表3.1)。表3.1调查研究的三个时代区域概率抽样面对面调查单独调查随机拨号概率抽样电话调查单独调查非概率抽样计算机管理的调查使用大数据资源进行调查查的价值(3.2节)。鉴于这一点,我将总结在调查研究的前两个时代发展起来的调查误差总框架(3.3节)。该框架能让我们了解有关代表性的新方法,尤其是非概率样本(3.4节)以及测量的新方法,特别是向受访者提问的新方法(3.5节)。最后,我将描述两个将调查数据和大数据资源结合起来的研究模板(3.6节)。3.2提问与观察鉴于我们越来越多的行为被大数据资源(例如政府和企业搜集的行政数据)所获取数据的一种方法,主要原因有两个。首先,正如我在第莫伊拉·伯克(MoiraBurke)和罗伯特·克劳特(RobertKraut)在2014年的研究可以说要把人们通过脸谱网沟通所产生的影响与通过其他渠道(例如邮件、电话和面对面)沟通所3.3调查误差总框架估计值(例如对一所学校学生平均身高的估计值)与目标总体的实际值(例如该学校学生平2010)。虽然这个框架的创建工作始于20世纪40年代,但我认为它为我们提供了两个关于方差是随机误差。换句话说,假设我们将同一个抽样调查重复做了1000遍,然后共得出了1000个估计值,那么偏差就是这1000个估计值的平均值与真实值之间的差异,而方差就是能接近真实的评估(即误差尽可能小),那么偏差和方差均低的过程可能要比无偏差但方差很高的过程更好(图3.1)。换句话说,调查误差总框架表明,在评估调查研究过程时,偏两个来源分别是:与谈话对象是谁相关的问题(代表性)、与你从这些对话中了解到什么相关的问题(测量)。例如,你可能想了解在法国生活的成年人对网络隐私的态度,这就需要你进行两种不同的推断。第一,你必须根据是一个测量的问题)。第二,你必须根据推断出的受访者的态度来推断目标总体的态度(这是一个代表性的问题)。如果调查问题没设计好,那么即便抽样过程无可挑剔,你也无法得高方差我们可以通过《文学文摘》一项旨在预测1936年美国总统选举结果的民意调查(简称“民调”),了解从受访者到更大的目标总体的推断过程中,可能出现的误差。尽管这项民调距测了1920年、1924年、1928年以及1932年的选举获胜者。1936年正值大萧条时期,《文里,400名工作人员熟练地将印刷好的选票(足够铺满40条街区)放入写好地址的信封里。实结果之差距将在1%以内。(1936年8月22日)的1000万张选票,竟然返回了240万张,这一反馈率大概是现代民意调查的1000倍。根据这240万受访者的答案,结论已经很明确了:阿尔夫·兰登(AlfLandon)将打败现任总统有这么多数据,《文学文摘》怎么会出错呢?要想清楚地认识抽样,就需要我们思考4组不同的人群(图3.2)。第一组是目标总体 覆盖面误差抽样误差无回答误差目标总体抽样框总体抽样总体受访者图3.2代表性误差。3.3.2测量这是一项实际调查实验中的两个问题(SchumanandPresser1996),尽管它们看起来是在测量同一件事情,却产生了不同的结果。如果采用第一种提问方式,约60%的受访者称应归咎于个体,但如果采用第二种提问方式,则约60%的受访者称应归咎于社会条件(图3.3)。个体。改编自SchumannandPresser(1996),表8.1。根据受访者给出的答案,相比于“福利”,受访者更支持“援助穷人”(Smith1987;图3.4一项调查实验的结果表明,相比于“福利”,受访认为有些提问方式是明显错误的,但也不存在一个放之四海皆准的方法。也就是说,使用关调查问卷设计的资料(例如Bradburn,Sudman,andWansink2004),针对这一话题的内管这听起来可能像是剽窃,但复制问题在调查研究中是被鼓励的(只要注明引自哪项调查即可)。如果你从高质量的调查中复制问题,那么就能确保这些问题已经被测试过了,而且你抽样框总体中选择一些人来小规模地测试你的问题,调查研究人员称这一过程为预测试3.3.3成本它也是一个不容忽视的限制因素。事实上,成本是整个调查研究的基础性问题(Groves2004),它是研究人员只采访样本而不采访整个目标总体的原因。一味地关注如何减小误差8倍。而且研究人员对两项调查搜集来的答案分别进行分析,最后得出的评估结论基本上也是一致的。该研究项目以及后续得出相似发现的重复研究(Keetere调查好呢?是一次基本无瑕疵的调查好呢,还是十次还算不错的调查好呢?是一次基本无瑕疵的调查好呢,还是一百次还算不错的调查好呢?在某个点上,成本们将探讨调查研究第三个时代的三个主要领域:非概率抽样的新方法(3.4节)、提问的新方法(3.5节)以及将调查和大数据资源结合起来的新策略(3.6节)。3.4向谁提问法,合作国会选举研究(CooperativeCongressionalElectionStudy)拥有的参与者人数下相关党派在态度和行为上的变化。此外,样本容量的增加也没有降低研究的质量回答率一直在平稳地上升,即使是高质量的、昂贵的调查也存在这一问题(图3.5) 忧,质量下降和成本增加这两个密切相关的趋势会威胁到调查研究的基础(National概率抽样方法有多种类型,但它们有一个共同点,那就是难以 使用在线样本是特别适合数字时代的一种非概率抽样方法。使用在线样本的研究人员依赖于一些样本提供者,通常是一个公司、政府或大学去召集愿意回答调查问题的人,创建一个庞大的、多样化的样本群。召集的方法通常是在线横幅广告等依实际需要而定的方法。然后,研究人员可以付费给样本提供者,以获取那些具备特定特征(例如可以代表整个国家的成年人)的受访者样本。这些在线样本属于非概率样本,因为不是每个人都有一个已知的、非零的被抽中的概率。虽然社会研究人员已经开始使用非概率在线样本了(例如合作国会选举研究),但对利用这些样本得出评估结论的质量,还是存在一些争议(Callegaroetal.作“非概率抽样2.0”,因为这些新的方法与过去容易引发问题的方法有着很大的区别。其早期,一些最令人感到尴尬的失败案例就采用了这类样本。而通过王伟(WeiWang)、戴的一样,该样本偏男性化、年轻化。18~29岁的人在选民中占19%,但在该样本中占65%;男性在选民中占47%,但在该样本中占93%(图3.7)。鉴于上述现象,原始Xbox数据很难准及及事后分层的主要思想是利用关于目标总体的辅助信息,帮助改善源于样本的评估结论。在利用事后分层从他们的非概率样本中得出评估结论的过程中,王伟和同事将抽样总体分为不同的小组并评估每组对奥巴马的支持情况,然后利用各组的评估结果计算出加权平均数,进而得出最终的评估结论。例如,他们可以把抽样总体分为两组(男性和女性),分别评估男性和女性对奥巴马的支持情况,然后在考虑选民中女性比例为53%、男性比例为47%这一事实的基础上,计算出加权平均数,进而得出有关奥巴马支持情况的最后评估。粗略地说,通过引入关于小组规模的辅助信息,事后分层有助于修正不平衡样本。因为他们的调查是通过计算机管理的(我将在3.5节中进一步介绍通过计算机管理的调查),总体划分为几百个小组,而王伟和同事则按照性别(2类)、种族(4类)、年龄(4类)、教育(4类)、州(51类)、认同党派(3类)、意识形态(3类)以及2008年投票支持谁(3类)将抽样总体分为176256个小组。换句话说,低成本的数据采集让他们拥有了庞大的(图3.8)。事实上,他们的评估结论要比传统民调汇总后的结果更加准确。因此,在该研究中,统计调整,特别是“P先生”,在修正非概率数据的偏差方面起到了很大的作用。如Xbox加权后Pollster网站8从王伟和同事的研究中,我们主要能学到两条经验:首先,未经调整的非概率样本可能会导致糟糕的评估结论,这是许多研究人员以前就听过的一条经验;其次,如果分析得当,根据非概率样本实际上也能得出好的评估结论,使用非概率样本不一定会导致像《文学文摘》惨败那样的结果。分别是招募受访者和向他们提问。在3.4节中,我介绍了数字通过计算机管理,而不是由采访者管理(例如电话和面对面访谈调查)。采访者不参与数据高某类问题答案的准确度以外,采访者不参与数据采研究中最大的成本之一),并且增加了灵活性(受访者可以按自己的意愿随时参与调查,而不是受制于采访者的时间)。就挑战而言,如果调查是采访题特别多的调查问卷(可能会很乏味),采访者还可以保证受访者的完成度(Garbarski,问:用来在更合适的时间和地点测量内部状态的生态瞬时评估法(3.5.1小节)以及结合了开放式问题和封闭式问题优点的维基调查(3.5.2小节)。然而,由计算机管理的、不受地时被称为游戏化(3.5.3小节)。生态瞬时评估法主要有4个特征:(1)在现实环境中搜集数据;(2)评估的是个体当前或最近的状态或行为;(3)评估可能是基于事件的、基于时间的或随机引发的(取决于研究问题);(4)随着时间的推移需进行多次评估(StoneandShiffman1994)。一天中人们可装有各种传感器,例如GPS(全球定位系统)和加速计,因此研究人员可以通过用户的活动内奥米·杉江(NaomiSugie)的年代以来,美国的监禁人数开始急剧上升。截至2005年,每10万美国人中就有约500人在先,她在上午9点和下午6点之间随机选了一个时间向参与者发送“体验抽样调查”,询问参与者当下的活动和感受。然后,在晚上7点,她会向参与者发送一个“每日调查”,询问重要的异质性。杉江在其样本中发现了4个完全不同的群体:“早期退出”(最开始找过工作,但后来退出了劳动力市场)、“持续寻找”(融入社会前的大部分时间都花在找工作上)、“循环工作”(融入社会前的大部分时间都花在工作上)以及“低响应”(不会定期回答调查问题)。其中“早期退出”这一群体最开始找过工作,但后来没找到就市场。因此,杉江通过她的调查还搜集了有关参与者忧。但杉江预先就考虑到了这些担忧,并在设计过程中采取了应对措施(Sugie2014,2016)。她所在大学的机构审查委员会作为第三方审查了她的数据采集程序,认为该程序符合所有现存规则。此外,杉江的方法与我在第6章所提倡的基于原据资源相结合时(我认为这会越来越常见,我将在本章后面部分进行论述),就可能引发额外的道德伦理问题。我将在第6章更详细地探讨研究中的3.5.2维基调查但这些是全部可能的答案吗?研究人员将答案限制在这5个选项中会不会遗漏了一些重要的尽管这两个问题看起来很相似,但霍华德·舒曼(HowardSchuman)和斯坦利·普雷瑟(StanleyPresser)的一项调查实验表明,它们可以产生非常不同的结果:近方式提问而搜集到的答案,都不在研究人员给定的选项中(图3.9)。开放式问题开放式问题成就感晋升薪酬安全不知道满足感其他0尽管开放式问题和封闭式问题可以产生完全不同的信息,而且两种形式的问题在调查研究的早期都很受欢迎,现在处于主导地位的却是封闭式问题。这并不是因为封闭式问题被证明能产生更好的测量数据,而是因为封闭式问题使用起来要简单很多,因为分析开放式问题的过些研究人员事先不知道的信息才是最有价值的信息。办法。如果我们现在能设计出融合了开放式问题和封闭式问题各自优点的调查问题,会怎么其是维基百科(内容主要由用户生成的动态开放系统的绝佳案例),它让我们很受启发,因此我们称这个新型调查为维基调查。正如维基百科会基于参与者的想法逐步发展,我们也设想了一个会基于参与者想法而逐步发展的调查。卡伦和我认为,维基调查应满足三个特性:贪婪性、协作性和适应性。然后,我们和一组网站开发人员一起创建了一个可以开展维基调外展服务(例如“要求所有大型建筑都要进行一定的能效为学校课程的一部分”)列出了25个想法,以此作为这样一个问题的备选答案:你认为哪一项更有利于创建一个更环保的、更好的纽约市?然后,计算机会随机从备选答案中抽取2个(例如“开放纽约市所有学校的操场作为公共体育场”和“增加哮喘发病率高的社区的植树量”),供受访者选择(图3.10)。受访者做出选择后,计算机会立即再随机抽取2个想法AA只要受访者愿意,通过二选一或选择“我无法决定”,受访者可以一直回答他更偏向于哪种为了搜集居民的反馈信息,市长办公室于2010年10月启动了该维基调查,同时还开展了一系列的社区会谈。在大约4个月的时间里,1436名受访者贡献了31893个答案以及464个新想法。至关重要的是,前10个最受欢迎的想法中有8个是受访者提出来的,而不是源于市长系统:我们已经主办了超过10000项维基调查,搜集了1500多万份答案。这种创造可以大规都免费使用它基本上不会再产生成本(当然,如果我们采取由人类管理的访谈,就无法实现这一点)。此外,这样的规模可以使研究人员开展不同类型的研究。例如,这1500多万份答案以及大量的参与者为未来的方法研究提供了一个宝贵的测试场。在第4章介绍实验时我将进一步描述数字时代成本结构(尤其是成本不会随着所搜集数据量的增加而增加)所创造的3.5.3游戏化提问,然后再问他们的朋友(这样可以测得真实的态度相似度),也可以让人们猜其朋友的态度(这样可以测得感知的态度相似度)。但可惜的是,既采访受访者又采访其朋友,实施后就该好友的态度向参与者提问(图3.11)。在回答有关随机选择的朋友的问题时,该参与图3.11“朋友感觉”的界面(Goel,Mason,andWatts2010)。研究人员把标准的态度调查变成了一项有趣的、类似游戏的体验。应用程序向参与者提的问题有严肃的也有轻松的。好友头像经过了模糊处理。经沙拉德·戈埃尔允许转(你的朋友)更同情以色列人是吗?”以及“(你的朋友)会为了让政府能够提供全民医保而缴更多的税吗?”除了这些严肃的问题以外,研究人员还会设置啤酒,(你的朋友)更喜欢葡萄酒是吗?”以及“(你的朋友)更希望拥有读心术而不是会飞是吗?”这些更轻松的问题会让参与者觉得这个过程很有趣,同时也让我们能够进行一项是很亲密的朋友,也在约30%的问题上持不同的观点;其次,参与者往往高估自己与朋友的3.6与大数据资源相结合的调查这种现象将会改变。将调查数据与第2章介不同的方法,我称它们为丰富型提问和扩充型提问(图3.12)。虽然对每种方法我都将通过的视角看待。回想一下第1章的内容,有些人会把这些研究看作“非现成”调查数据增强丰富型提问丰富型提问扩充型提问大数据资源大数据资源调查数据用于研究大数据资源预测的用于研究3.6.1丰富型提问我在3.2节中提到的伯克和克劳特针对脸谱网上的互动是否会增进友谊所开展的研究。在该集链接起来(这是一个被称为记录链接的过程)。第二个难题是,大数据资源的质量通常很难评估,因为数据创建的过程可能是不对外公开的,并且大数据资源容易受到第2章所描述重要的研究,正如斯蒂芬·安索拉比赫(StephenAnsolabehere)和埃坦·赫什会记录每个公民是否投票。(当然,政府没有记录每个公民把票投给了谁。)多年来,政府(但也不是不可能)获得全体选民的投票记录,并将他们在调查中关于投票所说的内容和实公司Catalist(凯利板)合作,以利用其主投票文件帮助他们更好地了解全体选民因为他们的研究依赖于上述这家公司(该公司在数据采集和汇总方面投入了大量的资源)所像第2章的许多大数据资源一样,安索拉比赫和赫什获得的主投票文件中也没有太多他们所的投票行为和经过验证的投票行为(即Catalist数据库中的信息)。因此,安索拉比赫和赫他们把搜集来的数据交给了Catalist,Catalist汇总后又将包括经验证的投票行为(源于Catalist)、自我报告的投票行为(源于合作国会选举研究)以及受访者的人口统计资料和态度在内的数据文件返回给了他们(图3.13)。换句话说,安索拉比赫和赫什的研究只有将投过票,实际上他真正投过票的概率只有80%。其次,过度报告并不是随机的:过度报告在己投过票的可能性要比没有的人高约22%,而其实际投票的可能性只高出了10%。事实证明,相比于预测谁会真正投票,现有的以数据源为基础的理论在预测谁会报告称自己投过票(这也是研究人员过去所使用的数据)方面,准确度会更高。据原始投票据用于链接的数据邮寄投票很简单。但Catalist只能通过不完美的标识符(在该事例中是指姓名、性别、出生年份以及家庭住址)进行链接。不但对于这些结果我们又能信任多少呢?不要忘了这些结果依赖于一个易于出错的链接过程,决于两个关键步骤:(1)Catalist将许多完全不同的数据资源汇总后,形成一个精确的主数据文件;(2)将调查数据链接至上述主数据文件。其中每个步骤都很困难,而且任何一个过一系列步骤检查了上述两个步骤的结果(尽管有些是不对外开放的),这些检查对其他想一般来说,研究人员通过该研究能学到什么经验呢?首先,资源还是利用大数据资源丰富调查数据(我们可以用任何一种方式看待该研究),都有巨大法是,将汇总后的商业数据资源与其他同样会有错误的可用数据资告的投票行为)进行比较。最后,在某些情况下,研究3.6.2扩充型提问往成本高、关注面小(它只包含少量的问题),而且不及时(它按固定的时间表进行,例如每隔10年普查一次)(Kish1979)。与其勉强接受抽样调查或是人口普查,研究人员还不2009年间约150万名用户的匿名记录。这些记录含有每次通话和每条短信的相关信息,例如出的是,获取数据这第一步对许多研究人员来说可能是基本上是不可能被“匿名化”的,而且几乎一定会包含参与者认为敏感的信息(Mayer,Mutchler,andMitchell2016;Landau2016)。在布卢门斯护数据方面很是谨慎,而且有一个第三方(即他们的机构审查委员会)负责监督他们的工作。在第2章中我详细介绍过这一点。但通话记录很可能包含一些能间接该模型能通过通话记录预测某个人在一项调查中会如何作答?如果这是可行的,那么布卢门为了创建和训练这样一个模型,布卢门斯托克和来自基加利科学技术研究所(KigaliInstituteofScienceandTechnology)的研究助理随机抽取了约1000名用户。研究人员然后向他们提了一系列的问题,以衡量其财富状况和幸福感,例如“你有收音机吗?”以及“你有自行车吗?”(部分问题列表参见图3.14)。所有参与调查的人都获得了经济报酬。学家可能会称这些特征为“特征”,而社会科学家则可能托克会计算出每个人的总活跃天数、联系过的人(不同的人)的数量以及通话费等。这一步和国际电话很重要(我们可能会认为打国际电话的人更富有),那么这一工作就必须在特征有固定电话有收音机有冰箱有汽车过去12个月里被解雇过有摩托车室内有自来水有电视有家用电器过去12个月里遭受过洪水或干旱过去12个月里曾病得很重有自行车过去12个月里有家人去世过去12个月里有医疗开销精确度图3.14用通话记录训练统计模型的预测精度。改编自Blumenstock(2014),表2。该模型对某些特征的预测精度是很高的(图3.14),例如预测某人是否有收音机的精确度能达到97.6%。这听起来可能很不错,但将一个复杂的预测模型与一个答说自己有收音机,那么他的精确度就是97.3%,这与他更复杂的预测模型的表现(97.6%的精确度)竟惊人地相似。换句话说,所有复杂的数据和建模工作只是把预测精确度从97.3%提高到了97.6%。但对其他问题,例如“你有自行车吗?”,预测精确度就从54.4%提高到了67.6%。更概括地说,图3.15表明,对某些特征来说,相比于简单的基线预测(即预测每个人都会给出最常见的回答),布卢门斯托克的模型并没有明显提高精确度,但对其他一些特利用通话记录进行预测的精度改善利用通话记录进行预测的精度改善简单的基线预测的预测精度微调整。改编自Blumenstock(2014),表2。和罗伯特·翁(RobertOn),就大大改进了研究结果(Blumenstock,Cadamuro,andOn2015),并在《科学》杂志上发表了他们的论文。这一改进主要有两个技术原因:(1)他们采用了更复杂的方法(即在特征工程这一步中采用了新的方法,并创用特征预测回答);(2)他们不再试图推断单个调查问题(例如,“你有收音机吗?”)的测了150万名用户的财富状况。他们还利用通话记录中的位置信息(通话记录中有每次通话时用户离得最近的手机信号塔的位置)评估了每个人大致的居住地(图3.16)。通过将这两粒度(指空间粒度)的。例如,他们能够估算出卢旺达2148个街区中每一个街区的平均财富那么这些评估结论与该地区的真实贫困水平的符合程度如何呢?在回答这个问题之前,我想果相当参差不齐(图3.17)。此外,也许更重要的一点是,有手机的人与没有手机的人可能将这两种评估进行比较后发现,它们非常相似(图3.17)。换句话说,通过将少量调查数据模型调查数据特征工程师通话记录预测人一特征矩阵评估预测的人一特征矩阵居住地地区层面人口统计和健康调查估算出的地区平均法,布卢门斯托克和同事得出评估结论所采用的方法要快10倍,成本降为1/50(以可变成本计算)。正如我在上文所论述的一样,研究人员忽视成本问题可拿布卢门斯托克和同事的研究为例,相比于每隔几年开展一次(这是该调查的一个标准)的广而薄的大数据资源(即该资源包含许多人,但没有你需要的关于每个人的信息);(2)窄而厚的调查数据(即该数据只包含少量人,但其中有你需要的关于这些人的信息)。然后需Molina2015)、填补法(Rubin2004)以及基于模型的事后分层(该领域与我在“P先生”这一方法紧密相关)。鉴于这些很深的关联性,我预计扩充型提问的许多方法论方法时,进行以下两项截然不同的评估是很重要的:(1)该方法在当下的效果如何?(2)尽管研究人员接受过第一类评估的培训(评估一项特定研究的好坏),但第二类评估往往更3.7结论从模拟时代到数字时代的转变正在为调查研究人员创造新的机会。在本章中,我提出大数据资源不会取代调查,而且其丰富性还将提升而不是降低调查的价值(3.2节)。然后,我总结了在调查研究的前两个时代发展起来的调查误差总框架,该框架有助于研究人员开发和评估调查研究第三个时代的方法(3.3节)。我预计会出现令人兴奋的机会的三个领域分别是:(1)非概率抽样(3.4节),(2)计算机管理的调查(3.5节),(3)将调查和大数据资源结合起来(3.6节)。技术和社会方面的变化驱动着调查研究不断地向前发展。我们应该拥抱这一发展趋势,并继续从之前的时代汲取智慧。4.1简介本书目前为止所介绍的方法——观察行为(第2章)和提问(第3章),都是研究人员在并非有意地、系统地改变世界的情况下搜集数据的方法。而本章所要介绍的方法——开展实验,则是完全不同的。当研究人员开展实验时,他们会系统性地干预世界,以创造出最适合因果关系问题的数据。因果关系问题在社会研究中很常见,例如:增加教师工资会让学生学到更多东西吗?最低工资对就业率的影响是什么?一个求职者的种族对其能否获得一份工作有何影响?除了这些明确的因果问题之外,有时因果问题还会隐藏于关于某些性能指标最大化的更普遍的问题中。例如,在非政府组织的网站上,捐赠按钮应该是什么颜色呢?像这种有关不同按钮颜色对捐赠的影响的问题还有很多。解答因果问题的一种方法是从现有数据中寻找规律。例如,回到有关教师工资对学生学习的影响的问题,经过计算你可能会发现,在教师工资高的学校,学生能学到更多东西。但这一相关性就能说明更高的教师工资会让学生学到更多东西吗?当然不能。教师工资较高的学校与其他学校可能在其他许多方面也存在着不同。例如,教师工资较高的学校的学生可能来自更富裕的家庭。因此,那些看起来像是因教师才产生的影响,实际上可能是学生自身的差异所致。这些未被测量的学生之间的差异被称为混杂因素,一般而言,存在混杂因素的可能性会严重破坏研究人员通过现有数据寻找规律来解答因果问题的能力。解决混杂因素的一个方法,是通过调整组间可观察的差异尽量实现公平的比较。例如,你或许能通过多个政府网站下载财产税数据,然后找出学生家庭条件(就住房价格而言)相似但教师工资不同的学校,比较其学生的表现。你可能仍然会发现教师工资较高的学校的学生学到的东西更多。但还是有许多可能的混杂因素,也许这些学生的父母在受教育程度上有差异,也许这些学校在离公共图书馆的距离上有差异,也许教师工资高的学校,其校长的工资也较高,并且校长的工资比教师的工资高,也许这些是使学生学到更多东西的真正原因?你也可以试着测量并调整这些因素,但可能的混杂因素基本上是列举不完的。因此在很多情况下,你是无法对所有可能的混杂因素进行测量和调整的。为了应对这一挑战,研究人员提出了许多利用非实验数据进行因果推断的方法,其中一些我在第2章介绍过,但对某些类型的问题来说,这些方法的作用还是有限的,这时实验便是一个不错的选择。实验能使研究人员不再局限于自然产生的数据所呈现出的相关性,而是以更可靠的方式解答某些因果问题。在模拟时代,实验往往面临着组织实施方面的难题,而且成本也高。现在,在数字时代,组织实施方面的限制正在逐渐消失,我们不仅能更容易地开展与过去类似的实验,而且还能开展过去没有的新型实验。行干预,并且研究人员是通过随机的方式(例如抛硬币)来决定干预谁的。随机对照实验能得出错误的结论(我很快就会讲到)。尽管实验和随机对照实验之间存在着上述重要的差异,如何在研究中采用随机对照实验。在4.2节中,我将以维基验的基本逻辑。然后,在4.3节中,我将描述实验室实验和实地实验 (严格控制)和模拟实地实验(现实主义)的最佳特征进行论述。接下来,在4.4节中,我略所涉及的权衡(4.5节)。在最后结束部分,我将给出一些关于如何借助数字实验的真正力量进行设计的建议(4.6.1小节),并介绍一些随之而来的责任(4.6.2小节)。4.2什么是实验想了解非正式的同伴奖励对人们编辑维基百科的影响。具体来说,他们研究了谷仓之星 他们的一个奖励。于是,雷斯蒂沃和范德里杰特给100个做出杰出贡除了抽取100个杰出贡献者并向其发送谷仓之星以外,他们还抽取了另外100个杰出贡献者要比对照组的多60%左右。换句话说,两组贡献者的贡献都在减少通过雷斯蒂沃和范德里杰特的研究,我们了解了随机对照实验的4个与者、随机分组、实施处理和测量结果。这4个部分一起就能把谷仓之星发送给任何人,也能很容易地在较长时间内对结果(即编辑次数)进行追踪 (因为维基百科会自动记录编辑历史)。这种无须任何成本就能实施处理并且测量结果的实甚至是20000个其实也是可以的。雷斯蒂沃和范德里杰特没有抽取20000个人来参与实验的计空间有助于大家理解不同方法的优缺点,并能突出机会最大的领域(图4.1)。组织实验的其中一个维度是实验室-实地。社会科学的许多实模拟实验室实验实地实验图4.1实验设计空间示意图。在过去,实验的类型集中在实验室-实地这一维度。现在,又出现了许多模拟-数字这的,内容基本相似,只有一点不同,即有些会暗示该应聘者是位母亲(如参加了家长教师协会),有些则不会。科雷尔和同事发现,学生不太可能推荐是母亲的应聘者,就算推荐了,他们是否是由于同样的原因而做出了类似的决定呢?遗憾的是,我们并不知道。研究人员没验室-实地连续体的两端,在这两端之间,还有各种各样的混合设计,例如将不是学生的参除了过去的实验室-实地维度,数字时代意味着研究人员现在有了第二个设计实验的主要维度:模拟-数字。正如在第一个维度上有纯实验室实验、纯实地实验和范德里杰特针对谷仓之星和维基百科的研究采用的就是一个纯数字实验,因为他们的这4个步骤都是通过数字系统完成的。同样,纯模拟实验就是这4个步骤都不会使用数字基础设结果。事实上,正如本章后面将描述的,研究人员在针对850万户家庭的能源消耗的实验中数字系统为实验室-实地连续体上的所有实验都带来了新的可能4.2)。机器人MTurk连通了有任务需要完成的“雇主”济报酬),研究人员也通过该基础设施获得了一个随时可用的参与者库。利用机器人利用机器人MTuk上的数据发表的论文20112012201320142015(年)在不间断运行的测量系统上进行的(参见第2章)。例如,同样是关于参与者的预处理信息,Sävje,andSekhon2016)和有针对性地招募参与者(Eckles,Kizilcec,andBakshy2016),还能让他们进行更有见地的分析,例如评估处理效应的异质性(AtheyandImbens2016a)和进行协方差调整以提高精确度(Bloniarzetal.2016)。结果进行了长达90天的测量(每天都会测量),而本章后面将提到的实验之一(Ferraro,间断运行的测量系统(更多有关不间断运行的测量系统的内容可参见第2章)开展实验,是存在诸如环境依赖、合规问题和平衡效应(BanerjeeandDuflo杂化因素。数字实地实验也放大了由实地实验引发的道德伦理问题,我将在本章后面和第64.4超越简单实验“起作用”吗?例如,一个志愿者打来的电话能促使一个人投票吗?将网站按钮从蓝色换成绿色能增加广告的点击率吗?不过遗憾的是,对于“起作用”的不严谨的措辞掩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论