大数据与计算社会学_第1页
大数据与计算社会学_第2页
大数据与计算社会学_第3页
大数据与计算社会学_第4页
大数据与计算社会学_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与计算社会学

2009年2月,包括大卫拉兹在内的15名美国科学家在科学上发表了一篇具有里程碑意义的文章《数学社会学》。文章指出,“计算社会学”的学科正在发展。人们收集和使用前所未有的数据,为社会科学的研究服务。在过去的三年多时间里,“计算社会学”正如这些宣言者所认为的那样,表现出了很大的能量。本文,是Nature杂志今年8月刊发的关于这一领域最新进展的综述文章。乔恩·克莱因伯格(JonKleinberg)的早期工作并不适合心脏不好的人。他于1992年发表的第一篇文章是计算机科学的论文,其内容就像它的标题一样紧凑。这篇论文的题目是《基于动态Voronoi图和最小Hausdorff距离的点集欧氏平面运动研究》。在万维网席卷全球之后,成千上万的个体用户自主决定和谁联系以及联系什么。克莱因伯格开始研究当代生活所产生的大量数字副产品,比如电子邮件、移动电话、信用卡购物、网络搜索以及社会网络。今天,作为位于纽约州伊萨卡的康奈尔大学的计算机科学家,克莱因伯格利用这些数据来撰写论文,比如《形成你自己的观点有多糟糕?》以及《你一开口就征服了我:措辞如何影响记忆力》——这些标题非常适合出现在社会科学杂志上。克莱因伯格并不孤单。计算社会科学这个领域的出现正在吸引对数学感兴趣的科学家蜂拥而至。而且,这也促进了学术部门的成立,并激励像位于加州门洛帕克的社会网络公司Facebook(脸谱)这样的巨头成立研究团队来研究社会网络的结构以及信息在社会网络之间是如何传递的。“这真是革命性的。”康奈尔大学的社会科学家米歇尔·梅西(MichaelMacy)说,她也是2009年联合签署增加这个新学科影响力宣言的15位作者之一。“之前我们一直受限于综述性文章,文章通常是回顾性的,实验室研究的对象也一直是为数不多的大二学生。”现在,数字化数据流使得我们以前所未有的规模和层次来描绘个体和群体的行为。这些数据还带来了大量的挑战——特别是隐私问题,以及数据集合未必如实反应人群整体状况的问题。虽然如此,“我把大数据给社会学带来的机遇,等同于粒子加速器给物理学带来的机遇,以及功能磁共振成像给神经系统科学带来的机遇。”梅西说。弱连接研究的兴起最早大规模利用数字化数据在社会科学问题上进行研究的例子是2002年克莱因伯格和明尼苏达州卡尔顿学院的计算机科学家大卫·立本诺埃尔(DavidLiben·Nowell)开展的一项研究。他们考察了社会科学家认为有助于推动人际关系形成的机制:即人们倾向于和朋友的朋友成为朋友。虽然这个观点很完美,但是却从来没有在几十甚至几百人的人际网络中进行过检验。克莱因伯格和立本诺埃尔研究了科研合作中形成的关系网络。他们考察了在1994年至1996年间向电子打印存档(arXiv)上传论文的数以千计的物理学家。通过编写软件来自动提取作者的姓名,他们所建立的合作伙伴数字网络的数量级要远远大过以前测试过的数字网络,新网络的每个连接都代表着两个曾经合作过的研究人员。通过跟踪这些网络如何随着时间的推移而发生变化,他们发现一些研究人员之间亲近程度的度量指标可以用来预测未来合作的可能性。正如期望的那样,研究结果表明新的合作关系倾向于出现在那些同自己的现存研究伙伴有合作关系的人群中,用研究人员自己的话说就是“朋友的朋友”。但是这种预测在数学上的精确性可以使得它在更大的网络中得以运用。曾师从克莱因伯格的拉斯·巴克斯托姆(LarsBackstrom)博士也在研究关联-预测的问题———他现在就职于脸谱,在这里他可以尽情发挥自己的学识,而他的工作就是设计社会网络中的当前朋友推荐系统。另外一个已经被计算机研究人员证实的经久不衰的社会科学理念就是”弱连接”的重要性———它是指相隔较远且很少碰面的熟人间的关系。如今就职于斯坦福大学的社会科学家马克·格兰诺维特(MarkGranovetter)在1973年提出弱连接在社会派系中发挥着桥梁的作用,因而弱连接对于信息的传播以及经济的流动都是重要的。在前数字化时代,大规模地证实他的这种想法几乎是不可能的。但是,美国哈佛大学网络科学家的尤卡·佩卡翁内拉(JukkaPekkaOnnela)在2007年带领的一个团队利用四百万手机用户的数据证实了弱连接确实发挥了社会桥梁的作用(见“弱连接的能量”图)。2010年,包括梅西在内的另外一个团队证实了格兰诺维特关于经济流动性和弱连接存在关联性的理论也是正确的。利用英国六千五百万有线通讯和移动电话采集的数据,以及全国普查的数据,他们揭示了个体关系多元性和经济发展之间存在很大的相关性:人们越富裕且他们的联系越多元化,则他们的社区越富裕。“在20世纪70年代,我们不敢想象可以大规模地利用这些数据进行研究,”格兰诺维特说。学术研究团队的研究克莱因伯格的学生约翰·乌甘德(JohanUgander)发现情况肯定比那还要复杂:人们决定加入脸谱的原因不取决于他们已经加入该网络的朋友数目,而取决于隶属于不同社会群体的朋友加入该网站的数目。换句话说,如果加入脸谱网站的有你的同事,体育俱乐部的朋友以及你的密友,那么该网站给你留下的印象要比你在上面只发现了来自一个社会群体的朋友要深。所以“观念的传播取决于让他们坚守该观念的人的多样化”这一结论对于营销和公共健康活动来说可能是重要的。随着计算社会学研究的扩展,社会科学研究的应用也在不断发展。就职于麻省理工学院的计算机科学家亚历克斯·彭特兰(AlexPentland)的研究团队利用智能手机应用程序和便携式录音设备采集研究对象每日活动和交际的精准数据。通过把这些数据和身心健康调查相结合,该团队得知了如何识别包括抑郁在内的健康问题的出现。“我们发现这些群体从来不会进行表达,”彭特兰说,“当涉及到关照那些需要关照的人的时候,能够感知到他们的孤独是十分重要的。”由彭特兰的学生安默尔马丹成立的位于马萨诸塞州的分拆上市公司Ginger.io现在研发了一个智能手机程序,如果数据显示某种健康问题的存在,那么这个程序就会通知卫生保健部门。其他一些公司正在研究推特(Twitter)上每天发布的超过4亿条信息。一些研究团队开发出了一款软件,利用这款软件可以通过对推特使用者网上情绪的分析来预测实际情况,比如电影的票房收益或者选举结果。虽然这种预测的精准性还一直备受争议,但是推特基于这个方法于今年8月开始推出了美国总统竞选的每日政治指数。同时,就职于布卢明顿印第安纳大学的约翰·博伦(JohanBollen)和他的同事也采用类似的软件来研究推特上表达的社会情绪与股票市场波动之间的关联。他们研究的结果已经足以震撼位于伦敦的投资公司-德温特资本市场,并得到该公司的认可。数据处理与研究反思当这些基于推特的调查在大约2年前出现的时候,对于这种服务在特定人口群体中(例如年轻人中)的流行性是否会扭曲其研究结果的质疑就一直存在。围绕着这些新数据的类似辩论也不断出现。举个例子来说,脸谱网现在的用户接近10亿人,然而在这些用户中年轻人的数量大大超过其他群体。同时网络交流和现实的交流也存在着差别,对于一个领域的结论是否也适用于其他领域还不清晰。“我们通常从一个群体如何使用一种技术入手来推测该技术通用的使用情况,”哈佛大学网络科学家萨缪尔·阿贝斯曼(SamuelArbesman)说,“这也可能未必是合理的。”支持者认为这些都不是新的问题。几乎所有的调查数据都包含一些人口变量方面的偏差,社会科学家已经研发出一些加权方法来纠正这种偏差。如果能够计算出特定数据集合中的偏差,比如脸谱网上某个群体的权重过大,那么这个研究结果就可以随之而进行调整。“在20世纪70年代,我们不敢想象可以大规模地利用这些数据进行研究。”脸谱和推特等公司所提供的减少偏差的服务也越来越广泛地被应用。即使还存在偏差,那么这种偏差也比用来研究心理学和人类行为的数据集中存在的偏差要小得多,这些研究的数据大多数来自于西方世界中那些高度工业化,富裕且民主的社会中的大学生。格兰诺维特对大数据进入其研究领域持一种更加哲学的保留意见。他说他对这种新的方法“十分感兴趣,”但是他也担心对数据的关注会减弱获得更好社会系统理论的需求。他说,“即使绝大多数计算社会学论文都聚焦于现存的理论,当然这是很有研究价值的,但是只有其中一小部分做了为当今所需的研究。”比如说,格兰诺维特有关弱连接的论文在发表了40年后还有很高的引用率。虽然这篇文章“多少利用了开放的数据”,他说,“但是其研究结果并不是来源于数据分析,而是对其他研究的反思。这是一个单独的活动,我们需要人们来进行这样的研究活动。”社会科学家这个新职业的出现也与数据处理的话题纠缠在一起。就职于位于帕罗奥多市的惠普实验室的计算机科学家贝尔纳多·休伯曼(BernardoHuberman)在今年2月写到,“很多新出现的‘大数据’都来源于私人领域,而其他研究人员是无法获得这些数据的。这些数据源有可能被隐藏起来,不但存在验证问题,还涉及这些研究结果普适性的问题。”一个典型的案例就是脸谱网内部的研究团队利用其网站上9亿用户的交互数据来开展自己的研究,这些研究包括对地球上任意两个人之间的关系不超过六个人的小世界理论的再评估。(他们认为地球上任意两个人之间的关系不超过五个人)。由于部分涉及到个人隐私问题,所以这个研究团队只发表了其研究结果,而不是原始数据。在今年7月,脸谱网宣布说它正在制定一个计划,这个计划让其他研究者有机会对其内部团队用来得出结论的汇总匿名数据进行复核,但是该计划不仅有时间限制,还仅限于首次进入脸谱总部的外来研究者。就眼前来说,计算社会学家更关注他们学科领域的文化问题。包括哈佛大学在内的一些研究机构都在这个领域设立了研究项目,但是不同研究部门之间的学术领域几乎没有交叉。邓肯·瓦茨(DuncanWatts)是纽约的哥伦比亚大学的社会科学家和网络理论家,他回想起了近期的一个调研错误,该错误使他把计算科学和社会学的研究生召集到一起同时开会。他说到,“有足够的证据表明这两个群体可以互有裨益:计算科学专业的学生比社会学专业的学生有更多的方法论知识,但是社会学专业的学生能提出更多有意思的问题。虽然他们从不认识对方,也没有机会走进对方的办公室。”作为2009年宣言第一作者的哈佛大学社会科学家戴维·拉泽(DavidLazar)认为很多研究人员还没有意识到这些新数据的能量。没有数据分析的文章也可以发表在顶级社会科学杂志中。而参加探讨社会议题的计算科学会议的社会科学家的人数却少的可怜,这样的会议包括今年6月在都柏林举办的博客和社会媒体的会议。尽管如此,拉泽认为,随着具有里程碑意义的研究论文发表在顶尖学术期刊以及社会行为数据集的首次可用,这些障碍正在被打破。他说,“这些变革正出现在我们面前,而不是身后。”当然这也是克莱因伯格的观点。他说,“我把自己看作是一个对社会问题感兴趣的计算机科学家,但是严格地限定研究的边界是很难的。”从交叉学科到新兴学科2012年1月7日,中国科学院学位评定委员会在京召开会议,同意在中科院研究生院设立“社会计算”交叉学科,并上报国务院学位委员会批准。根据中科院学位评定委员会的建议,此次拟新设立的“社会计算”学科是跨“控制科学与工程”、“计算机科学与技术”和“管理科学与工程”三个一级学科的交叉学科,学科代码定为“99J2”,拥有博士和硕士学位授予权,学位培养工作将依托中科院自动化所。按照国务院学位委员会的相关规定,中科院自动化所有望在今年成为我国首个“社会计算”研究生培养点,同时具备博士和硕士学位授予权。目前,国际上只有卡耐基梅隆大学(CarnegieMellonUniversity)和乔治梅森大学(GeorgeMasonUniversity)开设了跟社会计算相关的博士培养点,密西根大学(U-niversityofMichigan)开设了类似的硕士培养点。中科院自动化所在社会计算领域的研究工作起步较早,研究实力和水平与国际同步,具备了设置社会计算这一新兴交叉学科的基础和实力。自动化所王飞跃研究员率先使用“社会计算”这一术语命名面向计算社会科学研究领域,并提出了基于ACP(人工社会ArtificialSocieties+计算实验ComputationalExperiments+平行执行ParallelExecution)理论方法的社会计算研究和应用框架。据悉,中科院自动化所已经开始“社会计算”交叉学科的建设工作,拟聘请王飞跃研究员为该学科的首席科学家,刘德荣研究员和曾大军研究员为该学科的学术带头人。今年,自动化所将依托下属的“复杂系统管理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论