


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据下重构人文社科的理论范式和研究方法,社会科学论文作为资本、劳动力和自然资源之外的第四种生产要素①,大数据一般是指在数量〔Volume〕、类型〔Variety〕、速度〔Velocity〕和价值〔Value〕等方面超过传统社会科学应用规模的海量数据资料②.早在2018年,哈fo大学的加里金就预言随着大数据的出现和使用,整个社会科学研究的实证基础将会出现重大变化,甚至会加速定性与定量研究的大融合③.固然大数据的重要性已然得到人文社科领域学者的普遍认同④,但学界对大数据的理论讨论大多还停留在对其概念范畴、获取渠道、样本代表性以及测量可靠性等基本问题的辨析上⑤⑥,基于大数据的实证研究相对较少.已有实证研究基本都是通过数据挖掘和文本分析技术,开掘出潜藏在海量数据背后有意义的规律或信息,进而实现对社会现象和群体行为将来趋势的判定和预测,但这些研究大多集中在经济、金融领域,社科理论界其他领域尚未出现对大数据整体的推广和应用.本文以为,在信息技术急速发展的今天,大数据必将消解传统社会科学的理论和实证研究基础,重构人文社科的理论范式和研究方式方法,加速各学科之间的互相融合.一、理论范式的重构〔一〕重绘学术图景在社会科学发展史上,重大理论问题往往能引发长期的学术争论.但随着实证证据的丰富和社会热门的转移,争论往往会在新的证据出现之前告一段落.而大数据的出现,可能为经典的理论之辨提供新的实证来源,进而有望为社科理论界重新描绘新的学术图景.例如,市场和是当代社会运行中最本质的两大机制性气力⑦.一个世纪以来,无论是美国的新自由主义市场经济政策、苏联和东欧国家的转制、中国和越南等计划经济体制国家的改革,还是各国在面对全球性、周期性经济大萧条时对市场所采取的宏观刺激计划和干涉政策,都能够视为对其在市场经济运行中应处地位及其影响范围的调整.而市场和之争,也恰恰是20世纪哈耶克和凯恩斯思想制高点之争的全部意涵⑧.战后几十年来,和市场在社会发展经过中此消彼长、阶段性主导经济社会发展进程的事实表示清楚当今世界仍然没有走出哈耶克与凯恩斯理论论战所界定的理论范围.以致于诺贝尔经济学奖获得者英国经济学家约翰希克斯〔JohnHicks〕在1972年专门着文讨论到底谁是对的?凯恩斯还是哈耶克?⑨这就是着名的希克斯之问.希克斯之问是长期以来以凯恩斯主义为代表的计划体制和以哈耶克思想为代表的市场竞争机制二元对立关系的直观反映.凯恩斯以为:自由市场不能解决因消费需求和投资需求缺乏导致的生产过剩危机,应该运用行政权利自上而下直接干涉和介入经济经过,即通过扩大投资、刺激消费的方式对经济进行干涉⑩.对此,哈耶克指出,信息瞬息万变,而人们所能把握的知识和信息是分立和有限的,计划的制定者无法了解经济运行中每个阶段的最终平衡状态,更无法建立全知全能式的生产、决策和分配组织.因而,对社会经济秩序进行整体设计和建构干涉的做法是人们对自个有限理性的高估和致命的自负,计划经济不仅会限制个人自由、阻碍财富生产,还会造成社会贫困和集权主义的兴起,是一条通往奴役之路.对国家而言,只要市场调节才是最佳的资源配置方式.值得注意的是,无论是希克斯、凯恩斯还是哈耶克,他们都只是基于20世纪早中期的经济发展经历体验,试图在市场和间做出非此即彼的选择,而未曾想到还能够有第三条道路,即建立在信息充分交换基础上的有限调控.大数据的出现会为经典的与市场之争注入新的元素.建立在大数据基础上的计划调控并非天方夜谭,早在20世纪70年代,智利的协同控制工程〔ProjectCybersyn〕就试图用大数据去统筹管理国民经济.通过打造一个由电报机组成的网络系统,帮助管理者实时发现、解决需要立即处理的问题和模拟每一次决策的长期后果.在机器的帮助下,智利成功地解决了卡车司机大罢工导致的食品短缺危机.该工程的失败主要是难以解决落后的技术水平、社会认知和超前的管理思想间的矛盾.40年后的今天,随着当代信息技术的飞速进步,分析和处理大数据所需的数据挖掘技术及设备条件已日臻成熟,同时,大数据对市场运行中的信息捕捉也已到达了空前的广度和精度,并被广泛应用于广告投放、信息预测和商业决策.这一变化的直接后果是大大降低了传统社会科学所强调的因与市场间信息不对称而导致的居高不下的计划错误率,使得通过大数据来把握宏观经济运行状况并进行合理的计划调控的前景出现了更多的曙光.能够讲,大数据为凯恩斯主义提供了新的政策工具,同时也为化解希克斯之问提供了重要的新的实证来源.〔二〕延伸经典学讲固然社会科学理论的流派和体系诸多,但它们都能够溯源到少数具有典范性、启发性和诠释意义的概念、假讲和理论,这些经典学讲通常立足于高远的宏观层面去理解和描绘社会构造及其变迁的历史,具有更高层次的概括能力和更宽的辐射面.然而,宏大理论却难以解释经历体验的现实问题.由于理论的宏观性和复杂性,传统的截面数据、面板数据等抽样分析方式方法,无法在经历体验层面上对这些理论进行检验,且囿于传统的资料采集方式,研究者所能获得的经历体验材料,无论在时间还是空间维度上都是有限的.因而,一直以来,要想使用经典学讲指导经历体验研究,只能在华而不实不断增加构造性因素以降低理论层次,这使得经典理论的影响力逐步式微.以社会学界为例:自20世纪中期以来,理论界便不再由宏大叙事主导,当前大部分研究者的兴趣都集中在70年代之后兴起的弱关系、构造洞等理论上,随着时间的推移,大理论的空间越来越小,社会学界已经开场进入了某种后大理论时代.大数据在经典理论和经历体验研究间架起了一座桥梁,使得学界得以重新审视和延伸经典理论,并使验证和拓展宏大叙事成为可能.这是由于大数据能够以其超越传统调查数据的样本量和时空跨度,为研究者提供史无前例的海量数据、资料和信息,进而帮助研究者从经过性的历史视角来审视和验证经典的理论问题.以社会科学领域经典的社会分层理论为例,基于抽样调查数据的经历体验研究表示清楚:主观社会地位既会受客观社会地位以及相对参照群体的决定性影响,也会受经济不平等的重要影响,社会经济不平等程度越高,整个社会对于不平等的感悟越强,人们的阶层意识就会越明显.但用以支撑已有实证研究的传统数据缺乏大历史和大空间的跨度,这使得传统数据对宏大理论的解释和验证总是停留在某一截面上,常给人以薄弱之感.而大数据的出现,能够为经典理论的验证进行补充,甚至带来更多的发现.例如在一项基于谷歌图书2020版语料库〔811万种书籍、8613亿词汇〕的大数据研究中,学者通过计算阶级的相关词汇在美国书籍中近100年来的出现频率来测量美国公众对阶层的关注程度,1和美国社会百年失业率、通货膨胀、基尼系数等指标进行格兰杰时间序列分析.研究发现:在市场经济发达的美国,代表通货膨胀率和失业率之和的经济悲惨指数影响着阶层关注度,而基尼系数却没有显着的统计影响.该发现揭示了经济不平等对阶层意识的作用很可能存在阀域效应:只要当不平等高于一定的阀值时才会对阶层意识产生作用,而不平等低于阀值时是经济景气程度在影响着阶层关注度.用跨度百年的数据和以前无法获得的阶层关注度指标检验阶层理论,这既是研究方式方法上的突破,也是对阶级和阶层理论的最新阐释和补充.可见,大数据时代,经典理论将有可能实现落地发展,并不断被历史的、构造性的情境所检验和延伸,呈现出更强的生命力.二、学科范式的重构〔一〕丰富学科目的挖掘因果机制是科学研究的基本任务,也是科学知识积累和学科建设的核心.传统社会科学尤其是定量分析致力于进行因果推断、提供机制性解释,但由于社会人的异质性,基于非实验数据的定量分析很难避免诸如遗漏变量、样本偏误、联立性等内生性问题,这在很大程度上影响了因果推断的有效性.当前,社会科学家试图通过固定效应模型、倾向性匹配、工具变量等方式方法来躲避内生性问题以改良因果推断,但上述方式方法有赖于高质量的调查数据,而现实中高质量的调查数据通常难以获得.大数据时代的到来,为我们呈现了一幅描绘叙述和相关分析重新崛起、因果推断愈加强化的双赢学科目的新图景,将会对社会科学学科目的起到阶段性的丰富和拓展.首先,基于信息技术兴起的大数据扩展了人类的经历体验范畴,使得简单的统计描绘叙述就能够到达发现规律、展示规律的目的,这使得身处后经典理论时代的我们,有可能凭借大数据的启示发现和提炼出重要的理论,跳出利用抽样数据对传统理论和假讲进行证实或证伪的常规研究形式.其次,大数据的海量信息在时空上具有传统抽样数据无法比较的广度和深度,其全样本的性质在某种程度上能够避免因个人经历体验有限性而导致的例外的干扰,因而,哪怕是基于大数据的简单描绘叙述,都可能由于其数据的气力开阔启发我们的思维.最后,根据大数据做出的预测较之传统小数据要更为精到准确,能够为公共管理、经济金融等各种行业提供有力的工具.因而,在大数据时代,社会科学尤其是定量社会科学可能在一定程度上出现一股重返描绘叙述和重返相关分析的潮流.值得注意的是,原始大数据所呈现和涌现出来的规律,其实和质性分析一样仅仅只是一种启示,无法得到反事实的因果证实.比方:即便我们能够搜集到五百年内全世界所有人的学历和收入进行分析,却仍然无法解释内生性的问题,此时,假如有能够直接进行回归分析的定制大数据,就能够很好地回答上述问题.本文以为,相关分析永远是因果分析的基础和起点,而因果分析才是社会科学的全部目的.从当前可用来做出社会科学分析的大数据看,它所能提供的变量尚属有限,研究者很难通过大数据进行变量控制来做出传统的因果推断.但将来真正高质量的大数据,应该是以为社会科学研究所量身定制的形式出现.例如:在一项对教育回报的分析研究中,传统数据可能缺乏对能力、智商、情商等精到准确的测量指标,但大数据时代,我们则能够凭借对医学指标的整合来进行社会学分析,使用这种定制大数据,研究者能够做出非常好的因果分析.从这个角度,本文以为大数据的出现最终会在描绘叙述、相关分析的热潮之后进一步向因果分析跃迁.〔二〕促进学科融合专业化是当代社会的鲜明特征,专业化程度的提高大大加强了人们认识自然和社会的能力,个人在越来越专业化的同时,也失去了对整体文化的了解和控制.对社会科学而言,学术分工的专业化进程大大提高了研究效率和学术领域内的沟通评估质量,但也逐步构成了各自为政的缺乏:研究者在获得相当深度的同时,失去了对广度的把握,不同学科间的边界日益鲜明,且学科边界间还产生了很多空白地带.因而,与学科分化反向的学科融合必将在社会科学发展经过中周期性地出现.而人类知识谱系意义上的学科融合,其历史颇为长远,早在第一次和第二次世界大战的末期,不同学科领域间已经发生了研究方式方法的借鉴和知识构造的重新建构輰讹辇.本文以为,大数据的出现将会促使第三次学科融合的兴起,并将以数据为纽带,从下面两个向度推动学科融合:第一,大数据将会向外推动社会科学与自然科学、尤其是计算机科学的融合.大数据之大使得数据的性质发生了显着变化,其数据的获取和分析,往往需要有别于传统社会科学训练的方式方法和工具,这就为本来在计算机、人工智能和数理等领域具有特长的学者介入社会现象的分析甚至转型为社会科学家提供了时机.近两年来,发表在英语重要刊物上的基于谷歌图书、维基百科和脸书、推特等大数据的语言学、经济学研究论文,绝大多数都有计算机和自然科学家的介入.着名的小世界理论提出者邓肯瓦兹原先就是美国海军的物理学家.同时,大数据还为社会科学提供了全新的分析对象,提升了穿插学科在社会科学中的地位,揭示了诸如计算社会科学应用计算科学等学科在美国受追捧的原因.第二,大数据将会向内推动社会科学学科间的沟通和对话.长期以来,社会科学内部各学科间区隔明显,显着地表如今每个学科使用的数据和分析方式方法都自成体系,例如:经济学分析多使用面板数据、时间序列数据;社会学分析多使用截面数据;人口学分析多使用普查数据等.尽管数据分析的方式方法和原理大同小异,但学科差异下的数据搜集和使用各自为政,难以达成有效沟通.大数据的出现将有助于改善这一对话窘境.这主要是由于,大数据的获得具有非学科性:大数据的搜集本身往往不是由学科定制,这种无心插柳的数据获取具有一种跨学科的潜力.因而能够预见,越来越多的跨学科研究和穿插学科研究将会不断涌现.〔三〕提升学科应用随着信息革命的深切进入,大数据开场被广泛地应用于经济、金融、选举、竞赛、就业、高考、疾病、灾祸等诸领域进行趋势预测輱讹辇,其逻辑基础在于从大量征兆的累积中判定社会现象发生质变的临界点.大数据预测最常用的工具是谷歌趋势〔GoogleTrends〕,它通过揭示某个检索本文关键词语2004年来每周被全球网民检索的次数,以及这些检索的来源地域,帮助我们发现该本文关键词语被人们所好奇、关心的程度及其分布规律,进而进行趋势判定.利用大数据对人类社会现象进行预测分析的最着名例子是谷歌趋势对流行感冒的预测工具谷歌流感趋势〔GFT〕:2018年,在H1N1爆发几周前,谷歌专家就已在(自然〕杂志发表了利用GFT成功预测H1N1传播范围的论文,其预测精到准确度甚至能够到达州的层面.受这一研究的启发,经济学界也迅速启动了对谷歌搜索数据的分析,并发现了网页阅读、脸书帖子等文化载体内容和股票市场、劳动力市场失业率等经济指标间稳健而可靠的关联.比方英国沃里克大学在(美国国家科学院院刊〕〔PNAS〕上发表的报告指出:2004-2020年间,美国网民在谷歌搜索上输入本文关键词语的变化与标准普尔500指数的波动呈相关关系,美国网民搜索商业类和政治类本文关键词语的频率同时上升,标准普尔500指数往往会下跌.报告指出:假如根据大数据研究来制定投资策略,则收益率能够高达297%,而同期采取简单的买入持有策略只能获得3%的收益.可见,较之传统经济学研究,大数据推断改变市场的成效可谓立竿见影.在传播学方面,大数据分析技术的提升能够同步提高新闻生产的广泛潜入性和规模化处理信息的能力,并在调查性新闻、可视化叙事和应用三个层面驱动创新.当前,在新闻传播界,以悦读体验+内容定制+预测性报道为特征的大数据新闻形式已初现端倪.大数据新闻的重要特点在于其个性化和精准性,既能基于读者所在地和阅读兴趣的差异来进行新闻的个性化推荐和定制,提升读者的阅读体验,又能基于社会表层现实和深层现实、受众理性认知和感性认知对受众行为和社会事件发展趋势做出精准的预测.这无疑为科学决策、提高公共管理和服务水平提供了强有力的保证.三、研究实践的重构〔一〕缓解方式方法分歧定量研究和定性研究是两种不同取向的研究范式,长期以来,不同学术偏好的研究者们从本体论、认识论和方式方法论等各方面对两种范式的优点和局限进行了深入分析:一方面,作为一种科学化的中介手段,定量研究能够实现社会现象的对象化、客体化;另一方面,定性研究能够突破自然科学的限制,实现对行动主观意义的把握.然而,在社会科学研究中,究竟是工具理性更重要还是价值理性更重要这一关键问题,论辩双方并没有达成一致的意见.通过量纲法在谷歌图书2020版语料库中计算20世纪50年代以来的定量分析指数,发现:总体上,定量研究和定性研究呈交替主导的状态.从20世纪50年代到80年代,定性方式方法占据优势,但20世纪80年代到90年代定量方式方法成为主导,95年左右又被定性方式方法超越,而从2000年左右至今,定量方式方法再次超越定性方式方法成为社会科学研究的主流.这也从侧面反映了近60年来,试图通过时间序列分析、网络分析等定量技术分析文本,或通过叙事分析等定性方式方法分析调查资料等混合两种研究范式的努力并没有能有效弥合两种范式的分歧.从某种意义而言,大数据的使用使得定性和定量两大阵营之间出现了一个混合地带.大数据海量的数据规模和全新的数据特征使得定量研究与定性研究在资料获得与分析方式方法方面逐步走向趋同,这在某种程度上缓解甚至重构了定量研究与定性研究间的关系.对定性研究者而言,大数据能够通过海量规模的样本直接发现和展示出社会现象的规律,既不需要控制变量来检验关联,又能避免定性方式方法在案例选择方面的样本偏差.例如:金观涛在(观念史研究〕一书中用计量史学的方式方法对19世纪末20世纪初的中国报刊文本进行分析,详细方式方法是将学界公认的1830年至1930年间那些与政治社会思想有关的报刊、档案、文集中最有代表性的文献进行数字化处理,然后通过词频统计和文本意义解读归纳1.然而,由于作为分析对象的报刊本身既不能完全代表当时的报刊总体,又不能完全代表当时的社会思潮,因而,该研究结论的代表性广遭诟病.显然,假如作者在当时就能使用代表全样本的大数据,那么其研究结果必然会具有很强的讲服力.除此之外,大数据还可为定性研究提供全新又不过于复杂的研究思维,并让检索和数据描绘叙述等过去被定量研究者垄断的方式方法为我所用.对定量研究者而言,在探寻求索变量间的因果关系所遭遇的最大窘境便在于反事实问题.囿于研究伦理的限制,研究者无法同时得到个体在受干涉和不受干涉两种情况下的状态,这就使得寻找用于解决反事实问题的控制变量变得愈发困难,进而会导致统计推断产生遗漏变量偏误.当前可用的大数据并非专门为回归分析而设计,不能解决反事实问题和遗漏变量偏误,因而根据大数据很难进行传统意义上的回归分析和因果推断,但由于数据的海量性甚至全样本的性质,一旦把基于大数据的简单关联分析或时间序列分析结果与文献中的传统回归分析进行比对,就能构成非常具有讲服力的证据链.同时,大数据还拓展了定量研究者的关凝视野,使他们的兴趣点从传统的定量分析转向以往较少触及的文化、心理等领域,并开场重新审视描绘叙述在定量分析中的地位.本文以为,大数据定量分析方式方法一般可分为两个层次:一是对大数据进行描绘叙述和可视化,二是从大数据中抽取出能够进行回归分析的变量进行传统的定量分析.前者能够在最大程度上展现大时空的规律性,后者能够将海量的数据构造化,并得出高质量的新数据.在实际操作中,这两种方式方法都有助于我们进行因果推断.能够预见:以描绘叙述和简单回归分析为主要方式方法的大数据研究,将同时出如今定量和定性两大阵营之中,并进一步缩小定性定量分析方式方法的鸿沟.〔二〕优化变量测量在对宏大概念进行测量的经过中,能否能寻找到相应的、有讲服力的测量指标通常是实践中的重点和难点,譬如上文提到的有关阶层方面的研究,从谷歌图书中提取了一个阶级关注度的大数据指标,这为其对经济不平等和阶层意识阐述增添了强大的讲服力,但这种指标用过去小数据方式方法进行测量分析往往很难获得.因而,在研究实践中,应用大数据能够优化变量的测量.以陈云松、吴青熹、张翼最近完成的(近代中国城市的国际知名度及构成形式〕的研究为例,该研究的一个重要奉献就在于为国际知名度提供了一个大数据指标.在这项大数据研究中,作者首先以1700年以来谷歌图书的百万英语书籍作为语料库,以中国所有的直辖市、副省级以上城市、省会城市、各地级市以及港澳台主要城市名称作为本文关键词语,以这些本文关键词语在语料库中每年出现的频率高低为指标,在300年〔公元1700-2000年〕的时间跨度上展示和分析了城市国际知名度的百年变迁.在构建国际知名度测度的基础上,作者进一步对中国城市国际知名度的构成渠道进行分析.由于近代以来,国际交通运输技术的成本高昂,满清在经济、文化和外交上实行闭关锁国政策,绝大多数中国城市与西方直接的人流、物流互动比拟有限.因而,该研究提出中国城市群体国际知名度构成的差异化假讲.详细而言:近代中国大陆城市的国际知名度,主要遭到西方当时主要媒体〔报纸〕提及率的影响并可能互为因果,而对于香港、澳门和台北等曾经有过较长殖民地历史的中国城市而言,该关联可能就不那么显着---殖民统治使得这些城市直接成为中西文化对撞的窗口,进而具有与大陆城市不同的知名度获得途径.为检验这一假讲,作者从(纽约时报〕全文数据库中提取了中国城市提及率指标,并将其与基于书籍大数据的国际知名度指标进行了跨度长达150年的时间序列分析,以观察两者的联络在大陆城市和港澳台三地之间有无差异.最后的发现表示清楚,近代大陆城市的国际知名度和媒体提及率之间存在显着的格兰杰因果关系,且媒体提及率更多地影响知名度;而港澳台城市的国际知名度和媒体提及率之间则没有显着的统计关联.这表示清楚近代以来中国城市国际知名度的获得具有直接和间接两种形式:大陆城市的国际传播主要通过报刊媒体间接进入西方社会,而有过殖民地历史的城市更多地以直接沟通的方式来积累知名度.该研究表示清楚:除了传统的抽样数据能够用来对城市进行研究之外,大数据十分是书籍报刊大数据能够为城市及文化传播研究提供新的维度.十分是,通过从大数据中提取出传统社会科学分析方式方法所能够处理的关键性变量对大数据进行二次分析,得以充分发挥传统定量分析方式方法的价值,到达对城市知名度构成渠道及其变化趋势分析的目的.总体上,大数据有助于重新强化描绘叙述在定量分析中的地位,也催生了利用大数据提取小数据然后进行定量分析的主要途径.尽管该研究没有进行传统社会学定量形式里的回归分析,但大数据中涌现出的社会现象本身已经为我们展示了饶有兴味的历史画卷,并提供了一个横跨社会学、文化学和城市学三个学科的大数据研究的有效案例.〔三〕增加展示形式除了数据采集、分析、挖掘和因果推断外,在研究实践中我们还必须有效地展示数据结果.一直以来,数据展示存在着千人一面、阅读者难以理解的痼疾,而以简洁、清楚明晰的方式展示数据间的内在形式,使受众对数据及其所代表的现象间的构造关系到达更深的理解,是大数据时代社会科学界的又一重大变革.大数据时代的数据展示主要以可视化的方式进行.数据可视化是借助图形、图像处理、计算机视觉以及用户界面等多种手段,通过表示出、建模以及对立体、外表、属性和动画显示等多种形式,从多角度把海量信息、概念视觉化,直接展示信息背后规律的方式.它能帮助受众迅速了解研究者
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论