数据库:历史研究的社会科学化_第1页
数据库:历史研究的社会科学化_第2页
数据库:历史研究的社会科学化_第3页
数据库:历史研究的社会科学化_第4页
数据库:历史研究的社会科学化_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据库历史研究的社会科学化

一从“选精”与“集粹”谈起2000年,李伯重先生以“宋代江南农业革命”为议题,公开批评经济史研究中存在的“选精法”与“集粹法”。[1]他认为,正是由于研究方法的失误,才造成有关“江南农业革命的虚像”。由于涉及历史研究的方法论,因此,在很长一段时间里,这一议题一直为人津津乐道。按照李伯重的定义,所谓“选精法”,“即从有关史料中选取一两种据信是最重要者(或是最典型、最有代表性者),以此为据来概括全面”。所谓“集粹法”,“就是在对发生于一个较长的时期或/和一个较大的地区中的重大历史现象进行研究时,将与此现象有关的各种史料尽量搜寻出来,加以取舍,从中挑选出若干最重要(或最典型,最有代表性)者,集中到一起,合成一个全面性的证据,然后以此为根据,勾画出这个重大历史现象的全貌”。这两种在李伯重看来均不正确的方法,“在本质上并无大异,都是同一方法的不同表现。二者的差别只不过在于前者比较简单,而后者则使用史料较多而已”。李伯重认为,采用这两种研究方法进行历史研究者,都相信他们所选出的例子具有代表性,而对于什么是“代表性”和什么样的例子才具有“代表性”的问题,却未见有人作出明确的说明。以历史时期亩产量的计算为例,一是根据某种成说(如“宋代农业革命”)来选取,一是采取“中庸”的办法,或者舍弃最高与最低的例子,或将收集到的全部数据作算术平均。李伯重特别认为算术平均数并不很科学,这是因为现存的古代亩产量记录存在问题,如地域分布与时间分布的不均衡,记录本身的质量问题,今日对这些记录理解的问题等。在我看来,在讨论“亩产量”之前,还需要讨论“亩”本身。虽然各地大小不一的亩制,已经引起学者们的注意,但不同性质的“亩”,至今未有人关注。有的地方之“亩”是“面积亩”,有的地方之“亩”是“税亩”或“产量亩”。在清代的许多地方,不论土地广狭,只要其产量达到4石,即可算为一亩。这一计算方法,类似于各地通行的“折亩”,它符合税收公平的原则,因而通行于中国乡村。同样,这一原则也可推广到山地税负的计算上,在浙江南部山区,我们就见过这样的案例,在某一个时期,某村数百亩甚至数千亩山场,只有数亩的税负,因为,在山地开发初期,几百亩山地的产值,可能与几亩田的产值相当。因此,切不可以为天底下所有的“亩”都代表一定的面积。抛开“亩”的大小及含义不论,为何统计学意义上的平均亩产,并不能算是科学的?细细揣摸,李伯重想要表达的意思可能是这样的:将各地或各个时期的平均亩产相加后相除,所得为简单算术平均数。简单算术平均数并不是科学意义上的平均,科学意义上的平均是加权平均。举例说,假定有11亩土地,其中10亩土地亩产1石,1亩土地亩产2石,简单的算术平均为亩产为[(1+2)/2]=1.5石,加权平均则为[(10×1)+(1×2)]/11=1.09石。显然,简单算术平均数是不科学的,加权平均数才是科学的。根据历史文献所载“亩产量”,即便是作全面统计,所得也只是简单算术平均数,而非加权平均数,即非科学意义上的平均值。什么才是科学的“平均亩产量”?这里涉及的问题更多。最科学的办法当然是将某一地区全部的收获农作物晒干后过秤,将总产量除以总面积,所得即为完全科学的“平均亩产量”。事实上,这一计算产量的方法是没有人运用的。通常被认为是“科学”的测产方法,是选取不同类型的地亩,在每个类型中量取一个平方米的面积,将其中的收获农作物,晒干后称重,将所得产量乘以666.667倍,即为此类型地块上的每亩平均产量。再根据不同类型的田地面积,求得总的亩产量。更为简单的方法,则是测定一块中等收获水平的田地亩产量,当作总体地块的亩产量。怎么样才是“中等收获水平”,则依据老农与统计工作者的经验来确定。总之,在平均亩产的测定上,所谓的“科学方法”在实践中是不存在的。既然本来就不存在所谓科学的平均亩产量,那么,平均亩产的确定就是一个推测或统计的过程。在“亩”的面积不存在疑义的前提下,欲估测某一时期某一地区的“每亩平均产量”,可以采用统计学上的“众数”作为其代表,即在一般水平的耕地上,出现最多的单位亩产量。为了正确寻找“众数”意义上的平均亩产量,我们也只能通过建立数据库的方法来完成。简单地说,在确定“亩”的性质及其面积的前提下,我们可以将所有的亩产资料搜集起来,并将与此有关的所有信息标识出来:地区、区块、田则、丰年、平年或歉年、年份、农作物、茬口,从中寻找最一般田亩中最大量的亩产记载,所得就是我们需要的亦即最科学的平均亩产量。这样一来,数据库方法便有可能成为求解历史时期亩产量的最佳方法。二数据库方法在经济史及人口史研究中的应用事实上,最近几十年来,数据库方法已经在经济史及人口史研究中得到了具有示范意义的运用。其中最著名者,有王业键教授建立的清代粮食价格数据库以及刘翠溶教授建立的宗族人口数据库。王业键将清代内阁档案中记载的大量粮食价格,以数据库的方式进行整理,在此基础上进行的研究,大大超越了前人。目前,这一数据库已经转移至台北“中研院”近代史研究所,该所准备将其整理后上网公布。刘翠溶选择了中国南方和北方50种族谱,将其中所包含的30万个人口数据(包括姓名、生年、卒年、婚姻、生育、功名等)整理成一个庞大的数据库,在此基础上展开的有关中国传统时代人口特征的研究,奠定了中国人口研究的基础。在个人电脑尚未普及的1980年代,王业键与刘翠溶敏锐地把握住了技术进步的时代特征,在大型数据库的建立上投入大量精力,取得了巨大的成就,开一代研究新风,两人也因此而被推选为台北“中研院”院士。几乎在同一时代,美国学者李中清也在致力于建立中国人口数据库。他建立清代皇室谱牒的人口数据库与清代辽宁八旗户口数据库,也属于大型数据库之列。建立在这两个数据库基础之上的中国人口史研究,从微观层面讲,堪称典范。在大陆方面,早在1980年代,也有人尝试建立数据库进行学术研究。如陈春声有关清代广东粮食市场的研究,王跃生关于刑科题本中清代家庭及婚姻的研究,侯杨方关于苏南地区两个宗族人口的研究。比较而言,大陆学者以个人之力建立的数据库,规模偏小,其成果的重要性也相对较小。当然,学术研究成果的重要性并不以数据库规模为标志。问题在于,数据库规模大、样本量大,统计学意义上的结论也就更可靠、更准确。不过,对于一些小规模的研究而言,小型数据库同样具有不可替代的作用。在1990年代,我曾经撰文,讨论清代玉米、番薯在中国的分布。当时面临的棘手问题,是如何区别物种意义上的少量分布与经济意义上集中产区的形成。根据地方志中的记载,我将有大规模种植的记载、充当主要农作物的记载与充当主要食品的记载,当作“集中产区”的标志。也就是说,只要地方志中有三类记载中的任何一种,就可以判定这个地方为“集中产区”。将玉米、番薯“集中产区”做成数据库后,在地图上标示出来,就可以发现清代中期的中国,形成了西南山区玉米种植带和东南丘陵区番薯种植带。[2]再举例说,在笔者最近的一项研究中,曾对嘉庆二十五年(1820)一本题名为“阙彤昌号”的冶铁炉账本进行分析。其内容包括账簿页码、条目序号、来往户名(商号或人名)、来往户性质(供砂户或买铁户等)、年、月、日、延续天数(供货及购买持续的时间)、来(如铁砂、木炭及大米、食盐、猪肉等)、去(如铁、货款、税金、工资及大米、猪肉及糖等)、对除结算(每隔一段时间,炉主分别与供货及购货户结账)、物品名称、数量、单位、单价、总价、单位换算、附注等共18项。这一年该号来往账目共有1332条[3],如不采用数据库方法,研究者根本无法着手进行分析。账本与会薄,以及分家书及农家流水账等,是民间文书的重要组成部分。在我们经手过的徽州文书与浙南文书中,此类资料可谓汗牛充栋,但相应的研究成果不多,出色的成果更少。究其原因,就在于学者尚未掌握数据库这一强有力的研究方法。今天,数据挖掘已经成为社会科学常用的研究工具,青年学者们聚在一起,交流最多的词汇可能就是“DataMining”(数据挖掘)。在此背景下,挖掘数据已经成为一种时尚。一些为人熟知的材料,由此而获得新的生命。如1930年代前后日本满铁在中国进行的村落调查,其基本资料已为黄宗智、马若孟、曹幸穗等利用,他们三人对这批资料的分析结果,已经成为中国经济史研究的经典著作。即便如此,仍有学者发现,这三人的研究,尚处于前数据库时代,他们对于资料的整体把握,在技术上存在严重缺陷。今天的学者们相信,采用数据库方法重新整理并解读满铁资料,有可能获得一些全新的成果。我们还可以举出许多例子,来说明数据库方法在经济史与人口史研究中的应用。可以毫不夸张地说,在经济史及人口史研究中采用数据库方法,无疑是现有各种研究方法中最为科学的方法之一。三数据库方法在其他研究领域中的应用1.环境史如果将视角拉开,最近几十年来,有一个重要的数据库为历史学家广泛应用,这就是气象学家编制的《中国近五百年旱涝分布图集》[4]。该图集虽然以图为主,却在书后附录了一个庞大的数据库。与其他数据库不同的是,历史文献中关于旱涝的记载,本身就不是数据化的。图集的编者将历史文献中所涉站点中有关旱涝的描写,进行分级,分级后的数据形成数据库。由于涉及全国的旱涝数据只能选择有限的观察点,因此,有学者在从事区域灾荒史的研究时,会采用同样的方法,在所研究的区域内,建立更多的观察点。他们的观测,更加细腻、更加具体。我所在的上海交通大学历史系的同仁在研究中国海洋生物种群历史的过程中,尝试在各海区如黄渤海、东海、南海等海区建立海洋生物种群数据库。他们依据的主要资料为地方志,其内容包括省名、府名、县名、渔场名、鱼之俗名、学名、长度、宽度、重量、颜色、其他外形特征、现代标准、味觉、产量丰歉、鱼汛时间、鱼汛特征,等等,所有相关信息一一收入库中。各个数据库按照统一的格式进行建设,以利将来整合成为一个大型数据库。通过数据库的分析,可以把握中国海洋生物种群变动的基本特征,揭示海洋生物种群变化的自然及社会背景,深入理解海洋生物种群之间以及人与海洋生物的关系。也有年轻的研究生尝试将明清地方志中记载的各种疫情以数据库的方式进行整理,此举也取得了不错的效果。其数据库内容包括省名、府名、县名、疫情俗名、临床症状、传染方式、传染源、易感人群、现代疫名、死亡状况等。与以上两种数据库一样,所有的分析结果可以直接以地图的形式呈现出来,而根据地图所进行的分析,可以加深人们对于分析主题的理解。在最近《历史研究》发表的一组有关环境史的笔谈中,关于环境史的研究方法,学者们各抒己见,新意迭出。如王利华教授认为,环境史的研究方法主要是生态学的研究方法,最为新颖。然而,究竟何为生态学的研究方法,本身就是一件值得讨论的事情。以上两例表明,尽管数据库本身并不是生态学研究的独有方法论,但它仍然可以用于环境史研究。我们并不愿意讨论什么是某某学科的研究方法,而更愿意讨论,某某方法可能或如何为某某学科所采用。2.政治史最近,我在研究河南基层的反右运动时,曾经就某县数十份1962年右派甄别结论进行分析。这批右派甄别结论颇为新鲜,它引录了右派致罪的言论,这些言论可以分为七个方面:抱怨农民生活苦与农民地位低;批评合作化不好与农村经济今不如昔;批评农村教学质量差,农村教师地位低;批评党政关系中以党代政,外行党员领导内行;批评干部政策与干群关系;批评历次政治运动;批评各级领导。我将这七个方面的言论归纳为涉农言论、教育问题、政治运动、向领导提意见,以及言论形式等五个方面,每一条言论得1分,建立一个小型数据库。分析结果表明,有关农村农民问题、以往政治运动的批评以及批评的语言方式这三项统计显著,显著水平均在5%以上。从这个结果可以看出,这三个方面对于划分“右倾”还是“右派”是十分重要的,并且从回归系数可知,如果鸣放中包含对历次政治运动进行批评的言论,那么则最容易被划分为“右派”。这一结论是相当有趣的,因为,对于右派的定性在很大程度上是依据他们对于历次政治运动的态度,而这主要又是由对于整风“反右”以及“反右倾”运动的态度决定的。运动的本身竟然成为运动的目的,即反对运动者成为运动的对象。这一特点,从此成为中国政治运动的常态。采用数据库方法进行政治史研究,上述研究可能只是一个尝试。就反右而言,如果能够掌握更多的资料,并据此建立一个大型数据库,我们就有可能在一个更大的范围和更大的样本量上检验本文的结论。这一尝试,令我对数据库方法运用于政治史研究有着无限憧憬。最新的进展来自我指导的一名硕士研究生,他在整理江西某县土改资料时发现,如果采用传统史学方法整理该县500余名“工商业兼地主”的个案资料,行文时只能采取举例子的方法。一不小心,就会掉入李伯重批评的“选精”与“集粹”的泥淖当中。他决定采用数据库方法,将每一位工商业兼地主的姓名、年纪、教育程度、婚姻与生育、家庭人口、家庭收入、从事行业、资本规模、房产、土地、罚款数额等全部输入数据库,借此分析土地改革对于城市工商业的影响。与现有的土改研究相比,这一构思的新颖之处是值得称道的。四结论李伯重在上述引文的最后,赞成并推崇吴承明先生主张的“史无定法”,认为在经济史研究中,“史料学和考据学的方法、历史唯物主义的方法、经济计量学的方法、发展经济学的方法、区域经济史的方法、社会学的方法,乃至系统论的方法,都在选择之列”。对此我完全赞成。本文只想强调,随着时间的推移,数据库方法越来越成为历史研究的常备方法。这可能也是历史学社会科学化的最大收获之一。可能在不久的将来,学者们见面时的问候语,就是“你建了库没有?”,这一问候犹如我们的父辈见面时常问的“你吃了饭没有?”。这一流行的趋势开始呈现,我已经感觉到其来势汹汹

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论