写给在统计学院学习的学弟学妹1-4(转载)_第1页
写给在统计学院学习的学弟学妹1-4(转载)_第2页
写给在统计学院学习的学弟学妹1-4(转载)_第3页
写给在统计学院学习的学弟学妹1-4(转载)_第4页
写给在统计学院学习的学弟学妹1-4(转载)_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学的领域(写给在统计学院学习的学弟学妹之一)By谢益辉@2008-11-2519:19标签:统计学,表述数据,分析数据,学习经历,学习体会,收集数据,整理数据

分类:\o"查看基础统计的全部文章"基础统计;RSS订阅本文评论;跟踪引用作者注:本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科,觉得应该对后来人讲一些负责人的话,以使大家能更高效地学习。我认为人生的奋斗,怕的不是没有动力,而是有动力却不知道方向。因此,我把我所了解的统计学的领域介绍给大家,让大家早日了解一下统计学的基本内容,早日找到自己的方向。当然,仅仅四年的学习,得出的观点或多或少会浅薄,所以也请各位大师多多指点批评。如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍。统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:收集、整理、分析和表述(数据)。按照这个流程,统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”,说实话这个题目有些狂妄。够资格写这种题目的人,恐怕至少应该在统计学界混过数十载。不幸的是,本人一向提倡“人不猖狂枉少年”。如果没有足够的热情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鸿鹄之志?此为题外话。1、收集数据一般来说,数据的来源无非是试验和调查。平时我们谈统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。就我们这种纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法;对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等),另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”,当然如果有统计学的指导,我们也会发现一些让人变聪明的技术,举个例子,对于吸毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒),对于这种情况我们该怎么处理?暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。对于我们这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?2、整理数据数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情,你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值(MissingValue),胡乱填写的可能成为离群点或野值(Outlier),对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。当然数据的整理还包括很多其它内容,诸如重新编码(Recode)或者进行某种综合计算等等,这里不详谈,因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的前沿知识有所了解。关于确实值的处理,目前已经发展起来比较完备的插补技术(Imputation),这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC(Monte-CarloMarkovChain)等知识。相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的学分绩太高以至于成了“野值”,我们就不能把他/她从班里“删除”,而应该借鉴学习经验)。3、分析数据不可否认,当今社会对于统计的需求,大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北,然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用,要花很多钱购买,更可怕的还都是英文的……我琢磨着,他们一定心想,苍天呐,如果还有来生,我……一定要学统计……作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了;描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP,国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等,而是公布一个总数,让大家对我国的国力有大致的了解;推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。推断统计中,根据是否需要参数假设又可以分为参数统计和非参数统计,后者出现的年代要晚,因此在理论和应用方面可能不如前者,二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。相关名的词恐怕也不是一两页纸能列举完的:相关分析(包括典型相关分析)、回归分析(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)这样的名词,那只能说明你还在一个古董世界徘徊,需要加把劲了。关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。可以看出,国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”,我就不诱导大家了,这对于国内统计学的长远发展不太有利。还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思索”地给你输出漂亮的结果。(统计软件有时候挺害人的,不要完全相信它们)4、表述数据我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。统计是用来说明问题的,不是用来吓唬人的。把我们的分析结果表述给人家看,就需要经过一定的“转化”。不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为人们为它的分析结果找到了巧妙的解释。上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。表格中的数据不使用右对齐(或小数点对齐)、图形画得花里胡哨或土里土气,都会让统计的功效受损,虽然只是“面子问题”。学了那么长时间的统计,不应该不知道图的标题应该写在图下方而表的标题应该写在表上方,平时看文章多注意别人是怎样表达的。好了,统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势:一方面是学科结合的趋势,单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其它各个学科,若不是这些学科给统计学“出难题”,统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?心理学会问你,人的情商是一个隐变量,应该怎样测量?金融学会问你,股票市场上时序数据的异方差怎样处理?市场营销学会问你,怎样从超市的海量数据中挖掘出有用的商品信息?法学会问你,某甲杀人的概率有多大?新闻传播学会问你,大众对某位候选者的真实支持率有多高?等等……;另一方面是计算机的广泛应用趋势,我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2绝对是不可能了,计算机方面又尤其要数编程能力最重要,这番话是对那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。我在中国人民大学统计学院已经学习了四年,感触颇多,牢骚也不少。生活方面不多说,大家最好早点学会自强自立,早已经过了18岁,有空听听郑智化的《水手》。学习方面说这样几点吧:首先,不要指望你的老师会教给你所有的知识,同时也要明白你所学的知识是很不全面的。大学与高中不一样,这里不是一个纯粹的教学的地方,更多地是思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字记下来,那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系,不是老师在几节课上能讲出来的。老师可以告诉你,统计学都有什么内容,剩下的就是你自己多多努力奋斗。其次,攻书莫畏难。可能这也是大学与高中的区别之一,高中某一道题不会做可能会影响你的考试成绩,而大学则不是用来为难人的地方。此路不通可以走彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看,总之要有自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。不过话说回来,不要被我误导,我不是说可以随意放弃一些课程,基础仍然是要打好的,在这个条件下,你可以选择自己擅长的方向发展。再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源,注意上网看看,学校都购买了大量的论文数据库,不用实在可惜了。里面的统计刊物可以趁早接触一些,对于论文写作以及知识面的拓展是很有好处的。最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我……还有,一定要用好英语。(我可没告诉你们要考好英语)以及,不要没日没夜地上自习。(当然也别像我从不上自习)对了,上网别总聊QQ,以后发财了有的是时间聊,现在有空多来我们的“统计之都”网站看看:\o"统计之都"一死生为虚诞,齐彭殇为妄作。各位加油。谢益辉

2006-10-07关于搜索统计资源(写给在统计学院学习的学弟学妹之二)By谢益辉@2008-11-2922:06标签:统计资源,统计数据,参考文献,搜索

分类:\o"查看基础统计的全部文章"基础统计;RSS订阅本文评论;跟踪引用关于搜集资料,其实是许久以来我很想谈的一个话题,因为身边太多太多的同学在这方面根本就没入门。找点资料,也不知上哪里找。顶多Baidu一下,高级一些的就Google一下,就算完事了。拜托,老大们,这是二十一世纪哎!记得古时候有一个词叫作“獭祭”,语出《礼记·月令》:“獭祭鱼”。印象中李商隐和这个词似乎有某种联系,可惜古文修养太差,也弄不清了:“商隐工诗,为文瑰迈奇古,辞隐事难。及从楚学,俪偶长短,而繁缛过之。每属缀,多检阅书册,左右鳞次,号‘獭祭鱼’”。元·辛文房·《唐才子传》大意也就是说的找资料的事情,可见,写点东西(无论文人与否),都是要资料的。古人把书册一排排鳞次,今人恐怕不会那样做了,很可能就是在遨游(Maxthon)浏览器中一口气点开好多个窗口,然后把网页挨个来看,也算是某种形式的“獭祭”吧。这篇小文,依旧是写给统计学院的学弟学妹们的,因此,仍然围绕着“统计”的话题展开。大约也就谈两方面吧:一、怎样找数据数据是统计的生命之源,其重要性就不在罗嗦。在上一篇文章“统计学的领域”中,我所说的数据来源其实主要是一手数据(调查和试验),做研究当然也可以使用二手数据,也就是别人已经通过调查或试验取得的数据,我们拿过来借用一下。提到统计数据,可能人们首先想到的就是统计局,不错,这是我们的选择之一,比如中华人民共和国国家统计局:/,在这个官方网站中,包含了大量的统计数据,其中有年度数据、进度数据、专题数据、部门数据等等。比较方便的是,大多都是文本形式的数据,可以复制出来供分析使用。很多地方统计局也都有自己的网站,如果需要某地的数据,可以登录相应的网站查看。除了统计局,也别忘了学校的图书馆,人大的图书馆购买了一些统计数据库,从首页/登录就会看到“参考工具”一栏中有“年鉴资源库”,点击进入就会看到大量的年鉴资料,不过不幸的是,里面很多资料都是图片格式,不能直接复制出来供分析。上面说的是中文数据,若要找国际数据,其实UnitiedStates也是个可以考虑的地方,在那里有专门的StatisticsDivision,,里面的数据有Excel格式的,也提供了相应的PDF格式文件。事实上,国外的数据比国内要丰富得多,大家平时浏览网站的时候多多注意,一定会有很多积累的。比如OECD的网站,;U.S.CensusBureau:;等等。二、怎样找参考文献对于写论文来说,大多数情况下恐怕找参考文献比找数据更重要。这里首先仍然是介绍我们图书馆的资料,一般说来,中文方面的论文库当然要数“中国期刊全文数据库”比较全面(/),其中收录了大量的期刊全文,图书馆网站上给出了登录用户名和密码,大家可以尝试进去看看。统计类的期刊有《统计研究》、《统计与决策》、《数理统计与管理》、《数理统计与应用概率》等等,这些期刊都可以通过右上角的“期刊导航”找到。当然,也可以按照关键字搜索论文,网站左侧有检索的文本框,诸多选项大家自己去看吧。其他的数据库诸如“万方数据资源系统”等都是比较好的资源中心,大家可以去尝试尝试;最后要说的是除了文本形式的数据库,其实图书馆的资源中也有视频/音频数据库,一些名家的讲座都可以从中直接看到。中文论文库就不介绍太多了,是个中国人都能自己看懂,下面说说外文数据库资源。如果要查找5年前的期刊论文,那么JSTOR也许可以满足你们大部分需要了,JSTOR就是JournalStorage的缩写,网址为,其中收录的论文基本上都是图片格式,可以在网站上一页一页翻着看,或者直接Download为PDF文件阅读(里面仍然是图片格式)。关于统计界的外文刊物,大家不能不知道这些:JournaloftheAmericanStatisticalAssociation(JASA)、AnnalsofStatistics、JournaloftheRoyalStatisticalSociety,其实还有Biometrica等等,暂时还是别介绍太多了。WileyInterScience(图书馆网站上写的“JohnWiley电子期刊”,网址)这个网站中有不少统计学的宝贝,有空应该去淘一淘,比较难得的是里面有大量的OnlineBooks,如”IntroductiontoBayesianStatistics”,”RegressionModelsforTimeSeriesAnalysis”,”StatisticalAnalysisandDataMining”,”AnalysisofFinancialTimeSeries(SecondEdition)”等。其它数据库我平时较少用,不过也是比较好的资源,如“ProQuest学位论文全文数据库”等,在此不多加介绍了。前面提到的JSTOR只能看好几年前的期刊论文,如果要看最新的文章的话,也可以试试EBSCO或者ProQuest数据库,不过至少我似乎没发现JASA的文章,可能跟学校购买的数据库限制有关。如果有比较重要的外文文献需要下载全文阅读而学校图书馆又没有购买相应的数据库,那么也可以找你们在国外的同学或朋友,国外大学图书馆购买的英文数据库肯定比我们要全。说了这么多,归根到底都是一些辅助工具,真正要需要脑子的仍然在于专业知识,否则手中掌握再多的资源也白搭。不过话说回来,能尽早接触统计方面的专业知识,对大家应该也是有好处的。希望这些东西对大家有用。我的一些统计方法观(写给在统计学院学习的学弟学妹之三)By谢益辉@2008-11-2923:43标签:Bootstrap,空间统计学,纵向数据,统计方法,统计模型,重抽样,Jackknife,R语言,分位回归,回归

分类:\o"查看回归分析的全部文章"回归分析,\o"查看基础统计的全部文章"基础统计;RSS订阅本文评论;跟踪引用收入与支出的分位回归记得高中很讨厌政治课,但是有几个词烙在脑子里,想忘都忘不掉,比如“世界观”和“方法论”,当时那位老爷爷整天给我们灌输这些玩意儿,搞得我现在对这些词汇仍然如鬼神般敬而远之。这次我要写的是关于统计方法的一些思考(主要是思路),但又不太多涉及方法本身的推导证明,因此只好称之为“方法观”。现在每天感慨统计领域太宽,模型太多,方法太杂,让人把握不住方向。不过上次高校研究生统计论坛我仍然不知天高地厚地选了一个讲述统计思想的题目,其原因正是觉得方法太杂,应该理出一些头绪来;当然我所理的头绪也仅仅是很局部(local)的,管中窥豹而已。下面我先举几个例子说明一些统计方法的发展思路,这些也是我在上次论坛上发言的部分内容:一、纵向数据与空间统计学纵向数据(LongitudinalData)和空间统计学(SpatialStatistics)算是代表了统计学发展领域的两个前进维度;众所周知,统计的数据有截面数据(Cross-section)和时间序列数据(Time-series)之分,前者是在同一时点观测不同个体得到的数据,后者是在不同时点观测同一个个体(当然也可以不同)得到的,这两种数据都有比较成熟的分析方法,如回归、多元、ARMA等等,而纵向数据则可视作是它们的“综合”:对不同的个体在不同的时点上(重复)观测——这体现的是时间的维度;而空间统计学则是结合地理学的知识,运用统计分析方法去分析与地理相关的问题,这里我摘一段Wikipedia中关于空间统计学的介绍:“ApplicationswithinGIS;mathematicalanalysisonvariedspatialdatasets;Issuesonhumangeography,particularlythoseinvolvingthespreadofdisease(epidemiology),thepracticeofcommerceandmilitaryplanning(logistics),andthedevelopmentofefficientspatialnetworks.”…其中GIS是地理信息系统,也是现在研究应用比较火热的技术;空间统计学牵涉的领域有疾病的散布(流行病学)、商业和军事规划(后勤)以及开发有效的空间网络等等。听起来挺有意思。此外,一些传统的统计学概念、模型也被自然而然的转移到空间统计学中,比如空间回归(SpatialRegression)、空间滞后模型(SpatialLagged)、空间自相关(Autocorrelation)、空间计量经济学(SpatialEconometrics)等。若对R有所了解,不妨看看相应的一些Package,对于纵向数据,一般使用nlme(\o"JohnFox关于混合模型的文档"JohnFox的文档);对于空间统计学,可以参见相应的\o"空间统计妧??TaskView"TaskView。二、分位数回归与均值回归众所周知,经典的最小二乘回归是针对因变量的均值(期望)的:模型反映了因变量的均值怎样受自变量的影响——,;这个小小的式子说明了经典回归的本质,自变量(有时也称为协变量Covariates)影响着因变量的一个位置参数量,从这个意义上,可以把回归称之为一个位置移动模型(LocationShiftModel);用最小二乘方法容易推出,使最小的正是。分位数回归(QuantileRegression)的核心思想就是从这个Location的角度出发而产生的,把Location从均值推广到分位数,回归家族也就增添了分位数回归这位新成员。最小二乘回归的目标是最小化误差平方和,分位数回归也是最小化一个新的目标函数:同样我们可以看看什么样的使得上面的目标函数最小?通过对简单的求导,不难发现满足条件的正是的分位数。图1分位回归目标函数示意图在R中,与分位数回归对应的包是quantreg,这个包也有自带的一份Vignette,对于分位数回归的学习者来说绝对是好材料(位于/doc目录下,rq.pdf)。这份文档中举了一个关于恩格尔系数的例子(见图2),图中虚线是最小二乘回归结果,黑线是中位数回归结果(实际上就是),灰线从下至上分别是0.05、0.1、0.25、0.75、0.90、0.95分位数;从图中可以看出,大趋势是随家庭收入增大,食品支出也增加(废话!),但是在给定家庭收入的情况下,食品支出的不同分位数的变化趋势(斜率)是有差别的,高分位变化更陡峭,而低分位相对平缓;说明的实际问题大约也就是恩格尔系数高的家庭更倾向于在食品上花钱。相比起来,最小二乘回归就不能说明这样的趋势,而只能说明前面那句“废话”。图2家庭收入与食品支出:一个分位数回归的例子三、Bootstrap&Jackknife与抽样在统计的世界,我们面临的总是只有样本,Wherethereissample,thereisuncertainty,正因为不确定性的存在,才使统计能够生生不息。传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。JohnFox的那一系列附录中有一篇叫“BootstrappingRegressionModels”,当我看到第二页用方框框标出那句话时,我才对Bootstrap的思想真正有了了解(之前迷茫了很长时间)。Bootstrap的一般的抽样方式都是“有放回地全抽”(其实样本量也要视情况而定,不一定非要与原样本量相等),意思就是抽取的Bootstrap样本量与原样本相同,只是在抽样方式上采取有放回地抽,这样的抽样可以进行B次,每次都可以求一个相应的统计量/估计量,最后看看这个统计量的稳定性如何(用方差表示)。Jackknife的抽样痕迹不明显,但主旨也是取样本的样本,在作估计推断时,每次先排除一个或者多个样本点,然后用剩下的样本点求一个相应的统计量,最后也可以看统计量的稳定性如何。在R中简单随机抽样的函数是sample(),其中有个参数replacement表示是否放回,经典的抽样基本都是不放回(replace=FALSE),而Bootstrap则是replace=TRUE;从FALSE到TRUE,小小的一个变化,孕育了Bootstrap的经典思想。结语:例子暂举这么三个,对于一些大思想,我(不知天高地厚地)尽力以一句话概括出来,看似简单,其实里面的工作还很多,QuantileRegression的老大RogerKoenker等、Bootstrap的老大Efron等都有相应的著作,闲着没事干的同学不妨翻翻,不过我个人并不推荐这种方式,原因是看英文著作太花时间,最好先找点介绍性的材料看看,心里有把握之后再去找详细的材料翻阅。平时学习中我比较注重研究统计模型和方法,但是对于理论性的东西我也有我的看法,到现在为止,我对模型的评判标准可以总结为:其目的能用一句话概括,或者结果能用图形直观展示;(目标)数学公式能对应上某种成熟的生活观念。(手段)如果模型不符合这两条标准,我是不愿花功夫研究学习的。虽然在一定程度上追求模型的“先进性”,但是骨子里仍然认为统计应该与实际有紧密联系,否则统计也没什么存在的价值。所以概括起来,我追求的目标仍然是一个映射(Mapping):从理论到实践。对于统计的理论方法,我一般看两个问题,与上面的标准对应:目标是什么?手段是什么(数学公式是否能与实际对应)?比如对于回归,目标:寻找自变量和因变量之间尽可能精确的(线性或非线性)关系;手段:使误差平方和最小,而误差平方和说明的是什么?就是因变量的期望值与实际值的差距,由于因变量的期望是通过自变量来计算的,因此从实际来看,这里的“差距”越小也就说明自变量与因变量之间的关系越精确——正好与前面的目标对应。类似还能总结出其它例子,比如现在国内应用如火如荼的结构方程模型(SturcturalEquationModel,SEM)——目标:寻找观测变量和潜变量之间尽可能精确的关系;手段:最小化样本协方差阵与理论协方差阵之间的差距。若我们要对统计方法提出质疑,则可以直接从其数学手段切入,比如“最小化样本协方差阵与理论协方差阵之间的差距”是否能保证找出观测变量和潜变量之间的精确关系?把理论和实际的差距转化为协方差阵的差距,这一点从直观上太难想象,不像回归那样,就是两个数字作减法说明差距。因此,我对SEM一直是雾里看花,有些“朦胧感”,这也是我对SEM持保留态度的原因之一,本质就在于我难以构建一个从理论到实际的“映射”。最后再谈一点关于建模的想法。关于统计建模,我一向坚持以“简洁而能说明问题”为首要原则,并且更强调“简洁”;事实上,知道赤池信息量的人都知道,AIC(AkaikeInformationCriterion)的计算是两部分之和,一部分是(-2倍的)对数似然函数最大值,另一部分就是(2倍的)模型未知参数个数,“使AIC尽可能小”是一条著名的统计建模准则,显然,第二部分说的无非就是模型的简洁程度。我反对一味追求数学上的复杂与高深,搞统计不是比谁的数学更拽,要是脱离实际或者对实际没有指导作用,那么模型再花哨、方法再先进也不过是个绣花枕头——中看不中用。曾经有人问我认为什么统计方法最好,我不假思索地回答,“‘散点图’呗!”当然,这里面也有开玩笑的成份,但意思也是想表达统计方法的应用,应该能让人家容易理解你的意图。“文章合为时而著,歌诗合为事而作。”那么,统计为谁而做?大家不妨自行思考吧。统计学专业应该使用什么样的统计软件(写给在统计学院学习的学弟学妹之四)By谢益辉@2008-11-3014:25标签:统计软件,统计分析,表述数据,R语言,SAS,SPSS,Stata,分析数据,收集数据,整理数据

分类:\o"查看基础统计的全部文章"基础统计,\o"查看统计软件的全部文章"统计软件;RSS订阅本文评论;跟踪引用RGui:Win下R的图形界面过去两三年为院刊写了一些稿件,其中一部分是统计技术层面的,一部分是方法论和原则层面的,姑且作为对低年级统计学子们的一些学习建议,目的在于让大家学会擦亮自己的眼睛,辨明统计学的是与非。文章观点仅为一家之言,而且大多数情况下这些观点相对于流行的、教科书式的观点可能有显著差异,因此请各位小心阅读。这次要求我写一篇关于统计软件的介绍,我想我也没这个本事去介绍所有的软件,因此私自把主题改成了“统计学专业应该使用什么样的统计软件”,窃以为这样写更有意义,不然这篇文章就变成了死板的统计软件使用手册。关于统计软件,随着时间的推移,我最终以R语言为中心,基本废弃了其它工具的学习,换句话说,其它统计工具对我来说作用有限,不符合本人的统计分析思想和使用习惯。长话短说,本文的摘要为三个字:用R吧!数据分析的需求毫无疑问,选择都是根据需求而定的。换言之,世上没有万能的好软件。C语言、Fortran语言等低层语言在计算上效率非常高,而且人人都重视计算,但并非所有人都直接选择这些低层语言作为计算工具,原因就是计算速度快不是唯一的需求;SPSS号称统计功能齐全,它最近引进了Python语言,原因是什么?我个人认为模块化的统计分析过程已经不足以满足现代数据分析的需要——没有哪个问题是点鼠标计算一个回归模型就能解决的。我还见过有的公司花了几百万人民币买了SAS软件,其作用只是用来导入导出Excel数据,这就是没有明确需求而盲目选择的典型。统计专业对软件的需求是什么?这要从我们直接从事的工作说起。统计的工作是什么?仍然是那个定义:收集、整理、分析和表述数据。统计软件在收集数据中一般用处不大(只有试验设计可能需要计算机生成试验表),而后三部分则处处需要软件的帮助。整理数据要求软件具有良好的处理原始数据的能力。现实生活中的数据与教科书中的行列二维表格区别往往很大,因此我们需要通过整理把那些看似杂乱的数据变成统计中能使用的数据形式。我认为这种能力反映在两方面:(1)字符处理:例如原始数据为简单的文本格式,我们需要从中提取数据,则需要根据特定的规则读写文本数据,这往往涉及到一边计算一边取数据而不是一口气全读进来,更复杂的情况下还需要正则表达式的帮忙,举例来说,有时候数据分散放在多个文件中,我们需要将含有特定文件名的文件找出来,然后将其中符合条件的行读取出来,最终合并为所需的数据,或再距离来说,我们希望了解某个关键词在Google中随着日期推移,搜索结果数目的变化,这样我们需要动态查询Google网页,每次都把特定位置上的那个数字提出来;这些情况下,数据并非理想中的一张表格形式,需要我们预处理才能使用;(2)数据库的整理:随着数据存储技术的进步,数据往往都被存放在数据库中,统计人员在分析之前需要和数据库交互查询得到自己所需要的变量或观测,这些过程中,SQL是必不可少的,因此对SQL的支持是统计数据整理的基本要求。有人可能会产生疑问,为什么不把这样的工作交给计算机专业的人去做?殊不知统计分析乃是精工细活,数据整理并不仅仅是一个技术问题,更多的是对实际问题和统计模型的理解:我们需要解决什么实际问题?我们需要哪些变量?这些变量从哪里来?统计模型是什么?模型的变量是什么性质(离散、连续)?……在正式分析之前,我们对数据应该还有诸多类似的问题,不然仅仅依靠计算机技术,也许会计算出分类变量的均值(如某班级平均性别为1.35)或连续变量的频数等不合理的数据结果。当然,不可否认的是,纯粹的计算机技术对统计数据整理也是很有帮助的,这时,我们可能需要找计算机专业人士合作。分析数据应该是统计软件的核心功能,显而易见,这要求统计软件的模型方法比较齐全,表面看来,这只是一个数量的问题,然而,它背后还隐藏着两个问题:(1)程序的可靠性或正确性:大多数商业软件都不是开源软件,我们并不知道其背后统计方法在计算机程序上的可靠性,从这一点上来讲,我们只能根据输出结果去判断程序是否可靠,而这种测试方法是非常低效的,因为这是“测标不测本”的做法,我们检验出来的问题说明软件确实在某方面有错误,但还有很多方面我们无法检验,这就如同统计假设检验的道理一样——零假设(软件没问题)可以被拒绝,但不拒绝不能说明零假设就可以被接受;举例来说,Excel在统计计算上漏洞百出,被诟病已久(参见\o"为什么不使用Excel"/cn/tag.php?tag=Excel),然而除了那些被发现的问题,也许还有更多问题,我们(暂时)无法发现;(2)模型方法的变化与更新:我们都知道现在统计方法和模型的更新速度非常快,统计学科的发展日新月异,因此要求统计软件的发展速度能跟上学科的发展,不然统计方法的实施就会大受阻碍。除了这两个问题之外,统计分析还有个特点,那就是它的结果对象往往并不“整齐”,不会是行列二维表格,例如典型的回归分析中得到的结果可能有回归系数及其P值(矩阵形式)、R平方(单个数值)、残差(向量)、AIC(单个数值)等等,这也对统计软件提出了要求:我们需要能够灵活处理统计分析结果的软件,而不是生成无穷无尽的大篇幅报表,报表只是统计分析结果的汇总形式之一,并不一定满足用户的需要,例如有时候我们需要计算多个回归模型,而我们只关心拟合效果如何,因此对于每个回归结果,我们只需要提出R平方或者调整后的R平方之类的统计量并保存起来即可,而不需要输出多篇报表,然后人工去寻找最大的R平方值。表述数据也是统计工作的重要组成部分,我认为这部分和统计分析部分有密切的关系,因为表述往往也含有分析的意味。表面看来这只是一个美学问题,而统计分析结果的表述却不光是美学这么简单。一方面,我们想将结果安排得美观或直观,这需要我们挑选关键的统计量来完成表达,而去掉那些无关紧要的结果,这也要求统计分析结果中的对象可以被任意提取;另一方面,统计图形也是数据表述的核心组成部分,因此要求统计软件有较强的统计图形展示能力。R语言RGui:Windows下R的图形界面R是一门用于统计计算和作图的语言(\o"R主页"),受S语言影响发展而来。R语言最初由新西兰奥克兰大学统计系的RobertGentleman和RossIhaka合作编写。自1997年开始,R语言开始由一个核心团队开发,团队成员来自世界各地的大学和研究机构。迄今为止,R源代码已经经历了近70次主要更新,功能也在不断完善、增强中,主要统计功能包括线性模型/广义线性模型、非线性回归模型、时间序列分析、经典的参数/非参数检验、聚类和光滑方法等。R语言具有免费、开源及统计模块齐全的特征,已被国外大量学术和科研机构采用,其应用范围涵盖了数据挖掘、机器学习、计量经济学、实证金融学、统计遗传学、自然语言处理、心理计量学和空间统计学诸多领域。谈R语言不能不提S语言,因为R语言的发展主要是受S语言和Scheme语言的影响,尤其是在统计分析部分,R和S非常相似。S语言在70年代由贝尔实验室统计部门开发出来,它的设计者们从一开始就做出了三个决定:设计S语言的目的是为了提供一个完整的数据分析环境S语言应该包括交互式图形S语言应该有详细的在线文档从这三点我们可以看出,S的直接目的在于数据分析,这是由于此前统计部门的工作者在实际工作中感觉到了当时的软件在数据分析上的不便,因此想开发一套针对数据分析的环境;统计图形的意义在于用户可以随时调用图形来交互式分析数据,这是探索性数据分析的重要部分,我们也都知道探索性数据分析在统计分析中的地位,因此图形作为S语言的开发重点有长远的战略意义;至于文档,则是统计软件与模型方法的重要连接,它意味着使用统计软件必须清楚文档,而读懂文档的前提是对统计方法有一定的了解,这就要求统计软件使用者具备一定的专业素质,从而避免“垃圾进垃圾出”的情况。深感Fortran语言使用繁琐的S语言设计者们在一个大的Fortran库的基础上设计出了易用的S语言,它省去了每次都编写低层程序的麻烦,而只需要在高层语言中调用低层语言计算。这对那些常规的统计分析过程来说大大减轻了编程的工作,甚至可以说,常规的统计分析从此不需要“编程”了。S语言于1998年获得了ACM(美国计算机学会)的软件系统奖,获奖的原因是:S系统永久性改变了人们分析、图示和处理数据的方式S是一个精致、广为人们接受和不朽的完整软件系统注意S语言是所有统计软件中唯一获此殊荣的软件系统。S语言后来逐渐发展成为了商业软件S-Plus,但最初S语言的源代码都是被公布在网络上,因此R的几位作者可以参考S语言的源代码开发R语言,后来R语言也成为了自由软件的成员,获得了越来越多的支持者,大家开始为它找错误和漏洞、编写代码、撰写文档并对用户提供帮助。这所有的工作都是无偿的。R语言除了在统计计算和统计作图上的方便之外,其面向对象的编程方式为统计分析带来了本质性的革命。在R里面,几乎所有的东西都是对象。每个对象都有自己的属性,我们可以自由操纵这些对象及其属性,包括提取、修改子对象,以及保存对象等。既然统计模型能和对象对应起来,那么只要一个新的对象在数学理论上存在或可计算,那么就可以很快用R写出来,而且用R写程序非常简便,一般来说它的代码几乎可以和数学公式完全对应,例如一个变量的m阶样本中心矩:数学上为,R里面为sum((x-mean(x))^m)/length(x);再如回归系数向量(注意实际上R不是直接用下面这种矩阵求逆的方式计算的):数学上为,R里面可以写作solve(t(x)%*%x)%*%t(x)%*%y;可以看出,R编程具有数学上的优越性,它内在的隐循环让我们节省了大量写繁琐代码的时间和精力,以上的例子若用低层代码编写必不可少涉及到大段的显式循环,而R将这些过程打包交给低层代码去计算,从而简化了编程的工作。实际上即便是这种“编程”在R里面也不多见,诸如回归等模型都有特定的函数lm()去计算,用不着我们自己写程序。从这种意义上来说,R没有图形界面完全不重要,因为在其它带图形界面的软件中点菜单本质上就是在设定函数的参数,对R来说只是敲键盘的事情。而R里面有大量能做的工作通过菜单操作是不可能做到的。这样的例子数不胜数。(插播小广告:写这篇文章听着歌,刚好听到五月天的一首歌,让我想类比一句话:R只因统计而生!广告完毕。)R与统计结合之紧密,是需要时间去体会的,这种味道,我在其它软件中没有感觉到过。这里不再多举例,仅留几个问题供大家思考、玩味:为什么R很多函数对缺失值的处理方式是不要删掉缺失值(na.rm=FALSE),从而使得计算结果为NA?为什么连简单的计算均值的函数mean()还有trim参数?均值不就是把所有数字加起来除以样本量么?为什么R、Excel、SPSS、SAS等软件计算出来的分位数可能不一样?样本分位数的计算有多少种方法?参见quantile()函数。为什么简单的箱线图还有notch参数?为什么直方图hist()不能像SPSS那样自带选项让用户添加一条正态分布的密度曲线?Stata软件Stata统计软件由美国计算机资源中心(ComputerResourceCenter)1985年研制。特点是采用命令操作,也可以菜单操作,程序容量较小,统计分析方法较齐全,计算结果的输出形式简洁,绘出的图形精美。不足之处是数据的兼容性差,占内存空间较大,数据管理功能需要加强。网址:。Stata是各种商业统计软件中我最喜欢的一款(先声明我没有收取广告费),当然不管什么统计软件在我眼中都离R差远了,但是Stata确实做得还不错,虽然它的名声远不如SAS和SPSS,但其统计模块非常齐全,打开看看菜单就知道了。尤其是计量经济学和医学统计的人,如果惧怕写代码,不妨试试Stata。它分析小型数据应该是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论