下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学的领域写给在统计学院学习的学弟学妹如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍。统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:收集、整理、分析和表述(数据)。按照这个流程,统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”,说实话这个题目有些狂妄。够资格写这种题目的人,恐怕至少应该在统计学界混过数十载。不幸的是,本人一向提倡“人不猖狂枉少年 ”。 如果没有足够的热情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鸿鹄之志?此为题外话。1、收集数据一般来说,数据的来源无非是试验和调查。
2、 平时我们谈统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。就我们这种纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、 医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法; 对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等), 另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”, 当然如果有统计学的指导,我们也会发现一些让人变聪明的技
3、术,举个例子,对于吸毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒), 对于这种情况我们该怎么处理?暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。对于我们这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?2、整理数据数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情, 你总不能把
4、那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。 在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。空着调查项目不填写的我们 称 之 为 缺 失 值 ( Missing Value ) , 胡 乱 填 写 的 可 能成 为 离 群 点 或 野 值( Outlier ) ,对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析, 不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。当然数据的整理还包括很多其它内容,诸如重新编码( Recode) 或者进行某种综合计算等等,这里不详谈,因
5、为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的前沿知识有所了解。关 于缺 失值的 处理, 目前已 经发展 起来 比较完 备的 插 补技术( Imputation ) , 这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EMB法、Bootstrap、Jackknife、MCMCMonte-Carlo Markov Chain )等知识。相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的
6、学分绩太高以至于成了“野值”,我们就不能把他 / 她从班里“删除”,而应该借鉴学习经验)。3、分析数据不可否认,当今社会对于统计的需求,大部分都在于这一块。数理统计的纸老虎 会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P 值、 置信区间、 卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北, 然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用, 要花很多钱购买,更可怕的还都是英文的, 我琢磨着,他们一定心想
7、,苍天呐,如果还有来生,我, 一定要学统计,作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计 与 推断统计 了(事实上按照C. R. Rao书中写的,还应该包括探索性统计分析);描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等, 而是公布一个总数,让大家对我
8、国的国力有大致的了解; 推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。推断统计中,根据是否需要对分布作假设又可以分为参数统计和非参数统计, 后者出现的年代要晚,因此在理论和应用方面可能不如前者, 二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。相关的名词恐怕也不是一两页纸能列举完的:相关分析(包括典型相关分 析)、回归分析
9、(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生 存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法(OLS而不知道偏最小二乘法(PLS)这样的名词, 那只能说明你还在一个古董世界徘徊,需要加把劲了。关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。可以看出,国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”,我
10、就不诱导大家了,这对于国内统计学的长远发展不太有利。还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思索”地给你输出漂亮的结果。 (统计软件有时候挺害人的,不要完全相信它们)4、表述数据我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。你要是把统计软件输出的P 值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。统计是用来说明问题的,不是用来吓唬人的。把我们的分析结果表述给人家看, 就需要经过一定
11、的“转化”。 不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为 人们为它的分析结果找到了巧妙的解释。上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。表格中的数据不使用右对齐(或小数点对齐)、 图形画得花里胡哨或土里土气,都会让统计的功效受损,虽然只是“面子问题”。 学了那么长时间的统计,不应该不知道 图的标题 应该写在图下方 而 表的标题 应该写在表上方 , 平时看文章多注意别人是怎样表达的。好了, 统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势: 一方面是 学科结合 的趋势, 单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其
12、它各个学科,若不是这些学科给统计学“出难题”, 统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?心理学会问你,人的情商是一个隐变量,应该怎样测量?金融学会问你,股票市场上时序数据的异方差怎样处理?市场营销学会问你, 怎样从超市的海量数据中挖掘出有用的商品信息?法学会问你,某甲杀人的概率有多大?新闻传播学会问你,大众对某位候选者的真实支持率有多高?等等 , ; 另一方面是计算机的广泛应用趋势, 我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2 绝对是不可能了, 计算机方面又尤其要数编程能力 最重要, 这番话是对
13、那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。我在中国人民大学统计学院已经学习了四年, 感触颇多,牢骚也不少。生活 方面不多说,大家最好早点学会 自强自立,早已经过了 18岁,有空听听郑智化 的水手。学习方面说这样几点吧:首先,不要指望你的老师会教给你所有的知识, 同时也要明白你所学的知识 是很不全面的。大学与高中不一样,这里不是一个纯粹的教学的地方, 更多地是 思想碰撞交流的地方。如果到现在你还在上课时埋头认真地把老师说的每一个字 记下来,那么你可能还没理解什么叫大学。 统计学纷繁芜杂的体系,
14、不是老师在 几节课上能讲出来的。老师可以告诉你,统计学都有什么内容,剩下的就是你自 己多多努力奋斗。其次,攻书莫畏难。可能这也是大学与高中的区别之一, 高中某一道题不会 做可能会影响你的考试成绩,而大学则不是用来为难人的地方。 此路不通可以走 彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看, 总 之要有自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。不 过话说回来,不要被我误导,我不是说可以随意放弃一些课程, 基础仍然是要打 好的,在这个条件下,你可以选择自己擅长的方向发展。再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源, 注意上网看看,学校都购买了大量的 论文数据库,不用实在可惜了。里面的统计 刊物可以趁早接触一些,对于论文写作以及知识面的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学五年级语文教学计划范例
- 八年级班级工作计划例文模板
- 村河道年度工作计划范本
- 小班礼仪教育教学计划书例文
- 《施肥技术》课件
- 2024年秋季学期小学英语教研计划
- 行政文员工作计划例文
- 有关学生会宣传部工作计划范文
- 有关学期体育工作计划模板
- 2024幼儿园大班保教工作计划格式
- 高新技术企业自查表
- 少数民族黎族民俗文化科普介绍
- 《学前儿童数学教育活动指导》期末复习题(附答案)
- 2024年羽毛球行业商业计划书
- 危重症患者的常见并发症的监测与预防
- DL∕T 618-2022 气体绝缘金属封闭开关设备现场交接试验规程
- 生活中的新能源-生物质能源智慧树知到期末考试答案章节答案2024年东北林业大学
- 24春国家开放大学《班级管理》形考任务1-4参考答案
- CNC部年度总结与来年规划
- 智能高速铁路概论 课件 第六章 高速铁路智能运营V2
- 第11讲 定语从句(练)-2024年高考英语一轮复习讲练测(新教材新高考)(原卷版)
评论
0/150
提交评论