版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数理统计课简介王兆军南开大学统计研究院天津,22+2349823322+23698465自我介绍他们是? Zhaojun WANG王兆军 Its me!王昭君目录三位名人数理统计课内容本课的几个侧重点不足之处南开数理统计课简介估计随机模拟抽样分布假设检验本课的几个侧重点统计与数学的区别统计史及产生的背景注重统计的应用特点不过分强调理论点与点的结合数表的生成不足之处与计算机语言的结合习题不够丰富例题的时代感不强某些内容的欠缺(某些理论的证明、非参、Bayes统计、方差分析等)某些结果的理论叙述不够严谨多谢王兆军Tel: 022+23498233(O)Email: Http:/ /zjwang 统
2、计与数学的区别(一)统计与数学的区别(二)e统计与数学的区别(三)统计学数学出发点数据定义和公理研究方法归纳演绎评价方法好与坏对与错统计与数学的区别(四)统计与数学的区别(五)统计与数学的区别(六)统计与数学的区别(七)什么是统计?数据是什么?Data = ¥Science, 2011年2月刊封面2012年3月29日奥巴马政府投入2亿多美元启动“大数据发展研究计划”(Big Data Research and Development Initiative)是美国继1993年宣布“信息高速公路计划”后又一重大科技战略部署,标志从商业、学术层面上升到国家战略。Wikipedia(维基百科)A te
3、rm for a collection of data that are very large and complex so that it is difficult to process and analyze using on-hand database management tools, traditional data processing methods and analysis methodologies .ZB(1021), EB(1018), PB(1015), TB(1012), GB(109), MB(106)什么是大数据?Why difficulty? Big data
4、challenges the existing information technologies, management paradigm, statistical and computa- tional sciences.Volume大数据的特征 PBZB in scale Distributed storage and processing necessary Growing tremendously Data flow Multisource, correlated, heterogeneous Unstructured, unreliable, inconsistent.Total d
5、ataset embodies great value Individual or small subset contains less informationVelocityVarietyValue20131814201统计与数学的区别(八)返回统计史及某些背景(一)Ronald Aylmer Fisher (1890. 2. 17-1962. 7. 29) PL HSU (1910-1970)Karl Pearson (1857-1936)统计史及某些背景(二)统计的起源(史宁中)Fisher 提出的显著性检验(女士品茶)试验设计(DOE)充分完备统计量(与Edington的争论)t分布(
6、Student的笔名)卡方拟合优度检验(G. Mendel)Bayes估计(产品质量检验)返回注重统计的应用特点上届数理统计期未成绩(分析与检验)死刑数据的列联表分析(茆诗松等)统计与欺骗(何书元)回归诊断(韦博成)非参数统计(Wilcoxon,Mann & Whitney)抽样调查(Mahalanobis)吸烟与肺癌(Fisher & Cornfield)SPRT检验(Wilks)几本参考书(非理论)返回不过分强调理论区间估计只讲枢轴量法不给出Kolmogorov检验的理论证明经验分布函数的Bahadur表示不讲证明略讲次序统计量不讲U统计量、M估计、L估计、R估计、同变检验、Minimax
7、估计等理论在应用中的重要性 1883年8月15日,美国物理学家Henry Augustus Rowland(1848-1901)在美国科学促进会年会上发表了一则被誉为是美国科学的独立宣言的演讲为纯科学呼吁,文章发表在科学杂志上。理论在应用中的重要性 他说,“我时常被问及,科学与应用科学究竟何者对世界更重要,为了应用科学,科学本身必须存在,如停止科学的进步,只留意其应用,我们很快就会退化成中国人那样,多少代人以来他们都没有什么进步,因为他们只满足于应用,却从未追问过原理,这些原理就构成了纯科学。中国人知道火药应用已经若干世纪,如果正确探索其原理,就会在获得众多应用的同时发展出化学,甚至物理学。因
8、为没有寻根问底,中国人已远远落后于世界的进步。我们现在只将这个所有民族中最古老、人口最多的民族当成野蛮人。当其他国家在竞赛中领先时,我们国家(美国)能满足于袖手旁观吗?难道我们总是匍匐在尘土中去捡富人餐桌上掉下的面包屑,并因为有更多的面包屑而认为自己比他人更富裕吗?不要忘记,面包是所有面包屑的来源。” 返回点与点的结合拟合优度检验显著性检验-UMP检验-UMPU检验区间估计、抽样分布、显著性检验的结合随机数、模拟的有机结合返回数表的生成本讲义的所有数表均是由Fortran程序生成,且某些数表与传统给出的值有所不同,如W检验统计量的系数表是由IMSL精确求解得到的(与模拟结果一致)返回返回估计点
9、估计区间估计准则方法枢轴量法极限分布法Bayes估计无偏性、UMVUE相合性,ASN、LSE矩估计、MLEEW算法返回UMP,UMPUUMPU分布、列联表返回返回2009年8月5日什么是统计?统计学是收集和分析数据的科学与艺术 (不列颠百科全书)数理统计学是数学的一个分支,它是一门用有效的方法收集和分析带有随机影响的数据的学科,且其目的是解决特定的问题(陈希孺院士)数理统计是一门应用性很强的学科,它是研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断或预测,直至为采取决策和行动提供依据和建议的一门学科。(茆诗松)返回统计学的起源(一) 中国在周朝就设有统计官员,称为司书。
10、设立“司书上士二人,中士四人,府二人,史二人,徒八人。” 负责 “邦之六典,以周知入出百物,以知田野夫家六畜之数。” (见周礼天官冢宰)统计学的起源(二) 管子问中提到65个问,即65个调查科目,均为管理国家所需要的数据。比如, “问少壮而未胜甲兵者几何人?” “为一民有几年之食也?” 等等。(平均数、众数?)返回女士品茶试验 20世纪20年代后期,在英国剑桥的一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”呲之
11、以鼻。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很有兴趣。(实际上这位女士正确地分辨出了每杯茶)返回Design of Experiment000001010011100101110111乾 坤震 巽 坎 离 艮 兑 这是一个最基本的正交表返回Fisher与Edington的争论返回 William Sealey Gosset (1876-1937) 1899年进入Guinees Brewing Company,于1904年发表一篇文章中,说明酵母中的细胞数量的分布是Poisson分布,并不属于K. Pearson偏斜分布中的一员。之后,于
12、1908年在Biometrika上以Student为名发表了t分布(Guiness公司并不允许员工发表文章)。Gosset是K. Pearson与Fisher之间的中间人。返回Gregory Mendel (1822-1884)Karl Pearson(1857-1936)返回Bayes估计(一)Thomas Bayes (1702-1761)Bayes估计(二)No.nXMLEBayes15510.8752202010.95535000.143420000.045返回2008届数理统计成绩分析(一)2008届数理统计成绩分析(二)2008届数理统计成绩分析(三)John Tukey 统计界的
13、毕加索 (1915-2000)返回 普林斯顿大学统计系主任和贝 尔试验室,二战期间,加入武器控制研究办公室(Fire Control Research Office),研究枪炮的瞄准、测距仪与枪炮有关的问题 Exploratory data analysis、FFT、boxplot、steam and leaf plots、robust等死刑数据(一)被告死刑合计是否白人19141160黑人17149166合计36290326数据:美国佛罗里达,1976-1977年凶杀案结论:白人被判死刑的比例为:19/160=11.9% 黑人被判死刑的比例为:17/166=10.2%死刑数据(二)被告被害死
14、刑死刑比例是否白人白人191320.126黑人090.000黑人白人11520.175黑人6970.058Contingency Table (列联表)返回统计与欺骗 有一个人陆续收到一个人的Email告之明天足球比赛的结果,连续五次都预测对了。第六次时他要求你付200块给他以知明天的比赛结果,你说这个人有预测比赛的能力吗? (如果此人是猜的话,连续猜对五场的概率是1/25=0.031) (详见何书元著概率论与数理统计2006)返回回归诊断返回非参数统计(一) Frank Wilcoxon(2 Sept 1892 - 18 Nov 1965) Henry B. Mann (1905-2000)
15、非参数统计(二) 20世纪40年代,Wilcoxon是美国氰胺公司的化学家,他在进行某项化工实验,发现实验之初当反应发生器并未充分预热时,常常是某个数据要么过大、要么过小,而此时的t检验极易受到这些异常值的影响。他查了许多资料也没有找到相应的解决方法,于是他自己提出了一种基于数据秩的方法,只是其计算非常繁琐。他想:这不是一个化学家应该做的,统计学界早就有人完成了这一工作,但他还是找不到相应的文献。于是,他便文章寄给了Biometrics,希望审稿人告诉他所需要的参考资料,然而,审稿人认为这是一篇原创性的工作,于1945年发表了此文。非参数统计(三) Wilcoxon与Biometrics的编辑
16、们都不知道,OSU的一位经济学家Henry B. Mann和一位统计学研究生D. Ransom Whitney也在做一个相关的研究,并于1947年发表了一篇结果与Wilcoxon提出的方法类似的文章。 上述两篇文章中无需使用参数就可以处理数据的分布了(这是K. Pearson一再要求的)。 实际上,在西方多数人不知道,20世纪30年代后期,苏联的Kolmogorov与其学生Smirnov已发展了一种不需使用参数的分布比较方法。非参数统计(四) Andrey N. Kolmogorov-数学界的莫扎特 (1903-1987)返回抽样调查(一)加尔各答市总统学院物理系教授、主任20世纪20年代到英
17、国师从K. Pearson 和Fisher1931年成立Indian Statistical Institute1933年出版Sankhya1962年Fisher自印度返回澳大利亚的船上去世Prasanta Chandra Mahalanobis (1893-1972)抽样调查(二) 20世纪初,当Mahalanobis在铁道公司工作时遇到了如下例子:为检验装在船上准备从孟买运到英国的黄麻的质量,就用一种特殊的工具插入包中,从检测带出的少量黄麻来估计整包的质量。而在包装和上船过程中,外层的黄麻开始变质,而里面的被压得越来越紧,冬天时常常冻得结成一块。于是,当取样员将刀插入时会发生偏离,而此时所
18、取的样本就不能真正代表总体分布了,这与K. Pearson的指导思想严重不符。 另外,在人口普查时,由于印度人多且普查时间不同,故精度有限。于是,Mahalanobis推断:如果能够收集到一个具有充分代表性的小样本,则可以用它来估计总体特征。返回吸烟与肺癌(一) R. A. Fisher (1890-1962) Jerome Cornfield (1912-1979) Jerzy Neyman (1894-1981)吸烟与肺癌(二)1958年,Fisher在Nature上发表了两篇文章“Lung cancer and cigarettes?”和“Cancer and smoking”。他认为吸
19、烟会导致肺癌的证据严重不足。 Neyman 也认为将肺癌与吸烟联系起来的研究推理中存在问题。随着证据的增多,Neyman慢慢地也似乎认可二者间的联系,但Fisher仍强烈反对。吸烟与肺癌(三)Fisher指出:不通过随机化实验,根本无法证明任何东西。(统计相关性与因果关系是不相同的)1959年Cornfield与5位来自美国的顶尖癌症专家联合撰写了一篇30页的论文。此文指出:有关证据压倒性地支持“吸烟是人类肺部表皮癌发生率迅速上升的原因之一”。吸烟与肺癌(四)原方法:肺癌患者中的吸烟人数大大高于非肺癌患者中吸烟人数。 (有两种方法:追溯性研究(retrospective studies):从一
20、种疾病开始着手,向后看与此病相关的有什么先决条件。其不足是对照组与病例组不匹配;事先研究(prospective studies):事先选定一群人,详细记录他们的吸烟史及疾病情况。其不足是研究是小范围的,结论也许只是针对某个特定群体而言的)Cornfield方法:他们搜集了1958年前不同国家、不同总体所做的30项流行病学研究。返回SPRT检验(一)Samuel S. Wilks (1906-1964)Abraham Wald (1902-1950)SPRT检验(二) 20世纪40年代,Wilks在普林斯顿大学数学系工作,并任华盛顿海军研究局顾问,成立了普林斯顿统计研究小组(SRG-P)。当Theodore W. Anderson还是此小组的研究生时研究了如下课题:由于日本人以随机形态在海岸线上布满地雷,而进攻日本本土日子越来越近,故美国需要找出一种毁坏地雷的有效方法。在此之前,欧
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新建标准化厂房工程建设项目可研报告
- 《古诗鉴赏技巧》课件
- 《产品维护安全知识》课件
- 过零丁洋-文天祥-课件
- 《沁园春·雪》第二课时人教版九年级语文上册课件
- 2025年上海市崇明区高三语文一模试卷及答案
- 2015年云霞昆明中考满分作文《语文课上》
- 《企业经营实战模拟》课件
- 《仓库管理基础知识》课件
- 幼儿园秋季卫生保健工作总结(4篇)
- 2024年呼吸内科护理工作计划模版(4篇)
- (三级)工业机器人运用与维护理论考试复习题库(含答案)
- 农贸市场通风与空调设计方案
- 辅导员年度述职报告
- 医疗器械经营质量管理制度
- 第25课《周亚夫军细柳》复习课教学设计+2024-2025学年统编版语文八年级上册
- 2024年教师资格考试高级中学面试语文试题及解答参考
- 2024年广东省深圳市中考英语试题含解析
- 部编版小学五年级上册道德与法治单元检测试卷含答案(全册)
- 四年级英语上册 【月考卷】第三次月考卷(Unit 5-Unit 6) (含答案)(人教PEP)
- 2024-2030年分析仪器行业市场发展分析及发展趋势与投资研究报告
评论
0/150
提交评论