统计DOC.doc_第1页
统计DOC.doc_第2页
统计DOC.doc_第3页
统计DOC.doc_第4页
统计DOC.doc_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计人类对事物数量的认识形成的定义。汉语中的“统计”有合计、总计的意思。英语中的“统计”(statistics)词源:德语 Statistik ,政治学;新拉丁语 sta tisticus ,国事;意大利语statista ,老练的政客;旧意大利语、拉丁语 status ,形势,政体。统计一词有三方而含义:()统计工作。指搜集、整理和分析客观事物总体数量方面资料的工作过程,是统计的基础。()统计资料。统计工作所取得的各项数字资料及有关文字资料,一般反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。()统计科学。研究如何搜集、整理和分析统计资料的理论与方法。统计工作、统计资料、统计科学三者之间的关系是:统计工作的成果是统计资料,统计资料和统计科学的基础是统计工作,统计科学既是统计工作经验的理论概括,又是指导统计工作的原理、原则和方法。常用统计方法:均值;中位数;众数;正态分布;抽样;标准差;概率论;t检验;方差分析;卡方检验; 统计 (1) statistics;count;add up 大量数据的收集、分析、解释和表述人口统计(2) 亦指总括地计算把全国报来的数据统计一下 (一)“统计”一词的由来“统计”一词,英语为statistics,用作复数名词时,意思是统计资料,作单数名词时,指的是统计学。一般来说,统计这个词包括三个含义:统计工作、统计资料和统计学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学来源于统计工作。原始的统计工作即人们收集数据的原始形态已经有几千年的历史,而它作为一门科学,还是从17世纪开始的。英语中统计学家和统计员是同一个(statistician),但统计学并不是直接产生于统计工作的经验总结。每一门科学都有其建立、发展和客观条件,统计科学则是统计工作经验、社会经济理论、计量经济方法融合、提炼、发展而来的一种边缘性学科。1,关于单词statistics起源于国情调查,最早意为国情学。十 七世纪,在英格兰人们对“政治算术”感兴趣。1662年,John Graunt发表了他第一本也是唯一一本手稿,natural and politics observations upon the bills of mortality, 分析了生男孩和女孩的比例,发展了现在保险公司所用的那种类型的死亡率表。英文的statistics大约在十八世纪中叶由德国学者 Gottfried Achenwall所创造,是由状态status和德文的政治算术联合推导得出的,第一次由John Sinclair所使用,即1797年出现在Encyclopaedia Britannica。(早期还有一个单词publicitics和statistics竞争“统计”这一含义,如果得胜,现在就开始流行 publicitical learning了)。2,关于高斯分布或正态分布1733年,德-莫佛(De Moivre)在给友人分发的一篇文章中给出了正态曲线 1783年,拉普拉斯建议正态曲线方程适合于表示误差分布的概率。1809年,高斯发表了他的关于天体运行论的伟大著作,在这一著作的第二卷第三节中,他导出正态曲线适宜于表示误差规律,同时承认拉普拉斯较早的推导。正态分布在十九世纪前叶因高斯的工作而加以推广,所以通常称作高斯分布。卡尔-皮尔逊指出德-莫佛是正态曲线的创始人,第一个称它为正态分布,但人们仍习惯称之高斯分布。3,关于最小二乘法1805年,Legendre提出最小二乘法,Gauss声称自己在1794年用过,并在1809年基于误差的高斯分布假设,给出了严格推导。4,其它在十九世纪中叶,三个不同领域产生的重要发展都是基于随机性是自然界固有的这个前提上的。阿道夫凯特莱特(A. Quetlet,1869)利用概率性的概念来描述社会学和生物学现象 孟德尔(G.Mendel,1870)通过简单的随机性结构公式化了他的遗传法则玻尔兹曼(Boltzmann,1866)对理论物理中最重要的基本命题之一的热力学第二定律给出了一个统计学的解释。1859 年,达尔文发表了物种起源,达尔文的工作对他的表兄弟高尔登爵士有深远影响,高尔登比达尔文更有数学素养,他开始利用概率工具分析生物现象,对生物计 量学的基础做出了重要贡献(可以称他为生物信息学之父吧),高尔登爵士是第一个使用相关和回归这两个重要概念的人,他还是中位数和百分位数这种概念的创始 人。受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。5,关于总体和样本在早期文献中可找到由某个总体中抽样的明确例子,然而从总体中只能取得样本的认识常常是缺乏的。 -K.皮尔逊时代到十九世纪末,对样本和总体的区别已普遍知道,然而这种区分并不一定总被坚持。-1910年Yule在自己的教科书中指出。在 1900年代的早期,区分变的更清楚,并在1922年被Fisher特别强调。-Fisher在1922年发表的一篇重要论文中On the mathematical foundation of theoretical statistics,说明了总体和样本的联系和区别,以及其他概念,奠定了“理论统计学”的基础。6,期望、标准差和方差期望是一个比概率更原始的概念,在十七世纪帕斯卡和费马时代,期望概念已被公认了。K.皮尔逊最早定义了标准差的概念。1918年,Fisher引入方差的概念。力学中的矩和统计学中的中数两者之间的相似性已被概率领域的早期工作者注意到,而K.皮尔逊在1893年第一次在统计意义下使用“矩”。7,卡方统计量卡方统计量,是卡-皮尔逊提出用于检验已知数据是否来自某一特定的随机模型,或已知数据是否与已给定的假设一致。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。8,矩估计与最大似然卡-皮尔逊提出了使用矩来估计参数的方法。Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。9,概率的公理化1933年,前苏联数学家柯尔莫格洛夫(Kolmogorov)发表了概率论的基本概念,奠定了概率论的严格数学基础。10,贝叶斯定理贝叶斯对统计学几乎没有什么贡献,然而贝叶斯的一篇文章成为贝叶斯学派统计学的思想模式的焦点,这一篇文章发表于1763年,由贝叶斯的朋友、著名人寿保险原理的开拓者Richard Price在贝叶斯死后提出来的-贝叶斯定理。概 率思想的两种方法,(1)作为一个物理系统内在的一种物理特性,(2)对某一陈述相信程度的度量。 在1950年代后期止,多数统计学家采取第一种观点,即概率的相对频数解释,这一时期贝叶斯定理仅应用在概率能在频数框架内解释的场合。贝叶斯统计学派著 作的一个浪潮始于1960年。自此,赞成和反对贝叶斯学派统计的两方以皮尔逊和费舍尔所特有的激情和狂怒进行申辩和争辩。 在1960年以前,几乎所有的统计书刊都避免使用贝叶斯学派方法,Fisher坚持避免使用贝叶斯定理,并在他的最后一本书中再一次坚决的拒绝了它。卡尔-皮尔逊偶然使用,总的来说是避免的。奈曼和E.S.皮尔逊在他们有关假设检验的文章中坚决反对使用。 编辑本段(二)近代统计学近代统计学指的是18世纪末到19世纪末的描述统计学,其发展过程与概率论的广泛研究和应用密切相关。目前在统计分析中经常使用的一些基本方法和术语都始于这一个时期,比如:最小平方法、正态分布曲线、误差计算等等。在近代统计发展的一百年中,也形成了许多学派,其中以数理统计学派和社会统计学派最为著名。数理统计学派的原创始人是比利时的A凯特靳,其最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究;社会统计学派的首倡者是德国的K克尼斯,他认为统计研究的对象是社会现象,研究方法为大量观察法。在近代统计学的发展过程中,这两学派的矛盾是比较大的。*【统计分析方法总结】*1.连续性资料1.1 两组独立样本比较1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。1.1.3 资料方差不齐,(1)采用Satterthwate 的t检验;(2)采用非参数检验,如Wilcoxon检验。1.2 两组配对样本的比较1.2.1 两组差值服从正态分布,采用配对t检验。1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。1.3 多组完全随机样本比较1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的KruscalWallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。1.4 多组随机区组样本比较1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。*需要注意的问题:(1) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。(2) 当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。*绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确*(3) 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。2分类资料2.1 四格表资料2.1.1 例数大于40,且所有理论数大于5,则用普通的Pearson 检验。2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或Fishers确切概率法检验。2.1.3 例数小于40,或有理论数小于2,则用Fishers确切概率法检验。2.2 2C表或R2表资料的统计分析2.2.1 列变量行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目总格子数目的25,则用Fishers确切概率法检验。2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验。2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。2.3 RC表资料的统计分析2.2.1 列变量行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目总格子数目的25,则用Fishers确切概率法检验。(3)如果要作相关性分析,可采用Pearson相关系数。2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论