统计学的基础知识学习教案_第1页
统计学的基础知识学习教案_第2页
统计学的基础知识学习教案_第3页
统计学的基础知识学习教案_第4页
统计学的基础知识学习教案_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1第一页,共112页。统计学statistics统计学是收集、分析、解释(jish)与报告数据资料的一门科学。“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 国际(guj)大辞典第1页/共112页第二页,共112页。1. 总体与样本2. 变量(binling)与随机变量(binling)3. 同质与变异4. 参数与统计量5. 误差与错误6. 准确性与精确性第2页/共112页第三页,共112页。样本

2、:从总体中随机抽取的部分(b fen)观察单位。如某单位男士的身高总体:根据研究目的确定的同质(tn zh)研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体第3页/共112页第四页,共112页。第4页/共112页第五页,共112页。p变量可以测量的任何特征或属性(shxng)。Any characteristic or attribute that can be measured。p 如热量值、蛋白质含量、碳水化合物含量。p随机变量在概率论中称变量为随机变量 2、变量(binling)与随机变量(binling)Variable and random variable第5页/共11

3、2页第六页,共112页。第6页/共112页第七页,共112页。参数(cnsh):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为、。通常是固定的常数。 抽样 统计量 参 数 推断统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。SX、第7页/共112页第八页,共112页。误差:试验中不可控因素所引起的实际观察值与客观(kgun)真实值(真值)之差p 系统误差 systematic errorp 随机误差 random error错误:试验过程中,人为作用引起(ynq)的差错 如药品称量错误,数据录入错误等第8页/共112页第九页,共112页

4、。 误差(wch)(Error)测量值 = 真值 + 随机误差(wch) +非随机误差(wch) Xi = i + i 1随机误差(wch)(抽样误差(wch)): 影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。 2系统误差(wch) 受确定因素影响,大小变化有方向性。 3非系统误差(wch)(错误) 研究者偶然失误而造成的误差(wch)。偏差bias可以(ky)避免第9页/共112页第十页,共112页。一致百分率、Kappa值)。第10页/共112页第十一页,共112页。系统误差使数据(shj)偏离了其理论值,影响数据(shj)的准确度。随机误差使数据(shj)相互分散,影响

5、了数据(shj)的精密度。准确度和精密度都好 准确度差、精密度好 准确度?精密度差 准确度和精密度都差 第11页/共112页第十二页,共112页。第二节 计量(jling)资料的统计描述 连续型变量(可测量的变量)频数表与频数分布平均指标(算术均数、几何均数、中位数、众数)变异指标(极差、百分位数与四分(s fn)位间距、方差、标准差、变异系数)第12页/共112页第十三页,共112页。第13页/共112页第十四页,共112页。第14页/共112页第十五页,共112页。第15页/共112页第十六页,共112页。男子(nnz)血清总胆固醇水平(mmol/L) Stem-and-Leaf Plot

6、 Frequency Stem & Leaf 5.00 2 . 78999 34.00 3 . 5555555566666666777778888999999999 35.00 4 . 55555555566666666677777888888899999 10.00 5 . 5555677899 4.00 6 . 0022 Each leaf: 1 case (s)第16页/共112页第十七页,共112页。总称为平均数(average)反映了资料的集中趋势(central tendency)。常用的有: 1. 算术均数(arithmetic mean),简称均数(mean) 2. 几

7、何均数(geometric mean) 3. 中位数 (median) 4. 众数(zhn sh)(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)第17页/共112页第十八页,共112页。nXnXXXXn21iiikkkfXfffffXfXfXfXfX321332211适用条件:资料(zlio)呈正态或近似正态分布的资料(zlio)第18页/共112页第十九页,共112页。nXXnXXXXnXGnGlglglg)lglg(lg1lg121nnGXXXX21第19页/共112页第二十页,共112页。适用条件:呈倍数关系的等比资料或对数

8、(du sh)正态分布(正偏态)资料;如增长速度、抗体滴度资料抗体的效价滴度的倒数(do sh)分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211GX此例的算术均数为22222,显然不能代表滴度的平均水平。对于同一资料,几何均数 中位数众数(zhn sh)负偏态分布时:均数中位数众数(zhn sh)第25页/共112页第二十六页,共112页。xnxxxnnH1111111)(121第26页/共112页第二十七页,共112页。 某种转基因鱼不同世代(shdi)鱼群保种的规模分别为:F0代200尾,F1代400尾

9、,F2代600尾;F3代900尾,F4代1500尾,试求其平均规模。4570.002191(0.0109)1)(1H5115001900160014001200151第27页/共112页第二十八页,共112页。几种(j zhn)平均数之间的关系第28页/共112页第二十九页,共112页。5% trimmed mean:将一组数中去掉(q dio)最小的5数值,再去掉(q dio)最大的5,然后将剩余的90计算平均值得出的数值。减小了极端值的影响。 截尾(ji wi)平均值第29页/共112页第三十页,共112页。 反映数据(shj)的离散度(Dispersion )。即个体观察值的变异程度。常

10、用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差 Standard Deviation 5. 变异系数 Coefficient of Variation第30页/共112页第三十一页,共112页。minmaxXXR优点:简便缺点:1. 只利用了两个(lin ) 极端值 2. n大,R也会大 3. 不稳定第31页/共112页第三十二页,共112页。百分位数 :数据从小到大排列,在百分尺度下,所占百分比对应(duyng)的值。记为Px。 四分位间距Quartile

11、range:QRP75 P25四分位半间距Quartile deviation:QDQR/2XFrequency 25%75%第32页/共112页第三十三页,共112页。 方差 (variance)也称均方差(mean square deviation),样本(yngbn)观察值的离均差平方和的均值。表示一组数据的平均离散情况。NXXSSXxxxn22221)-()-(square of Sum0)-()(.)()(总体方差)离均差平方和(离均差和11)(2222nnXXnXXS样本方差第33页/共112页第三十四页,共112页。11)(222nnXXnXXS样本标准差 标准差 (Standa

12、rd deviation, Std, SD)即方差的正平方根;其单位与原变量(binling)X的单位相同。NX2)(总体(zngt)标准差第34页/共112页第三十五页,共112页。与自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何(rnh)条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制(xinzh)条件。0)(_xxx第35页/共112页第三十六页

13、,共112页。基本概念:样本(yngbn)容量及样本(yngbn)个数 样本容量(n):指一个样本所包含(bohn)的单位数。 一般将样本单位数不少于三十个(50?)的样本称为大样本,样本单位数不到三十个的样本称为小样本。 样本个数(g):又称样本可能数目,是指从一个总体中抽取了多少个样本。第36页/共112页第三十七页,共112页。基本概念:抽样误差 抽样误差:指按照随机原则抽样时,样本指标与总体指标之间存在(cnzi)的误差。 主要包括: 总体平均数和样本平均数的误差; 总体标准差和样本标准差的误差。第37页/共112页第三十八页,共112页。基本概念:抽样(chu yn)平均误差 为什么

14、要研究(ynji)抽样平均误差? 未知 实际误差未知: 即使知道,由于样本均值是随机的,每次的误差也不一样。)(x第38页/共112页第三十九页,共112页。均数的抽样误差与标准(biozhn)误例如,从总体均数=4.136 mmol/L、标准差=0.817 mmol /L的正态分布总体N(4.136, 0.8172)中,随机抽取n人为一个样本(n=5, 10, 20, 30),并计算该样本的均数、标准差。如此重复(chngf)抽取1000次(g=1000),可得到1000份样本,可得到1000份均数 和标准差S。X第39页/共112页第四十页,共112页。10001000份样本份样本(yng

15、bn)(yngbn)的均数的均数和标准差和标准差均数的抽样误差与标准(biozhn)误第40页/共112页第四十一页,共112页。 将这1000份样本的均数看成(kn chn)新变量值,按频数分布方法,得到这1000份样本均数的直方图。随机抽样所得随机抽样所得(su d)1000(su d)1000份样本均数的分布份样本均数的分布当n5时第41页/共112页第四十二页,共112页。当n10时第42页/共112页第四十三页,共112页。当n20时第43页/共112页第四十四页,共112页。当n30时第44页/共112页第四十五页,共112页。 1000份样本均数的抽样(chu yn)分布特点样本

16、(yngbn)含量 均数 均数标准差 n mean sd 5 4.14030 10 4.14039 20 4.13859 30 4.14173 总体(zngt)均数 总体标准差 0.817 /50.36540.817 /100.25840.817 /200.18270.817 /300.1492XSn理论上,样本均数的标准差第45页/共112页第四十六页,共112页。 1000份样本均数的抽样分布特点(tdin): 1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。 样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。 随着样本量增加,样本均数的标准差明显

17、变小:4.136(4.140,4.140,4.138,4.141)X0.817(0.365,0.258,0.183,0.149XSn第46页/共112页第四十七页,共112页。10;0.2584XnS30;0.1492XnS5;0.3654XnS20;0.1827XnS 通过(tnggu)增加样本含量n来降低抽样误差。第47页/共112页第四十八页,共112页。%100XSCV(Coefficient of variation,CV)适用条件: 观察指标单位不同,如身高(shn o)、体重 同单位资料,但均数相差悬殊第48页/共112页第四十九页,共112页。6. 数据的标准(biozhn)得

18、分假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(SPSS数据:)。 分数的均值 标准差 CV一班 78.53 9.43 12%二班 10%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢?怎么比较才能(cinng)合理呢? 第49页/共112页第五十页,共112页。数据的标准(biozhn)得分均值和标准差不同的数据(shj)不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据(shj)。 一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分

19、(standard score,又称为z-score)。 即:SXXscorez第50页/共112页第五十一页,共112页。数据(shj)的标准得分然后可以比较来自不同样本的标准得分。 这样: 张颖的标准得分为 刘涛的标准得分为 显然如果两个班级水平差不多,刘涛的成绩(chngj)应该优于张颖的成绩(chngj);这是在标准化之前的数据中不易看到的。 第51页/共112页第五十二页,共112页。n原始数据是在各自(gz)的均值附近,散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。 n实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的

20、比较只有相对意义,没有绝对意义。 第52页/共112页第五十三页,共112页。第53页/共112页第五十四页,共112页。第54页/共112页第五十五页,共112页。统计(tngj)软件的种类SPSS:这是一个很受欢迎的统计软件;容易操作(cozu),输出漂亮,功能齐全;对于非统计工作者是很好的选择。 Excel:作为数据表格软件,有一定统计计算功能;对于简单分析比较方便;对于较复杂的分析,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。第55页/共112页第五十六页,共112页。统计(tngj)软件的种类SAS:功能非常齐全的软件;功能非常齐

21、全的软件;某些美国政府机构认可;某些美国政府机构认可;需要一定的训练才可以使用,对于非专业统计人需要一定的训练才可以使用,对于非专业统计人员不那么方便。员不那么方便。 S-plus:统计学家喜爱的软件;统计学家喜爱的软件;其功能齐全,具有强大的编程功能;其功能齐全,具有强大的编程功能;专业统计人员可以编制自己的程序来实现专业统计人员可以编制自己的程序来实现(shxin)自己的理论和方法。自己的理论和方法。第56页/共112页第五十七页,共112页。统计软件(run jin)的种类Statistica:容易操作(cozu);统计资料分析、图表、资料管理;应用程序开发。Origin:容易操作(co

22、zu);输出图形的清晰度高(很多杂志要求)。第57页/共112页第五十八页,共112页。一 概率的有关(yugun)概念 二 概率分布概述(i sh)三 离散型随机变量的概率分布四 正态分布五 常用的抽样分布第58页/共112页第五十九页,共112页。一 概率的有关(yugun)概念 第59页/共112页第六十页,共112页。 样本的实际发生率称为(chn wi)频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。 样本含量n越大,频率的波动幅度越小,频率越接近概率。 第60页/共112页第六

23、十一页,共112页。必然事件 P = 1随机事件 0 P 0;若分布是左偏的,则偏度系数 0。第91页/共112页第九十二页,共112页。a.尖峭(jin qio)峰 b.正态峰c.平阔峰第92页/共112页第九十三页,共112页。峰度系数(xsh)(kurtosis):Skewness.088kurtosis15血清(xuqng)总胆固醇.sav第93页/共112页第九十四页,共112页。第94页/共112页第九十五页,共112页。第95页/共112页第九十六页,共112页。,此称为中心极限定理。nXn第96页/共112页第九十七页,共112页。均为连续型随机变量(su j bin lin)分布,分布只与自由度,即样本含量有关。第97页/共112页第九十八页,共112页。(0,1)iiXNn第98页/共112页第九十九页,共112页。这里,为自由度,取值为n-1由W.S. Go

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论