统计学的基础知识分解课件_第1页
统计学的基础知识分解课件_第2页
统计学的基础知识分解课件_第3页
统计学的基础知识分解课件_第4页
统计学的基础知识分解课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、预备内容:统计学基础知识预备内容:统计学statistics统计学是收集、分析、解释与报告数据资料的一门科学。“a science dealing with the collection, analysis, interpretation and presentation of masses of numerical data”. -Webster 国际大辞典统计学statistics统计学是收集、分析、解释与报告数第一节 统计学的一些基本概念 1. 总体与样本2. 变量与随机变量3. 同质与变异4. 参数与统计量5. 误差与错误6. 准确性与精确性第一节 统计学的一些基本概念 1. 总体与样

2、本1. 总体与样本 Population and sample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体1. 总体与样本 Populatio从总体中得到样本的方法:抽样。 (抽样方法与样本量)从样本推论总体的方法:统计推断 (区间估计,假设检验等)抽样与推断从总体中得到样本的方法:抽样。抽样与推断变量可以测量的任何特征或属性。Any characteristic or attribute that can be measured。 如热量值、蛋白质含量、碳水化合物含量。随机变量在概率论中称变量

3、为随机变量 2、变量与随机变量Variable and random variable变量可以测量的任何特征或属性。Any character3、变量(随机变量)的分类 离散型变量(discrete variable): 计数资料(15,17,24,) 连续性变量(continuous variable): 计量资料(1.65, 1.73, 1.77,) 有序变量(ordinal variable): 等级资料(优、良、中、差)3、变量(随机变量)的分类 离散型变量(discrete v4. 参数与统计量 Parameter and statistic参数:总体的统计指标,如总体均数、标准差,

4、采用希腊字母分别记为、。通常是固定的常数。 总体样本抽样 统计量 参 数 推断统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。4. 参数与统计量 Paramete误差与错误Error and mistake误差:试验中不可控因素所引起的实际观察值与客观真实值(真值)之差系统误差 systematic error随机误差 random error错误:试验过程中,人为作用引起的差错 如药品称量错误,数据录入错误等误差与错误Error and mistake误差:试验中不 误差(Error)测量值 = 真值 + 随机误差 +非随机误差 Xi = i

5、+ i 1随机误差(抽样误差): 影响因素众多,变化无方向性,不可避免,但可用统计方法进行分析。 2系统误差 受确定因素影响,大小变化有方向性。 3非系统误差(错误) 研究者偶然失误而造成的误差。偏差bias可以避免 误差(Error)偏差bias6. 准确性与精确性准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异性)。精密度(precision) 、也称可靠度(reliability)或重复性(repeatability):重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。6.

6、 准确性与精确性准确度(accuracy)或真实性(va系统误差使数据偏离了其理论值,影响数据的准确度。随机误差使数据相互分散,影响了数据的精密度。准确度和精密度都好 准确度差、精密度好 准确度?精密度差 准确度和精密度都差 系统误差使数据偏离了其理论值,影响数据的准确度。准确度和精密第二节 计量资料的统计描述 连续型变量(可测量的变量)频数表与频数分布平均指标(算术均数、几何均数、中位数、众数)变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)第二节 计量资料的统计描述 连续型变量(可测量一、频数表与频数分布 (frequency table and frequency dist

7、ribution)一、频数表与频数分布 (frequency table a160名正常成年女子的血清甘油三酯(mmol/L) 160名正常成年女子的血清甘油三酯(mmol/L) 统计学的基础知识分解课件男子血清总胆固醇水平(mmol/L) Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 2 . 78999 13.00 3 . 0111222333444 34.00 3 . 5555555566666666777778888999999999 32.00 4 . 00000001111111222223333334444444 35.00 4 . 5

8、5555555566666666677777888888899999 17.00 5 . 00112222233333344 10.00 5 . 5555677899 4.00 6 . 0022 Stem width: 1.00 Each leaf: 1 case (s)茎叶图男子血清总胆固醇水平(mmol/L) Stem-and-Le二. 平均指标总称为平均数(average)反映了资料的集中趋势(central tendency)。常用的有: 1. 算术均数(arithmetic mean),简称均数(mean) 2. 几何均数(geometric mean) 3. 中位数 (median

9、) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)二. 平均指标总称为平均数(average)反映了资料的集中1. 均数(mean)适用条件:资料呈正态或近似正态分布的资料1. 均数(mean)适用条件:资料呈正态或近似正态分布的资2. 几何均数(geometric mean)2. 几何均数(geometric mean)几何均数的适用条件与实例适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料抗体的效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。此例

10、的算术均数为22222,显然不能代表滴度的平均水平。对于同一资料,几何均数 中位数众数负偏态分布时:均数中位数 几何平均数 调和平均数 上述五种平均数,最常用的是算术平均数。几种平均数之间的关系 对于同一资料:几种平均数之间的关系5% trimmed mean:将一组数中去掉最小的5数值,再去掉最大的5,然后将剩余的90计算平均值得出的数值。减小了极端值的影响。 截尾平均值5% trimmed mean:将一组数中去掉最小的5数值三. 变异(variation)指标 反映数据的离散度(Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百

11、分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差 Standard Deviation 5. 变异系数 Coefficient of Variation三. 变异(variation)指标 反映数据1. 极差(Range)(全距)优点:简便缺点:1. 只利用了两个 极端值 2. n大,R也会大 3. 不稳定1. 极差(Range)(全距)优点:简便 1.6m 1.8m2. 百分位数与四分位数间距 Percentile and quartile range百分位数 :数据从小到大排列,在百分尺度下,所占百分比对应的值。记

12、为Px。 四分位间距Quartile range:QRP75 P25四分位半间距Quartile deviation:QDQR/2XFrequency 25%75% 1.6m 3. 方差 方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。3. 方差 方差 (variance)也称均方差(m4.标准差 标准差 (Standard deviation, Std, SD)即方差的正平方根;其单位与原变量X的单位相同。总体标准差4.标准差 标准差 (Standard deviat样本方差为什么要除以(n1)与

13、自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。样本方差为什么要除以(n1)与自由度(degrees of基本概念:样本容量及样本个数 样本容量(n):指一个样本所包含的单位数。 一般将样本单位数不少于三十个(50?)的样本称为大样本,样本单位数不到三十个的样本称为小样本。 样本个数(g):又称样本可

14、能数目,是指从一个总体中抽取了多少个样本。基本概念:样本容量及样本个数 样本容量(n):指一个样本所基本概念:抽样误差 抽样误差:指按照随机原则抽样时,样本指标与总体指标之间存在的误差。 主要包括: 总体平均数和样本平均数的误差; 总体标准差和样本标准差的误差。基本概念:抽样误差 抽样误差:指按照随机原则抽样时,样本指标基本概念:抽样平均误差 为什么要研究抽样平均误差? 未知 实际误差未知: 即使知道,由于样本均值是随机的,每次的误差也不一样。基本概念:抽样平均误差 为什么要研究抽样平均误差? 均数的抽样误差与标准误例如,从总体均数=4.136 mmol/L、标准差=0.817 mmol /L

15、的正态分布总体N(4.136, 0.8172)中,随机抽取n人为一个样本(n=5, 10, 20, 30),并计算该样本的均数、标准差。如此重复抽取1000次(g=1000),可得到1000份样本,可得到1000份均数 和标准差S。均数的抽样误差与标准误例如,从总体均数=4.136 mmo1000份样本的均数和标准差均数的抽样误差与标准误1000份样本的均数和标准差均数的抽样误差与标准误 将这1000份样本的均数看成新变量值,按频数分布方法,得到这1000份样本均数的直方图。随机抽样所得1000份样本均数的分布当n5时 将这1000份样本的均数看成新变量值,按频数分布方法,当n10时当n10时

16、当n20时当n20时当n30时当n30时 1000份样本均数的抽样分布特点样本含量 均数 均数标准差 n mean sd 5 4.14030 0.36305 10 4.14039 0.25024 20 4.13859 0.17849 30 4.14173 0.14954 总体均数 4.136总体标准差 0.817 1000份样本均数的抽样分布特点样本含量 均数 1000份样本均数的抽样分布特点: 1000份样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。 样本均数的分布曲线为中间高,两边低,左右对称,近似服从正态分布。 随着样本量增加,样本均数的标准差明显变小: 1000份样

17、本均数的抽样分布特点:4个抽样实验结果比较 通过增加样本含量n来降低抽样误差。4个抽样实验结果比较 通过增加样本含量n来降低抽样误差。5. 变异系数(Coefficient of variation,CV)适用条件: 观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊5. 变异系数(Coefficient of variat6. 数据的标准得分假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(SPSS数据:grade.sav)。 分数的均值 标准差 CV一班 78.53 9.43 12%二班 70.19 7.00

18、10%那么得到90分的一班的张颖是不是比得到82分的二班的刘涛成绩更好呢?怎么比较才能合理呢? 6. 数据的标准得分假定两个水平类似的班级(一班和二班)上同数据的标准得分均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。 一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standard score,又称为z-score)。 即:数据的标准得分均值和标准差不同的数据不能够直接比较,但是可以数据的标准得分然后可以比较来自不同样本的标准得分。 这样: 张颖的标准得分为 刘涛的标准得分为 显然如果两个班级水平差

19、不多,刘涛的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。 数据的标准得分然后可以比较来自不同样本的标准得分。 原始数据是在各自的均值附近,散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。 实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。 统计学的基础知识分解课件第三节 计数资料的统计描述第三节 计数资料的统计描述按年龄(2岁一组)与职业整理按年龄(2岁一组)与职业整理统计软件的种类SPSS:这是一个很受欢迎的统计软件;容易操作,输出漂亮,功能齐全;对于非统计工作者是很好的选择。 Ex

20、cel:作为数据表格软件,有一定统计计算功能;对于简单分析比较方便;对于较复杂的分析,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。统计软件的种类SPSS:统计软件的种类SAS:功能非常齐全的软件;某些美国政府机构认可;需要一定的训练才可以使用,对于非专业统计人员不那么方便。 S-plus:统计学家喜爱的软件;其功能齐全,具有强大的编程功能;专业统计人员可以编制自己的程序来实现自己的理论和方法。统计软件的种类SAS:统计软件的种类Statistica:容易操作;统计资料分析、图表、资料管理;应用程序开发。Origin:容易操作;输出图形的清晰

21、度高(很多杂志要求)。统计软件的种类Statistica:第三节 常见的概率分布 一 概率的有关概念 二 概率分布概述三 离散型随机变量的概率分布四 正态分布五 常用的抽样分布第三节 常见的概率分布 一 概率的有关概念 二 概率分布一 概率的有关概念 一 概率的有关概念 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大写的P 表示;取值0,1。 样本含量n越大,频率的波动幅度越小,频率越接近概率。 频率与概率 frequency and probability 样本的实际发生率称为频率。设在相同

22、条件下,独立重复进必然事件 P = 1随机事件 0 P 1不可能事件 P = 0 P 0.05(5)或P 0.01(1)称为小概率事件(习惯),统计学上认为不大可能发生。随机事件 Random eventsCertainImpossible0.501必然事件 P = 1随机事件 Random 概率分布:描述随机变量值xi及这些值对应概率P(X=xi)的表格、公式或图形。 离散型随机变量概率分布连续型随机变量概率分布二 概率分布概述 概率分布:描述随机变量值xi及这些值对应概率P(X=1. 离散型随机变量的概率分布1. 离散型随机变量的概率分布离散型随机变量的概率分布(例一)f(x)离散型随机变

23、量的概率分布(例一)f(x)离散型随机变量的概率分布(例二)N=10, =0.2如新手上路某事件出错的概率是0.2,连续进行10次这样的事件,出现010次错误的概率分布: 离散型随机变量的概率分布(例二)N=10, =0.2某事件2. 连续型随机变量的概率分布 与离散型变量不同的是连续型变量的取值充满整个数值区间,无法一一列出其每一个可能值。 一般将连续型随机变量整理成频数表,对频数作直方图,直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布。 2. 连续型随机变量的概率分布 与离散型变量不同的是连统计学的基础知识分解课件如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑

24、的分布曲线。大多数情况下,可采用一个函数拟合这一光滑曲线。这种函数称为概率密度函数(Probability density function,Pdf)。xxxfff如果样本量很大,组段很多,矩形顶端组成的阶梯型曲线可变成光滑如果连续型随机变量X的概率密度函数记为:则在区间x1,x2 范围内的概率可由微积分函数定义 如果连续型随机变量X的概率密度函数记为:三 离散型随机变量的概率分布离散型随机变量的分布1、二项分布2、泊松分布连续型随机变量的分布正态分布三 离散型随机变量的概率分布离散型随机变量的分布1、二毒性试验:白鼠 死亡生存临床试验:病人 治愈未愈临床化验:血清 阳性阴性任一事件 成功(A

25、)失败(非A)这类“成功失败型”试验称为Bernoulli试验。1、二项分布Binomial distribution毒性试验:白鼠 死亡生存1、二项分布BinomBernoulli试验序列n次Bernoulli试验构成了Bernoulli试验序列。 其特点(如抛硬币)如下:(1) 每次试验结果,只能是两个互斥的结果之一(A或非A)。(2) 每次试验的条件不变。即每次试验中,结果A发生的概率不变,均为 。(3) 各次试验独立。即一次试验出现什么样的结果与前面已出现的结果无关。Bernoulli试验序列n次Bernoulli试验构成了B成功次数的概率分布二项分布例 设某毒理试验采用白鼠共3只,它

26、们有相同的死亡概率,相应存活概率为1-。记试验后白鼠死亡的例数为X,分别求X0、1、2和3的概率 成功次数的概率分布二项分布例 设某毒理试验采用白鼠共3只白鼠各种试验结果及其发生概率3只白鼠各种试验结果及其发生概率统计学的基础知识分解课件二项分布的概率计算=BINOMDIST(1,3,0.4,0)二项分布的概率计算=BINOMDIST(1,3,0.4,0)=0.5,正态0.5,左偏二项分布的特点=0.5,正态二项分布的特点2、 泊松分布当二项分布中n很大,很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。由二项分布的概率函数可得到泊松分布的概率函数为

27、:2、 泊松分布当二项分布中n很大,很小时,二项分布就变成为全部右偏越大越趋于正态PPoisson分布概率的特点全部右偏PPoisson分布概率的特点Poisson分布与正态分布及二项分布的关系当较小时, Poisson分布呈偏态分布,随着增大,迅速接近正态分布,当20时,可以认为近似正态分布。Poisson分布是二项分布的特例,某现象的发生率很小,而样本例数n很大时,则二项分布接近于Piosson分布。 n (应用: Poisson替代二项分布)Poisson分布与正态分布及二项分布的关系当较小时, 四 正态分布 正态分布(Normal distribution)也叫高斯分布(Gaussia

28、n distribution),是最常见、最重要的一种连续型分布。 1、正态分布的数学形式 2、正态曲线 3、标准正态分布 4、曲线下面积四 正态分布 正态分布(Normal di1、数学形式1、数学形式2、正态曲线( normal curve )图形特点:钟型中间高两头低左右对称最高处对应于X轴的值就是均数曲线下面积为1标准差决定曲线的形状Xf(X)m2、正态曲线( normal curve )图形特点:Xf(N(,0.52)、N(,12)、N(,22) N(1 ,2)、N(2 ,2) 正态分布曲线由两个参数决定,即总体均数和总体标准差。在不变的情况下,函数曲线形状不变,若变大时,曲线位置向

29、右移;若变小时,曲线位置向左移,故称为位置参数。在不变的情况下,函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。N(,0.52)、N(,12)、N(,22) N(13、标准正态分布 标准正态离差标准正态分布:N(0,1)正态分布: 3、标准正态分布 标准正态离差正态分布: 标准正态分布的概率密度函数实质上就是正态分布的概率密度函数中=0,=1的情形。实质上是作了一个坐标轴的平移和尺度变换,使正态分布具有平均数为=0,标准差=1。这种变换称为标准化正态变换。因此将这种具有平均数为=0,标准差=1的正态分布称为标

30、准正态分布,记为N(0,1)。标准正态分布的概率密度函数实质上就是正态分布的概率密度函数中 4、曲线下面积u-累计概率分布函数: 4、曲线下面积u-累计概率分布函数:曲线下面积分布规律0-11-1.961.96-2.582.5868.27%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%曲线下面积分布规律0-11-1.961.96-2.582.5正态分布的特征,归纳起来有两点: 对称性(symmetry) 正态峰 (mesokurtosis) 偏度系数和峰度系数skewness and kurtosis 正态分布的特征,归纳起来有两点:偏

31、度系数和峰度系数skew偏度 skewness若分布不对称就是偏态,长尾拖向右侧(变量值较大的一侧)叫做正偏态,或右偏态;长尾拖向左侧(变量值较小的一侧)叫做负偏态,或左偏态。 正态分布时,mean、median、mode相等偏度 skewness若分布不对称就是偏态,长尾拖向右侧(变偏度系数(skewness):若分布是以平均值对称的,则偏度=0;若分布是右偏的,则偏度系数 0;若分布是左偏的,则偏度系数 0。偏度系数(skewness):若分布是以平均值对称的,则偏度峰度系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峭峰 。峰度 kurtosis a.尖峭峰 b.正态峰c.平阔峰

32、峰度系数是描述随机变量陡峭度的参数,分为:正态峰、平阔峰、尖峰度系数(kurtosis):Skewness.088kurtosis-0.2215血清总胆固醇.sav峰度系数(kurtosis):Skewness.088ku正态分布在横轴上方均数处最高。正态分布以均数为中心,左右对称。正态分布由参数和确定。 是位置参数,当不变时,越大,则曲线沿横轴越向右移动;反之,越小,曲线沿横轴越向左移动 是变异度参数,当不变时,越大,表示数据越分散,曲线越平坦;越小,表示数据越集中,曲线越陡峭标准正态分布曲线与X轴所围成的面积为1。在的区间内占总面积的68.27%, 在1.96的区间内占总面积的95%; 在

33、2.58的区间内占总面积的99%。5、正态分布的特征 正态分布在横轴上方均数处最高。5、正态分布的特征 五 常用的抽样分布五 常用的抽样分布如果总体不是正态总体,但其均数和标准差分别为和,则当样本含量n不断增大时,样本均数的分布也趋近于正态分布,且其均数为,标准差为 不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布 ,此称为中心极限定理。 1、 中心极限定理 如果总体不是正态总体,但其均数和标准差分别为和,则当样本2、常用的三种抽样分布t 分布F分布2分布 均为连续型随机变量分布,分布只与自由度,即样本含量有关。2、常用的三种抽样分布t 分布均为连续型随机变量分布,分布只t分布根据中心极限定理,当样本含量足够大时,对从均数为,标准差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论