统计分析方法简介_第1页
统计分析方法简介_第2页
统计分析方法简介_第3页
统计分析方法简介_第4页
统计分析方法简介_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计分析方法简介统计分析2设计收集资料数据管理SPSS报告撰写统计分析(statisticalanalysis)运用数理统计、概率论等基本原理,对数据进行统计指标的选择和计算、统计图表的绘制、统计方法的选用与统计软件的应用等。旨在表达数据特征的基础上,阐明事物的内在联系和规律性。

统计指标统计描述统计表统计分析统计图

参数估计统计推断假设检验

变量(variable):根据研究目的所确定的研究对象的观察指标。资料(data):变量的取值,表示观察值(或测量值)或对应的观察结果。分为定量资料和定性资料。统计分析的对象定量资料(quantitativedata)

又称计量资料对每一个观察单位用定量的方法测定某项指标所得的资料分为离散型资料和连续型资料7二项分类资料多项分类资料无序多分类

有序多分类或等级资料定性资料(categoricaldata)又称分类资料、计数资料将观察单位按属性或类型分组计数所得的资料910

不同类型资料可相互转化,但注意有信息损失。11统计分析的工具SASSPSSSTATA…EXCEL12SPSS简介StatisticalProgramforSocialSciencesStatisticalProductandServiceSolutions

统计产品与服务解决方案

界面友好、使用方便,功能齐全《SPSS11统计分析教程》(基础篇/高级篇)张文彤

13界面设置:下拉菜单快捷工具栏数据输入栏/二维数据表“数据视图”与“变量视图”转换按钮常用的几大功能:数据管理统计分析制图15请打开“习1统计描述.sav”对资料类型作进一步了解16I.统计描述

统计指标统计描述统计表统计分析统计图

参数估计统计推断假设检验

常用统计指标:定量资料集中趋势离散程度定性资料率构成比相对比定量资料的描述指标集中趋势离散程度例1.某年某市抽样调查的120名5岁女孩身高(cm)资料如下集中趋势的度量:平均数(average):描述一组同质观察值的平均水平或集中位置的统计指标。包括均数、中位数、众数等。1.均数(mean)

适用条件:单峰对称分布,特别是正态或近似正态分布的定量资料。符号:希腊字母

表示总体均数,表示样本均数。总体

样本随机抽样统计推断计算方法:直接法:加权法:

注意:加权法中X1,X2,

,Xk与f1,f2,

,fk分别为频数表资料中各组段的组中值和相应组段的频数(或相同观察值与其对应的频数)。均数的数学特性:各观察值与均数之差(离均差)的和为0,即其离均差平方和小于各观察值与其他任何数a(a≠)之差的平方和,即百分位数(percentile)——是一种位置指标,用Px

表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。2.中位数(median)——是一个特定的百分位数,即P50;是一组由小到大按顺序排列的观察值中位次居中的数值。在全部观察值中,小于和大于中位数的观察值个数相等。适用条件:偏态分布资料一端或两端无确切值资料

分布不明确的资料符号:P50

或M计算方法:直接法n为奇数时:n为偶数时:频数表法1

2345331

23456某市大气中日平均浓度()计算方法:直接法频数表法中位数、百分位数的应用百分位数用于描述一组数据某一百分位的位置,最常用的百分位数是P50,即中位数;也可用多个百分位数的结合来描述一组观察值的分布特征,如P25和P75合用时,反映中间50%观察值的分布情况;应用百分位数时,样本含量要足够大,否则,不宜取靠近两端的百分位数。中位数、百分位数的应用中位数可用于各种分布的资料。对于正态分布资料,中位数等于均数;对于对数正态分布资料,中位数等于几何均数。中位数不受极端值的影响,因此,实际工作中主要用于偏态分布资料、两端无确切值或分布不明确的资料。例2.三组同性别、同年龄儿童的体重(kg)如下甲组2628303234乙组2427303336丙组2225303538

不全面!变异在现实工作生活中无处不在;离散度指标反映一组同质观察值的变异度;常用的指标有全距、四分位数间距、方差、标准差和变异系数。离散程度的描述1.全距(range,简记为R)涵义:亦称极差,为一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。计算:应用:单峰对称小样本资料初步了解资料的变异程度不足之处:只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大,因此样本含量悬殊时不宜用全距比较。2.四分位数间距(quartile,简记为Q)涵义:为上四分位数QU(即P75)与下四分位数QL(即P25)之差。其间包括了一组观察值的一半,故四分位数间距可看成是中间50%观察值的极差。其数值越大,变异度越大,反之,变异度越小。计算:Q=QU

-QL适用条件:常用于描述偏态分布、分布的一端或两端无确切数值以及分布不明确资料的离散程度。优缺点:四分位数间距较全距稳定,但仍未考虑全部观察值的变异度。3.方差(variance)

——为了克服全距和四分位数间距的缺点,全面考虑每个观察值的变异情况而引入=自由度随机变量能够自由取值的个数符号为,读作niu4.标准差(standarddeviation)因方差的度量单位是原度量单位的平方,故将方差开方,恢复成原度量单位,得总体标准差和样本标准差s

总体标准差样本标准差标准差的计算直接法加权法适用条件:方差和标准差是描述对称分布,特别是正态或近似正态分布离散程度的常用指标;结合均数共同描述(近似)正态分布资料的分布特征。例3某地调查110名18岁男大学生,其身高均数为172.73cm,标准差为4.09cm;其体重均数为55.04kg,标准差为4.10kg,试比较两者变异度。

例4某年某市城区120名5岁女孩体重均数为17.71(kg),标准差为1.44(kg),同年该地120名5个月女孩体重均数为7.37(kg),标准差为0.77(kg),比较其离散程度。5.变异系数(coefficientofvariation)符号简记为CV适用条件:常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异度。计算公式:练习1:例1女孩身高

习1统计描述51分析描述统计频率52分析描述统计描述53练习1:

例1女孩身高

习1统计描述54分析描述统计探索55均数56上四分位数下四分位数最大值最小值四分位数间距箱式图正态分布及其应用

Normaldistribution

anditsapplications

统计学中最重要的理论分布之一

58随机变量及其概率分布连续型随机变量:正态分布对数正态分布

Weibull分布离散型随机变量:二项分布

Poisson分布超几何分布59正态分布(Normaldistribution)1733年,德国数学家和天文学家A.deMoivre法国天文学家和数学家Laplace

德国数学家Gauss(1777-1855)最早用于物理学、天文学描述观察误差的分布,并用于行星轨迹的预测,故又称Gaussiandistribution60身高的分布(a)(b)(d)(c)61正态分布的概念

如果随机变量X的概率密度函数为则称X服从正态分布,记作X~N(

,

2)。其中,

为总体均数,

2为总体方差,π=3.14159;e=2.71828。

(-∞<X

<+∞)

62正态分布图形x0.1.2.3.4f(x)63

2相等,

不等的正态分布图示

2

1

364

2不等,

相等的正态分布图示

2

1

365正态分布特征正态分布有两个参数,即位置参数(

)和形态参数(

2);单峰,高峰在均数处;均数两侧完全对称;正态曲线下的面积分布有一定的规律。

66正态曲线下的面积规律X轴与正态曲线之间的面积恒等于1。对称区域面积相等。S(-,-X)S(X,

)=S(-,-X)

X轴-XX67正态曲线下的面积规律S(-x1,-x2)-x1

-x2

x2

x1S(x1,x2)=S(-x2,-x1)

68正态曲线下的面积规律

-1.64

+1.64

5%5%90%69正态曲线下的面积规律

-1.96

+1.96

2.5%2.5%95%70

正态曲线下的面积规律

-2.58

+2.58

0.5%0.5%99%71正态分布的分布函数公式:故正态曲线下(X1,X2)范围内的面积为:72概率为曲线下相应区域的面积!cdXf(X)PcXdfXdxcd()()

73标准正态分布标准正态分布(standardnormaldistribution)是均数为0,标准差为1的正态分布。记为X~N(0,1)。标准正态分布是一条曲线。概率密度函数:

(-∞<u

<+∞)

74标准化变换若X~N(

,

2),作变换:

则z(又称u)服从标准正态分布(0,1)。z(或u)称为标准正态离差(standardnormaldeviate)75z变换

X~N(

,

2)z~N(0,1)

76z=0.12

N=0

=1标准化示例正态分布标准正态分布X=6.2

=5.0

=1077标准正态分布曲线下面积

(z)

z 0.00 -0.02 -0.04 -0.06 -0.08-3.0 0.0013 0.0013 0.0012 0.0011 0.0010-2.5 0.0062 0.0059 0.0055 0.0052 0.0049-2.0 0.0228 0.0217 0.0207 0.0197 0.0188-1.9 0.0287 0.0274 0.0262 0.0250 0.0239-1.6 0.0548 0.0526 0.0505 0.0485 0.0465-1.0 0.1587 0.1539 0.1492 0.1446 0.1401-0.5 0.3085 0.3015 0.2946 0.2877 0.28100.0 0.5000 0.4920 0.4840 0.4761 0.46810z78正态分布的应用估计频数分布制定参考值范围质量控制正态分布是许多统计方法的理论基础791.估计频数分布例5.某项目研究婴儿的出生体重服从正态分布,其均数为3150g,标准差为350g。若以2500g作为低体重儿,试估计低体重儿的比例。80首先计算标准正态离差z:查标准正态分布表:

(-1.86)=?结果:估计低体重儿所占比例为___%812.制定医学参考值范围

(medicalreferenceinterval)又称正常值范围(normalrange)确定医学参考值范围的意义:作为判断正常与异常的参考标准82什么是医学参考值范围:是绝大多数正常人的解剖、生理、生化等指标的波动范围绝大多数:90%,95%,99%等“正常人”的定义:排除了影响所研究的指标的疾病和有关因素之后的同质人群。83单侧与双侧参考值范围的确定根据医学专业知识确定!双侧:红细胞、白细胞计数,血清总胆固醇,…单侧:上限:转氨酶,尿铅,发汞,…

下限:肺活量,IQ,…84计算医学参考值范围常用的方法正态分布法:适用于正态或近似正态分布资料。双侧界值:单侧上界:;单侧下界:百分位数法:常用于偏态分布资料双侧界值:P2.5和P97.5;单侧上界:P95;或单侧下界:P5

85例6.某地调查正常成年男子200人的红细胞数,得均数=55.26×1012/L,标准差S=0.38×1012/L,试估计该地正常成年男子红细胞数的95%参考值范围。

86正态曲线下的面积规律

-1.96

+1.96

2.5%2.5%95%87解:该地正常成年男子红细胞数的95%参考值范围为下限:-1.96S=55.26-1.96×0.38=54.52(×1012/L)

上限:

+1.96S=55.26+

1.96×0.38=56.00(×1012/L)88例7.测得某年某地282名正常人的尿汞值如下表所示,试制定正常人尿汞的95%参考值范围。89某年某地282名正常人的尿汞值(μg/L)测量结果尿汞值频数f累计频数Σf

累计频率(%)0.0~454516.08.0~6410938.616.0~9620572.724.0~3824386.232.0~2026393.340.0~1127497.248.0~527998.956.0~228199.664.0~72.01282100.090计算医学参考值范围常用的方法正态分布法:适用于正态或近似正态分布资料。双侧界值:单侧上界:;单侧下界:百分位数法:常用于偏态分布资料双侧界值:P2.5和P97.5;单侧上界:P95;或单侧下界:P5

91某年某地282名正常人的尿汞值(μg/L)测量结果尿汞值频数f累计频数Σf

累计频率(%)0.0~454516.08.0~6410938.616.0~9620572.724.0~3824386.232.0~2026393.340.0~1127497.248.0~527998.956.0~228199.664.0~72.01282100.092解:正常人的尿汞值为偏态分布,且过高为异常,故用百分位数法计算,且取单侧上限。其95%参考值范围为:上限:即该地正常人尿汞的95%参考值范围为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论