统计描述与t检验-SPSS应用课件_第1页
统计描述与t检验-SPSS应用课件_第2页
统计描述与t检验-SPSS应用课件_第3页
统计描述与t检验-SPSS应用课件_第4页
统计描述与t检验-SPSS应用课件_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

描述性统计分析与t检验流行病与卫生统计学系教研室研究生:周洋1A教学目的掌握各集中趋势指标与离散趋势指标的意义和应用;掌握在SPSS上对资料进行描述性统计分析;掌握在SPSS上对资料进行正态性检验和方差齐性检验;

掌握t检验的应用条件及常用的检验方法。2A统计描述

统计学分析主要有两个方面,一方面是统计描述,另一方面是统计推断。统计描述是指用统计指标和适当的统计图表来描述资料的分布规律及其数量特征。通过描述性统计分析可以初步掌握数据的基本统计学特征,为采用其他统计学分析方法打下基础,为进一步进行统计学分析提供依据。

统计学描述的基本方法有数据频数分布特征描述、集中趋势值和离散趋势值的计算等。3A资料分类

针对不同的资料类型,采用的统计学描述方法也不同。

那么,常见的资料类型有哪些呢?

资料类型计量资料计数资料等级资料4A资料分类计量资料:可分为连续型和离散型,是指对每个观察对象的观察指标用定量方法测定其数值大小所得,一般带有度量衡单位。例如:血压值、身高、体重等。

计数资料:可分为二分类和多分类,是指将观察对象的观察指标按性质或类别进行分组,然后计数各组的数目所得。(注意:二分类变量两个分类之间相互对立,互不相容;而多分类变量是互不相容的几个类别。)例如:某种疾病在个体中,发病或者不发病。

等级资料:是指按照观察对象的某种属性或者特征进行分类,但是这些分类之间本身具有强弱、轻重、大小程度的区分。例如:某治疗方法疗效,可以是治愈、显效、好转和无效。5A频率分布表与频率分布图频率表和频率分布图是常用的综合描述样本资料的方式。频率分布图能够直观地以图形的方式显示样本数据的分布情况。对于计量资料,频率表可以提示资料的分布特征,描述资料的集中趋势和离散趋势,便于发现特大或特小的可疑值。对于计数资料,频率表可以清楚的显示各个分类的数量或频率;6A

算术均数(Mean)

几何均数(GeometricMean)

中位数(Median)众数(Mode)

计量资料的统计描述集中趋势统计指标7A

极差(Range)

四分位数间距(Quartilerange)

方差(Variance)

标准差(StandardDeviation)

变异系数(Coefficientofvariation)

计量资料的统计描述离散趋势统计指标8Aspss操作过程在spss中,统计学描述主要采用AnalyzeDescriptiveStatistic菜单完成,该菜单下的子菜单对应于不同的统计学描述过程。Analyze

DescriptiveStatisticDescriptivesExploreFrequencies

9AFrequencies操作过程

Frequencies:频数表过程的主要功能是编制频数表,计算描述统计量包含的百分位数,统计图。利用它能产生原始数据的详细频数,取值结果还能用于数据清理。10AFrequencies操作过程实例1:某年抽样调查某地120名18--35岁健康男性居民血清铁含量(umol/L),请大家利用spss软件进行统计性描述。11AFrequencies操作过程统计量统计图输入格式可选变量表分析变量表输出频数表一种抽样填补缺失值的方法,暂时不用。12AFrequencies操作过程

Statistics:设定要分析的统计量百分位数集中趋势统计量离散统计量分布参数13AFrequencies操作过程

Charts:设定要绘制的统计图14AFrequencies结果分析15AFrequencies结果分析Distribution计算分布参数Skewness偏度系数:理论上偏度系数为0时对称分布,取正值为正偏峰,取负值为负偏峰。Kurtosis峰度系数:正态分布峰度系数为0;取正值时分布峰尖陡峭,取负值时峰平阔。

由偏度系数与峰度系数来判断资料是否属于正态分布。大家都知道,标准正态分布曲线下Z值在(-1.96,+1.96)之间的时候,曲线下面积为0.95。对于偏度系数,Z=偏度系数/偏态系数的标准误;峰度系数Z=峰度系数/峰度系数的标准误。由此结果得知,偏度系数=-0.194,偏度系数标准误=0.221,Z=-0.194/0.221=-0.878(P=0.3788);峰度系数=-0.018,峰度系数标准误=0.438,Z=-0.018/0.438=-0.041(P=0.968)。结合两个结果,可以认为该资料服从正态分布。16AFrequencies结果分析Frequency:频数Percent:百分比=当前频数/总数(包括缺失值)ValidPercent:有效百分比=当前频数/有效总数(不包括缺失值)CumulativePercent:累积百分比=累积频数/有效总数(不包括缺失值)17AFrequencies结果分析18AFrequencies实战演练试分析实例2资料中身高的频数分布情况。(数据见练习1.sav)。19ADescriptives操作过程

Descriptives:主要用于描述统计量计算和变量标准化,与Frequencies过程相比,其统计量不能计算百分位数,也不能绘制统计图。20ADescriptives操作过程实例1:某年抽样调查某地120名18--35岁健康男性居民血清铁含量(umol/L),请大家利用spss软件进行统计性描述。21ADescriptives操作过程该界面类似于Frequencies的界面,其中Savestandardizedvaluesasvariables是指将标准化得分另存为变量(Z)。22ADescriptives操作过程选项说明DisplayOrder定义频数表中值的排列顺序Variablelist按变量表中的顺序输出结果,默认Alphabetic按字母顺序排列变量的输出顺序Ascendingmeans按均数从小到大排列变量的输出顺序Descendingmeans按均数从大到小排列变量的输出顺序23ADescriptives结果分析该资料一共120个有效数据,无缺失值。血清含量的最小值为7.42,最大值为29.64,均数18.6136,标准差4.3432,方差为18.863,偏度系数=-0.194,偏度系数标准误=0.221,Z=-0.194/0.221=-0.878(P=0.3788);峰度系数=-0.018,峰度系数标准误=0.438,Z=-0.018/0.438=0.041(P=0.968)。结合两个结果,可以认为该资料服从正态分布。24ADescriptives实战演练试分析实例2资料中身高的频数分布情况。(数据见练习1.sav)。25AExplore操作过程Explore:探索性分析使用图形、描述统计量的方法来探索数据的分布特征,主要适用于连续性资料。主要功能有:分离特异值、离群值;绘制多种统计分布图,观察其分布特征;描述统计量的计算,包括文件统计量的估计;特定分布特征的假设检验;百分位数的估算。26AExplore操作过程实例2,对照资料中不同性别(XB)的身高(SG)进行分别描述。27AExplore操作过程要进行分析的应变量:身高分类变量:性别28AExplore操作过程选项说明Descriptives输出描述统计量,默认ConfidenceintervalforMean:95%计算均数的95%置信区间,默认M-estimators描述平均水平,其意义同均数和中位数Outliers列出极端值,即最大和最小的各五个数据Percentiles输出5%、10%、25%、50%、75%、90%、95%的百分位数29AExplore操作过程箱式图以分组变量绘图分析变量一起绘图茎叶图直方图正态概率图和正态性检验离散水平图,Levene方差齐性检验不绘图幂转换不转换用幂转换进行数据转换30AExplore操作过程缺失值设置,一般选择默认。按观察个体排除缺失值将缺失值单独列成一组成对排除缺失值31AExplore结果分析缺失值报告:本例没有缺失值,男性有效人数为29人,女性有效人数为77人。32AExplore结果分析探索性分析的统计描述跟前面两种分析的统计描述相似,需要注意的是95%ConfidenceintervalforMean(LowerRound/UpperRound)指的是95%可信区间上限/下限;5%TrimmedMean指的是5%调整均数,去掉最大和最小各5%的数据后的均数;InterquartileRange指的是四分位数间距。33AExplore结果分析极端值列表:分别列出男性女性的最高与最低的五组数据,其中CaseNumber指的是极端值所在的编码,Value指的是具体的数值34AExplore结果分析上图是按性别不同对身高进行的正态性检验,给出两种方法的结果:Kolmogorov-Smirnov检验和Shapiro-Wilk检验。其中,Statistic为统计量;df为自由度;sig.为P值。经检验,男组两组P值均小于0.05,所以拒绝正态分析的假设,尚不能认为男组呈正态分布。而女组Kolmogorov-Smirnov检验中p值小于0.05,Shapiro-Wilk检验p值大于0.05,应该再参考别的方法判定女组是否呈正态分布。35AExplore结果分析上图是对按性别不同对身高进行的方差齐性检验,采用了四种方法计算统计量:BasedonMean(基于均数的统计量)、BasedonMedian(基于中位数的统计量)、BasedonMedianandwithadjusteddf(基于中位数并调整自由度的统计量)、BasedontrimmedMean(基于调整均数的统计量)。Df1是分子自由度、df2为分母自由度。经检验,上述四种方法的计算出的P值均大于0.05,不拒绝零假设,可以认为两组总体方差相同。36AExplore结果分析由上直方图可以看出,男组明显不是正态分布,女组与正态分布相近。37A正态性检验

图示法主要采用概率图(Probability-probabilityPlot,P-P图)和分位数图(Quantile-quantilePlot,Q-Q图)。其中,P-P图是以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从正态分布,则样本点应该围绕第一象限的对角线分布。Q-Q图则是以样本的分位数作为横坐标,以按照正态分布计算的相应分位数作为纵坐标,把样本表现为直角坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。这两种方法中,以Q-Q图法的效率较高。38A图中的直线是正态分布的标准参考线,散点越接近这条直线,则该变量的分布越接近正态分布。本例中可以看出女生的散点更接近标准参考线,说明女性更接近于正态分布。39AExplore结果分析茎叶图40AExplore结果分析茎叶图结果分析:两茎叶图的茎宽(StemWidth)是10,茎叶图从左至右分别为频数(Frequency)、茎(Stem)及叶(Leaf):茎表示变量值的整数部分,叶表示变量值的小数部分,每行的茎和每一个叶组成的数值相加后再乘以茎宽,就是茎叶所表示的实际数据的近似值。例如:性别为1的第三行,在这个变量值下频数为4,茎为11,这行叶的组成是6789,它表示在这一行的六个变量值大约是116,117,118,119.41AExplore结果分析42AExplore结果分析箱式图结果分析:男女生箱式图中中间长方形的底部与顶部分别表示下四分位数(p25)和上四分位数(p75),中间的横线代表它们各自的中位数,箱式图的上下柄分别代表最大值跟最小值。由上图结果可以看出,女生组的最大值、上四分位数和下四分位数分别大于男生组,而中位数与最小值均小于男生组。43A对练习实例3中危重病人的APACHE评分及其预后情况进行探索性分析,了解不同预后情况的APACHE评分情况。(数据见练习.sav)。Explore实战演练44A(1)随机样本;(2)来自正态分布总体;(3)两小样本均数比较时,要求两总体方差相等(方差齐性)t检验应用条件45A几种不同资料的t检验1.单样本t检验2.配对样本t检验3.两独立样本t检验46A单样本t检验目的:推断该样本来自的总体均数与已知的某一总体均数有无差别。单样本资料t检验实例:根据大量调查,已知健康成年男子脉搏的均数为72次/分,某医生在山区随机调查了25名健康成年男子,其脉搏数分别为:73,76,71,64,68,69,66,73,72,71,70,70,72,66,69,67,67,70,72,71,73,74,73,72,76问该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数?47A单样本t检验1.建立检验假设,确定检验水准αH0:μ=μ0,即该山区成年男子的脉搏总体均数μ与一般成年男子脉搏总体均数μ0相等;H1:μ≠μ0(包括μ>μ0与μ<μ0);α=0.05。2.在SPSS中选择检验方法和计算检验统计量48A单样本t检验AnalyzeCompareMeans

One-sampleTTest49A单样本t检验50A

NMeanStd.DeviationStd.ErrorMean脉搏2570.60003.06866.61373单样本t检验One-SampleStatistics由上表知,样本量为25,样本均数为70.6000,标准差为3.06866,标准误为0.6137351A单样本t检验

One-SampleTest

TestValue=72tdfSig.(2-tailed)MeanDifference95%ConfidenceIntervaloftheDifferenceLowerUpper脉搏-2.28124.032-1.4000-2.6667-.1333

由上表可知,已知检验值为72.t值=-2.281,df=24,P=0.032(双侧),差异有统计学意义,可认为该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数。样本均数与总体均数之差为-1.4000,差值的95%可信区间为(-2.6667,-0.0.1333),不包含0,亦说明两者间差异有统计学意义52A配对样本t检验配对t检验适用于配对设计的计量资料。配对设计是将受试对象按照某些重要特征(可疑混杂因素)配成对子,每对的两个受试对象随机分配到两处理组。配对设计类型:①两同质受试对象分别接受两种不同的处理;②同一受试对象分别接受两种不同处理;③同一受试对象(一种)处理前后的数据。53A配对样本t检验例6-2为了研究孪生兄弟的出生体重是否与其出生顺序有关,共收集了15对孪生兄弟的出生顺序和出生体重,见表6-2。试问孪生兄弟中先出生者的出生体重与后出生者的出生体重是否相同?54A配对样本t检验1.建立检验假设,确定检验水准αH0:μd=0,即每对孪生兄弟体重差值d所对应的总体均数μd来自均数为0的正态总体;H1:μd≠0(包括μd>0与μd<0

);α=0.05。2.在SPSS中选择检验方法和计算检验统计量55A配对样本t检验编号先出生者体重后出生者体重差值12.792.690.1023.062.890.1732.342.240.1043.413.370.0453.483.50—0.0263.232.930.3072.272.240.0382.482.55—0.0793.032.820.21103.073.050.02113.613.580.03122.692.660.03133.093.20—0.11142.982.920.06152.652.600.0556A配对样本t检验Analyze

CompareMeans

Paired-SamplesTTest57A配对样本t检验58A配对样本t检验PairedSamplesStatistics

MeanNStd.DeviationStd.ErrorMeanPair1先出生者2.945315.40516.10461后出生者2.882715.40922.10566

PairedSamplesCorrelations

NCorrelationSig.Pair1先出生者&后出生者15.967.00059A配对样本t检验PairedSamplesTest

PairedDifferencestdfSig.(2-tailed)MeanStd.DeviationStd.ErrorMean95%ConfidenceIntervaloftheDifferenceLowerUpperPair1先出生者-后出生者.0627.10430.02693.0049.12042.32714.035先出生者与后出生者的体重有显著差异(t=2.327,df=14,P=0.035),其差值的均数为0.0627,标准差为0.10420,标准误为0.02693。60A两独立样本t检验适用于完全随机设计两样本均数的比较,通过样本信息推断所属的两总体均数是否相等。两组完全随机设计是将同质的受试对象完全随机分配到两个不同处理组。当两样本含量较小时,且均来自正态总体时,要根据两总体方差是否相等而采用不同的检验方法。61A两独立样本t检验

两独立样本资料的t检验实例:采用完全随机设计的方法,将19只体重、出生日期等相仿的小白鼠随机分为两组,其中一组喂养高蛋白饲料,另一组喂养低蛋白饲料,然后观察喂养8周后各小白鼠所增加体重(mg)情况,问两组膳食对小白鼠增加体重有无不同?(数据见两独立样本资料实例)62A两独立样本t检验1.建立检验假设,确定检验水准αH0:μ1=μ2,即高蛋白组与低蛋白组所增体重的总体均数相同;H1:μ≠μ0,即高蛋白组与低蛋白组所增体重的总体均数不同(包括μ1>μ2与μ1<μ2);α=0.05。2.在SPSS中选择检验方法和计算检验统计量63A两独立样本t检验经检验,两种检验方法两组的P值均大于0.05,所以认为两组均呈正态分布。64A两独立样本t检验Analyze

Compa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论