专题三:SPSS的统计描述1024课件_第1页
专题三:SPSS的统计描述1024课件_第2页
专题三:SPSS的统计描述1024课件_第3页
专题三:SPSS的统计描述1024课件_第4页
专题三:SPSS的统计描述1024课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS的统计描述SPSS的统计描述1主要内容连续变量的统计描述与参数估计概述:统计学知识回顾菜单介绍集中趋势指标离散趋势指标SPSS应用实例分类变量的统计描述与参数估计概述常用指标分析实例多选题统计描述统计表的制作:basictables主要内容连续变量的统计描述与参数估计分类变量的统计描述与参数2统计分析内容统计分析内容3基本概念总体(population)与样本(sample)总体:根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。样本:是从总体中抽取的部分个体由于直接研究总体经常是不可能的,故而大多采用抽样研究,即通过抽取样本来推断总体--统计推断基本概念总体(population)与样本(sample)4参数(parameter)和统计量(statistics)参数:刻画总体特征的指标称为总体参数。用来确定某一分布的特征;如总体均数,总体参数往往是未知的统计量:刻画样本特征的指标称为统计量。由观察资料计算出来的量;可以用来近似的反映总体参数统计的任务:由样本估计总体,由样本统计量估计总体参数参数(parameter)和统计量(statistics)参5专题三:SPSS的统计描述1024课件6选择合适的分析方法描述性分析(descriptivestatistics)数据频次、分布形态、平均数、标准差、方差…相关分析(correlation)积差相关、等级相关差异分析(comparemeans……)Z检验、t检验、2检验、方差分析(F检验)、回归分析、多层线性回归…结构探索与验证(factor)聚类分析、判别分析、探索性因素分析(EFA)、验证性因素分析(CFA)、结构方差模型(SEM)…选择合适的分析方法描述性分析(descriptivesta7描述统计分析描述统计分析方法就是用特定的算式计算出数据资料的一些综合指标,用以综合说明事物或数据资料特征的一种方法。常用的描述统计的指标有平均数、标准差、相关系数等。描述统计分析描述统计分析方法就是用特定的算式计算出数据资料的8变量变量类型连续型变量(定距型)---取值范围是一个区间,连续取值离散型变量---取值范围是有限个值或一个数列构成。表示分类情况的离散型变量又称为分类变量:无序变量(名义型):两分类和多分类如血型,也可用数字进行编码,但没有大小关系。有序变量(定序型):取值为互不相容的类别,而且在研究背景下有等级顺序,如疗效(无效、有效、显效)变量变量类型9如何描述数据的特征可以从三个方面描述数据的特征:一是描述数据集中趋势——集中量数;二是描述实际观测值波动离散程度——差异量数;三是知道数据的分布形态——正态或偏态。平均数相同的两组数据,差异量数较小的其平均数代表的可靠性较高,而差异量数较大的一组数据其平均数代表的可靠性就较低。因此,集中量数和差异量数同时使用,才能比较全面的描述一组数据的全貌。如何描述数据的特征可以从三个方面描述数据的特征:10连续变量的统计描述的工具(一)频数表Frequency直观的方法:分布类型和分布特征看出集中趋势与离散趋势发现特大与特小值便于进一步计算统计指标和做统计处理连续变量的统计描述的工具(一)频数表Frequency11连续变量的统计描述的工具(二)统计指标1.集中趋势Centraltendency均数mean

几何均数G

中位数median

众数mode2.离散趋势Dispersiontendency全距Range

方差Variance标准差std.deviation变异系数CV连续变量的统计描述的工具(二)统计指标12连续变量的统计描述的工具3.百分位数适用于各种分布4.分布指标Distribution偏度系数Skewness正态峰正偏态负偏态峰度系数Kurtosis正态峰平阔峰尖峭峰其他在SPSS中出现的指标M-estimators的四个指标Outlier连续变量的统计描述的工具3.百分位数13(三)统计表(四)统计图直方图(Histogram)箱式图(boxplot)茎叶图(stem-and-leaf)QQ图(三)统计表14连续变量的指标体系集中趋势指标离散趋势指标分布特征:偏度峰度其他趋势:M统计量连续变量的指标体系集中趋势指标15(一)集中量数集中量数反映了数据分布中大量资料向某一点集中的情况,它是一组数据一般水平的代表值。最常用的集中量数主要有:算术平均数(arithmeticmean)中位数(median)

众数(mode)几何平均数(geometricmean)(一)集中量数161.算术平均数:一组同质数据值的总和除以数据总个数所得的商。适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料算术平均数是应用最普遍的一种集中量数,通常与差异量数中的标准差和方差结合运用。易受极端值影响,且要求每一个数据都确切。1.算术平均数:一组同质数据值的总和除以数据总个数所得的商。172.中位数(median)中位数是一组观察值的位置平均数,用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。计算方法:(1)直接法:若n为奇数,则中位数为将观察值从小到大排序后中间位置那个观察值,若n为偶数,中位数为将观察值从小到大排序后中间两个观察值的算术均数。2.中位数(median)18(2)加权法:用频数表计算中位数时先据频数表计算累计频数和累计频率,50%百分之五十分位数即为中位数。(2)加权法:19其他集中趋势描述指标1.截尾均数(trimmedmean)数据排序后按照一定比例去掉两端的数据求均数适用于两端有极端值的资料常用5%截尾均数2.几何均数(geometricmean,G)适用于呈倍数关系的等比资料或对数正态分布的资料,尤其是对数正态分布的计量资料应用中应注意观察值不能同时有正有负同一资料算得的几何均数小于算术均数。其他集中趋势描述指标1.截尾均数(trimmedmean)202.几何平均数:是指n个数值连成的n次方根,用mG表示。X表示整个发展时期中每个发展阶段的发展速度。几何平均数一般用于表示计算某现象或事物的平均发展速度、平均增长速率等。2.几何平均数:是指n个数值连成的n次方根,用mG表示。X表213.众数(mode)样本数据中出现频次最高的数字适用于单峰对称的数据,反映出现频次最高的数据情况4.调和均数(HarmonicMean)观察值倒数的均数的倒数,较少使用3.众数(mode)22(二)离散趋势指标(二)离散趋势指标23对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其分布有全面的认识。差异量数是表示一组资料差异情况或离散程度的量数,它反映资料分布的离中趋势。描述离散趋势的指标常用的有:极差(Range)

(全距)百分位数与四分位数间距

(PercentileandQuartilerange)方差(Variance,S2)标准差(StandardDeviation,SD)变异系数(差异系数,CoefficientofVariation,CV)对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其241.全距(Range,R)又称极差,即最大和最小观察值之间的间距,用全距描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的个数越多,极差越大,不够稳定。所以在样本含量相差悬殊时不宜使用1.全距(Range,R)又称极差,即最大和最小观察值252.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。小样本分母为n-1,称为自由度。2.方差小样本分母为n-1,称为自由度。26因为有两个定义,用在不同的场合:

如是总体,标准差公式根号内除以n,

如是样本,标准差公式根号内除以(n-1),

因为我们大量接触的是样本,所以普遍使用根号内除以(n-1),因为有两个定义,用在不同的场合:

如是总体,标准差公式根号273.标准差(Std)标准差是方差开方后的结果(即方差的算术平方根);所谓标准差,即指一组资料中每个数值与该组数据平均数离差的平方和之平均数的平方根。其单位与原变量X的单位相同。3.标准差(Std)28例1:下面是一个班两个学习小组在一次测验中的成绩;甲组10名学生:80、85、90、95、100;乙组10名学生:88、92、90、94、86.请初步分析这两个小组的成绩。例1:29两组平均成绩:90甲组标准差:乙组标准差:两组平均成绩:9030适用范围:方差和标准差适合于对称分布,特别是正态分布及近似正态分布资料。标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标。而标准误反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

适用范围:314.百分位数(percentile)百分位数是一个位置指标,Px表示是资料分布数列的百等份分割值用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定还用于确定参考值范围(referencerange)4.百分位数(percentile)百分位数是一个位置指标,325.四分位数间距(quartileinterval)四分位数是特定的百分位数,其中P25为下四分位数QL,P75为上四分位数Qu。Q=Qu-QL四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。适用于偏态分布的资料,特别是末端无确切数据时5.四分位数间距(quartileinterval)四336.

变异系数(差异系数)适用条件:①观察指标单位不同,如身高、体重

②同单位资料,但均数相差悬殊例2:均数标准差青年男子身高170cm6cm青年男子体重60kg7kg例2:均数标准差变异系数青年男子身高170cm6cm3.5%青年男子体重60kg7kg11.7%6.变异系数(差异系数)适用条件:①观察指标单位不同,如身341.数据分布的形态正态分布(normaldistribution)中间高、两边低、左右对称偏态:正偏态(positiveskewed)负偏态(negativeskewed)1.数据分布的形态正态分布(normaldistribut35正(右)偏态分布:长尾向右延伸负(左)偏态分布:长尾向左延伸平均數<中位數<眾數分數往左邊延伸,偏態值小於0,故稱負偏態或左偏態眾數<中位數<平均數分數往右邊延伸,其偏態值會大於0,故稱正偏態或右偏態。正(右)偏态分布:长尾向右延伸负(左)偏态分布:长尾向左延伸36在考察某项研究中数据分布的形态时,重要的不是鉴别分布的确切形态。研究者更关注观察分数的假设分布或理论分布。一些统计方法的使用要求数据服从正态分布。

检验数据的正态性,方法有很多,k-stest,descriptive,P-P图和Q-Q图等方法都可以检验数据的正态性。大样本(>30)的情况下,一般可以认为样本近似服从正态分布。??在考察某项研究中数据分布的形态时,重要的不是鉴别分布的确切形372.正态分布特征正态分布以均数为中心,左右对称正态曲线为单峰,在横轴上方均数处达最高正态分布有两个参数,均数μ和标准差σ用N(μ,σ)表示均数为μ,标准差为σ的正态分布用N(0,1)表示均数为0,标准差为1的正态分布——标准正态分布正态峰的矮阔和尖峭与标准差有关正态曲线下的面积分布有一定的规律2.正态分布特征正态分布以均数为中心,左右对称383.标准正态分布(u分布或z分布)u变换或z转换u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standardnormaldistribution)亦称u分布Descriptive过程可以进行z转换3.标准正态分布(u分布或z分布)u变换或z转换39标准分数例3:某地区中考,语文平均成绩为110分,标准差为15.7分;英语的平均成绩为95分,标准差为17.5分,一考生的语文成绩为108分,英语成绩为105分。问该生中考哪科考得好一些?原始分数?标准分数,又叫Z分数,是原始分数与其所在团体的平均数之差除以标准差所得的商,公式为标准分数是以标准差为单位,以算术平均数为参照点,表示每一个原始数据在团体中的相对位置。标准分数例3:40标准分数的平均数为0,标准差为1。标准分数的绝对值越大,说明原始数据距算术平均数越远。Z=1,Z=-1.5……标准分数的应用主要表现为:(1)使同科多次考试成绩之间具有可比性。(2)使不同学科考试成绩之间具有可比性。(3)使多科成绩之间具有可加性。标准分数的平均数为0,标准差为1。41一个随机事件95%的可能性落在±1.96个标准差之内一个随机事件99%的可能性落在±2.58个标准差之内一个随机事件95%的可能性落在±1.96个标准差之内42变异指标小结1.极差较粗,适合于任何分布2.标准差与平均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;

偏态分布:中位数、四分位半间距变异指标小结1.极差较粗,适合于任何分布43SPSS统计描述的模块Descriptivestatistics模块1.Frequencies过程2.Descriptive过程3.Explore过程4.Ratio过程用于两个连续变量计算相对比指标5.Crosstabs过程分类变量资料的统计描述一般的统计检验(卡方检验)SPSS统计描述的模块Descriptivestatist441.Frequencies过程产生频数表,对连续变量和分类变量资料都适用——更适合于对分类变量以及不服从正态分布的连续性变量。计算常用的统计指标和按要求给出某百分位点的数值常用的条图,圆图等统计图。变异系数CV需手工计算例1-1.sav1.Frequencies过程产生频数表,对连续变量和分类变45Frequencies过程主对话框Statistics子对话框Chart子对话框Format子对话框Frequencies过程主对话框46Statistics子对话框PercentileValues复选框组定义输出的百分位数四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles)Centraltendency复选框组定义描述集中趋势均数(Mean)中位数(Median)众数(Mode)总和(Sum)。Dispersion复选框组定义描述离散趋势标准差(Std.deviation)方差(Variance)全距(Range)、最小值(Minimum)最大值(Maximum)标准误(S.E.mean)。Distribution复选框组定义描述分布特征偏度系数(Skewness)和峰度系数(Kurtosis)。Valuesaregroupmidpoints复选框确定输出的数据是分组频数数据,具体数值是组中值Statistics子对话框PercentileValu47关于偏度(Skewness)偏度公式若,则称的分布是正偏(或右偏)的;若,则称的分布是负偏(或左偏)的。越大,说明分布偏斜得越厉害。

故,值越接近0,数据分布形态越接近正态分布。如果大于1,则表示与正态分布有显著不同。关于偏度(Skewness)偏度公式48关于峰度(Kurtosis)峰度的取值范围是[-2,∞]。正态分布的峰度为零。人们以正态分布为标准,若,表示分布比正态分布更集中;若,则说明分布比正态分布更分散峰度公式关于峰度(Kurtosis)峰度的取值范围是[-249数据的正态性检验

数据的正态性检验有两大类。其一是图示法,概率图(P-P图)、分位数图(Q-Q图)。其二是计算法,它又分为两种:1、对偏度和峰度各用一个指标来评定;2、K-Stest。NonparametricTests中的1-SampleK-S...命令项,弹出One-SampleKolmogorov-SmirnovTest对话框。在TestDistribution框中选Normal项,再点击OK即可。

P值不显著,则数据为正态分布。数据的正态性检验数据的正态性检验有两大类。502.Descriptive过程进行一般性的统计描述,适用于正态分布的定量资料区别:用于连续型变量Z值的产生例12.Descriptive过程进行一般性的统计描述,适用513.Explore过程主要用于对资料的性质、分布特点等完全不清楚时主对话框:加入分组变量Statistics子对话框plot子对话框Option子对话框例1,加分组变量3.Explore过程主要用于对资料的性质、分布特点等完全52Statistics子对话框Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。M-estimators复选框:作中心趋势的粗略最大似然稳健估计,输出四个不同权重的最大似然估计值。与平均数接近,则说明数据不太偏,平均数可以代表集中趋势。Outliers复选框:输出五个最大值与五个最小值。Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。Statistics子对话框Descriptives复选框53plot子对话框Boxplots单选框组:确定箱式图的绘制方式按组别分组绘制(Factorlevelstogether),不分组绘制(Depentendstogether)不绘制(None)Descriptive复选框组:茎叶图(Stem-and-leaf)和直方图(Histogram)。Normalityplotswithtest复选框:正态分布图和正态分布的检验。Spreadvs.LevelwithLeveneTest单选框组:有分组变量时,绘制水平图,设置变量的转换方式,并进行组间方差齐性检验。plot子对话框Boxplots单选框组:确定箱式图的绘制方54茎叶图茎叶图有三列数:左边的一列表示频数,它是上(或下)向中心累积的值,中心的数(带括号)表示最多数组的个数;中间的一列表示茎,也就是变化不大的位数;右边的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,象一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图。优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。缺点:茎叶图只便于表示两位有效数字的数据;而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。茎叶图茎叶图有三列数:55练习例1.求出1.sav中男女生的百分比,及男女生各自的平均分和标准差。例2.某市1995年110名7岁男童的身高资料已按频数表格式输入(high.sav),gruopmid代表组中值,freq表示频数,求出该资料的平均数、标准差、中位数和四分位数间距。(weightcase)例3.请将某班的成绩转换为标准分数。例4.请分析anxiety.sav中评分的分布情况如何,以及四次实验(trial)间的评分有无变换趋势、方差是否齐性。练习例1.求出1.sav中男女生的百分比,及男女生各自的平均56SPSS的统计描述SPSS的统计描述57主要内容连续变量的统计描述与参数估计概述:统计学知识回顾菜单介绍集中趋势指标离散趋势指标SPSS应用实例分类变量的统计描述与参数估计概述常用指标分析实例多选题统计描述统计表的制作:basictables主要内容连续变量的统计描述与参数估计分类变量的统计描述与参数58统计分析内容统计分析内容59基本概念总体(population)与样本(sample)总体:根据研究目的确定的同质观察单位(研究对象)的全体,实际上是某一变量值的集合。样本:是从总体中抽取的部分个体由于直接研究总体经常是不可能的,故而大多采用抽样研究,即通过抽取样本来推断总体--统计推断基本概念总体(population)与样本(sample)60参数(parameter)和统计量(statistics)参数:刻画总体特征的指标称为总体参数。用来确定某一分布的特征;如总体均数,总体参数往往是未知的统计量:刻画样本特征的指标称为统计量。由观察资料计算出来的量;可以用来近似的反映总体参数统计的任务:由样本估计总体,由样本统计量估计总体参数参数(parameter)和统计量(statistics)参61专题三:SPSS的统计描述1024课件62选择合适的分析方法描述性分析(descriptivestatistics)数据频次、分布形态、平均数、标准差、方差…相关分析(correlation)积差相关、等级相关差异分析(comparemeans……)Z检验、t检验、2检验、方差分析(F检验)、回归分析、多层线性回归…结构探索与验证(factor)聚类分析、判别分析、探索性因素分析(EFA)、验证性因素分析(CFA)、结构方差模型(SEM)…选择合适的分析方法描述性分析(descriptivesta63描述统计分析描述统计分析方法就是用特定的算式计算出数据资料的一些综合指标,用以综合说明事物或数据资料特征的一种方法。常用的描述统计的指标有平均数、标准差、相关系数等。描述统计分析描述统计分析方法就是用特定的算式计算出数据资料的64变量变量类型连续型变量(定距型)---取值范围是一个区间,连续取值离散型变量---取值范围是有限个值或一个数列构成。表示分类情况的离散型变量又称为分类变量:无序变量(名义型):两分类和多分类如血型,也可用数字进行编码,但没有大小关系。有序变量(定序型):取值为互不相容的类别,而且在研究背景下有等级顺序,如疗效(无效、有效、显效)变量变量类型65如何描述数据的特征可以从三个方面描述数据的特征:一是描述数据集中趋势——集中量数;二是描述实际观测值波动离散程度——差异量数;三是知道数据的分布形态——正态或偏态。平均数相同的两组数据,差异量数较小的其平均数代表的可靠性较高,而差异量数较大的一组数据其平均数代表的可靠性就较低。因此,集中量数和差异量数同时使用,才能比较全面的描述一组数据的全貌。如何描述数据的特征可以从三个方面描述数据的特征:66连续变量的统计描述的工具(一)频数表Frequency直观的方法:分布类型和分布特征看出集中趋势与离散趋势发现特大与特小值便于进一步计算统计指标和做统计处理连续变量的统计描述的工具(一)频数表Frequency67连续变量的统计描述的工具(二)统计指标1.集中趋势Centraltendency均数mean

几何均数G

中位数median

众数mode2.离散趋势Dispersiontendency全距Range

方差Variance标准差std.deviation变异系数CV连续变量的统计描述的工具(二)统计指标68连续变量的统计描述的工具3.百分位数适用于各种分布4.分布指标Distribution偏度系数Skewness正态峰正偏态负偏态峰度系数Kurtosis正态峰平阔峰尖峭峰其他在SPSS中出现的指标M-estimators的四个指标Outlier连续变量的统计描述的工具3.百分位数69(三)统计表(四)统计图直方图(Histogram)箱式图(boxplot)茎叶图(stem-and-leaf)QQ图(三)统计表70连续变量的指标体系集中趋势指标离散趋势指标分布特征:偏度峰度其他趋势:M统计量连续变量的指标体系集中趋势指标71(一)集中量数集中量数反映了数据分布中大量资料向某一点集中的情况,它是一组数据一般水平的代表值。最常用的集中量数主要有:算术平均数(arithmeticmean)中位数(median)

众数(mode)几何平均数(geometricmean)(一)集中量数721.算术平均数:一组同质数据值的总和除以数据总个数所得的商。适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料算术平均数是应用最普遍的一种集中量数,通常与差异量数中的标准差和方差结合运用。易受极端值影响,且要求每一个数据都确切。1.算术平均数:一组同质数据值的总和除以数据总个数所得的商。732.中位数(median)中位数是一组观察值的位置平均数,用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。计算方法:(1)直接法:若n为奇数,则中位数为将观察值从小到大排序后中间位置那个观察值,若n为偶数,中位数为将观察值从小到大排序后中间两个观察值的算术均数。2.中位数(median)74(2)加权法:用频数表计算中位数时先据频数表计算累计频数和累计频率,50%百分之五十分位数即为中位数。(2)加权法:75其他集中趋势描述指标1.截尾均数(trimmedmean)数据排序后按照一定比例去掉两端的数据求均数适用于两端有极端值的资料常用5%截尾均数2.几何均数(geometricmean,G)适用于呈倍数关系的等比资料或对数正态分布的资料,尤其是对数正态分布的计量资料应用中应注意观察值不能同时有正有负同一资料算得的几何均数小于算术均数。其他集中趋势描述指标1.截尾均数(trimmedmean)762.几何平均数:是指n个数值连成的n次方根,用mG表示。X表示整个发展时期中每个发展阶段的发展速度。几何平均数一般用于表示计算某现象或事物的平均发展速度、平均增长速率等。2.几何平均数:是指n个数值连成的n次方根,用mG表示。X表773.众数(mode)样本数据中出现频次最高的数字适用于单峰对称的数据,反映出现频次最高的数据情况4.调和均数(HarmonicMean)观察值倒数的均数的倒数,较少使用3.众数(mode)78(二)离散趋势指标(二)离散趋势指标79对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其分布有全面的认识。差异量数是表示一组资料差异情况或离散程度的量数,它反映资料分布的离中趋势。描述离散趋势的指标常用的有:极差(Range)

(全距)百分位数与四分位数间距

(PercentileandQuartilerange)方差(Variance,S2)标准差(StandardDeviation,SD)变异系数(差异系数,CoefficientofVariation,CV)对连续变量的描述,需要将集中趋势和离散趋势结合起来,才能对其801.全距(Range,R)又称极差,即最大和最小观察值之间的间距,用全距描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的个数越多,极差越大,不够稳定。所以在样本含量相差悬殊时不宜使用1.全距(Range,R)又称极差,即最大和最小观察值812.方差方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。小样本分母为n-1,称为自由度。2.方差小样本分母为n-1,称为自由度。82因为有两个定义,用在不同的场合:

如是总体,标准差公式根号内除以n,

如是样本,标准差公式根号内除以(n-1),

因为我们大量接触的是样本,所以普遍使用根号内除以(n-1),因为有两个定义,用在不同的场合:

如是总体,标准差公式根号833.标准差(Std)标准差是方差开方后的结果(即方差的算术平方根);所谓标准差,即指一组资料中每个数值与该组数据平均数离差的平方和之平均数的平方根。其单位与原变量X的单位相同。3.标准差(Std)84例1:下面是一个班两个学习小组在一次测验中的成绩;甲组10名学生:80、85、90、95、100;乙组10名学生:88、92、90、94、86.请初步分析这两个小组的成绩。例1:85两组平均成绩:90甲组标准差:乙组标准差:两组平均成绩:9086适用范围:方差和标准差适合于对称分布,特别是正态分布及近似正态分布资料。标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标。而标准误反映样本平均数对总体平均数的变异程度,从而反映抽样误差的大小,是量度结果精密度的指标。

适用范围:874.百分位数(percentile)百分位数是一个位置指标,Px表示是资料分布数列的百等份分割值用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定还用于确定参考值范围(referencerange)4.百分位数(percentile)百分位数是一个位置指标,885.四分位数间距(quartileinterval)四分位数是特定的百分位数,其中P25为下四分位数QL,P75为上四分位数Qu。Q=Qu-QL四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。适用于偏态分布的资料,特别是末端无确切数据时5.四分位数间距(quartileinterval)四896.

变异系数(差异系数)适用条件:①观察指标单位不同,如身高、体重

②同单位资料,但均数相差悬殊例2:均数标准差青年男子身高170cm6cm青年男子体重60kg7kg例2:均数标准差变异系数青年男子身高170cm6cm3.5%青年男子体重60kg7kg11.7%6.变异系数(差异系数)适用条件:①观察指标单位不同,如身901.数据分布的形态正态分布(normaldistribution)中间高、两边低、左右对称偏态:正偏态(positiveskewed)负偏态(negativeskewed)1.数据分布的形态正态分布(normaldistribut91正(右)偏态分布:长尾向右延伸负(左)偏态分布:长尾向左延伸平均數<中位數<眾數分數往左邊延伸,偏態值小於0,故稱負偏態或左偏態眾數<中位數<平均數分數往右邊延伸,其偏態值會大於0,故稱正偏態或右偏態。正(右)偏态分布:长尾向右延伸负(左)偏态分布:长尾向左延伸92在考察某项研究中数据分布的形态时,重要的不是鉴别分布的确切形态。研究者更关注观察分数的假设分布或理论分布。一些统计方法的使用要求数据服从正态分布。

检验数据的正态性,方法有很多,k-stest,descriptive,P-P图和Q-Q图等方法都可以检验数据的正态性。大样本(>30)的情况下,一般可以认为样本近似服从正态分布。??在考察某项研究中数据分布的形态时,重要的不是鉴别分布的确切形932.正态分布特征正态分布以均数为中心,左右对称正态曲线为单峰,在横轴上方均数处达最高正态分布有两个参数,均数μ和标准差σ用N(μ,σ)表示均数为μ,标准差为σ的正态分布用N(0,1)表示均数为0,标准差为1的正态分布——标准正态分布正态峰的矮阔和尖峭与标准差有关正态曲线下的面积分布有一定的规律2.正态分布特征正态分布以均数为中心,左右对称943.标准正态分布(u分布或z分布)u变换或z转换u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standardnormaldistribution)亦称u分布Descriptive过程可以进行z转换3.标准正态分布(u分布或z分布)u变换或z转换95标准分数例3:某地区中考,语文平均成绩为110分,标准差为15.7分;英语的平均成绩为95分,标准差为17.5分,一考生的语文成绩为108分,英语成绩为105分。问该生中考哪科考得好一些?原始分数?标准分数,又叫Z分数,是原始分数与其所在团体的平均数之差除以标准差所得的商,公式为标准分数是以标准差为单位,以算术平均数为参照点,表示每一个原始数据在团体中的相对位置。标准分数例3:96标准分数的平均数为0,标准差为1。标准分数的绝对值越大,说明原始数据距算术平均数越远。Z=1,Z=-1.5……标准分数的应用主要表现为:(1)使同科多次考试成绩之间具有可比性。(2)使不同学科考试成绩之间具有可比性。(3)使多科成绩之间具有可加性。标准分数的平均数为0,标准差为1。97一个随机事件95%的可能性落在±1.96个标准差之内一个随机事件99%的可能性落在±2.58个标准差之内一个随机事件95%的可能性落在±1.96个标准差之内98变异指标小结1.极差较粗,适合于任何分布2.标准差与平均数的单位相同,最常用,适合于近似正态分布3.变异系数主要用于单位不同或均数相差悬殊资料4.平均指标和变异指标分别反映资料的不同特征,常配套使用如正态分布:均数、标准差;

偏态分布:中位数、四分位半间距变异指标小结1.极差较粗,适合于任何分布99SPSS统计描述的模块Descriptivestatistics模块1.Frequencies过程2.Descriptive过程3.Explore过程4.Ratio过程用于两个连续变量计算相对比指标5.Crosstabs过程分类变量资料的统计描述一般的统计检验(卡方检验)SPSS统计描述的模块Descriptivestatist1001.Frequencies过程产生频数表,对连续变量和分类变量资料都适用——更适合于对分类变量以及不服从正态分布的连续性变量。计算常用的统计指标和按要求给出某百分位点的数值常用的条图,圆图等统计图。变异系数CV需手工计算例1-1.sav1.Frequencies过程产生频数表,对连续变量和分类变101Frequencies过程主对话框Statistics子对话框Chart子对话框Format子对话框Frequencies过程主对话框102Statistics子对话框PercentileValues复选框组定义输出的百分位数四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)、或直接指定某个百分位数(Percentiles)Centraltendency复选框组定义描述集中趋势均数(Mean)中位数(Median)众数(Mode)总和(Sum)。Dispersion复选框组定义描述离散趋势标准差(Std.deviation)方差(Variance)全距(Range)、最小值(Minimum)最大值(Maximum)标准误(S.E.mean)。Distribution复选框组定义描述分布特征偏度系数(Skewness)和峰度系数(Kurtosis)。Valuesaregroupmidpoints复选框确定输出的数据是分组频数数据,具体数值是组中值Statistics子对话框PercentileValu103关于偏度(Skewness)偏度公式若,则称的分布是正偏(或右偏)的;若,则称的分布是负偏(或左偏)的。越大,说明分布偏斜得越厉害。

故,值越接近0,数据分布形态越接近正态分布。如果大于1,则表示与正态分布有显著不同。关于偏度(Skewness)偏度公式104关于峰度(Kurtosis)峰度的取值范围是[-2,∞]。正态分布的峰度为零

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论