SPSS的描述性分析内容介绍.ppt_第1页
SPSS的描述性分析内容介绍.ppt_第2页
SPSS的描述性分析内容介绍.ppt_第3页
SPSS的描述性分析内容介绍.ppt_第4页
SPSS的描述性分析内容介绍.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS的描述性分析,SPSS的描述性分析,Frequencies:频数分布表 Descriptives:一般性描述 Explore:探索性分析 Crosstabs:交叉列表,描述性分析,频数分布表,一般性描述,探索性分析,交叉列表,计算连续变量的相对比,频数分布表(Frequencies),描述性分析,调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析.,书中例题 P29例1-20,用EDTA络合滴定法测定工业硫酸锌中的锌含量(%),10次测定结果为:21.49,21.36,22.65,22.65,21.71,22.44,22.15,22.07,22.38,22.19,求该组数据的算术平均值、几何平均值、调和平均值、样本标准差s、总体标准差、样本方差s2、总体方差2、算术平均误差和极差R。,频数分布表(Frequencies),描述性分析,是否显示频数表,定义需要计算的统计量,定义需要绘制的统计图,待分析变量的列表,百分位数,分布特征描述,离散趋势,集中趋势,描述性分析,Frequencies:定义统计量,百分位数,分布特征描述,离散趋势,集中趋势,描述性分析,Frequencies:定义统计量,Frequencies:定义统计量,统计图类型,直方图加上正态曲线,以频数绘制条图或饼图,Frequencies:定义统计图,描述性分析,无图形,条图,饼图,直方图,以构成比绘制条图或饼图,Frequencies:定义统计图,频数表排列次序,Frequencies:定义表格,描述性分析,按数值升序,按数值降序,按频数升序,按频数降序,Frequencies:结果解释,描述性分析,均值(Mean)和均值标准误差(S.E.mean),统计学上的定义和计算公式,定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。计算公式如下。,总体平均数:若一组数据X1,X2,XN,代表一个大小为N的有限总体,则其总体平均数为,样本平均数:若一组数据x1,x2,xn,代表一个大小为n的有限样本,则其样本平均数为,样本数据来自总体。样本的统计描述量可以反映总体数据的特征,但由于抽样等原因,使得样本数据不一定能够完全准确地反映总体,它可能与总体的真实值之间存在一定的差异。进行不同次抽样,会得到若干个不同的样本均值,它们与总体均值存在着不同的差异。 均值标准误差(Standard Error of Mean,S.E. Mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。,1. 平均数、标准误,中位数(Median),统计学上的定义和计算公式,定义:中位数是将总体数据的各个数值按大小顺序排列,居于中间位置的变量,用Median表示。中位数将所有的数据分成两半,中位数两端的数据个数相同,因此它也被称为二分位数。中位数的确定,仅仅取决于它在数列中的位置,不受极端值的影响,因此可以用它表示总体的一般水平。同时中位数比算术平均数具有更好的稳定性。,计算公式:一个大小为N的数列,要求其中位数,首先应把该数列按大小顺序排列好,如果N为奇数,那么该数列的中位数就是 位置上的数;如果N为偶数,中位数则是该数列中第 与第 位置上两个数值的平均数。,中位数(Median),众数(Mode),统计学上的定义和计算公式,定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。 计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。SPSS所提供的统计功能可以减少诸如此类烦琐的过程。,众数、中位数、算术平均数,众数、中位数与算术平均数之间存在一定的关系,这种关系决定于总体分布的状况。当总体颁布呈对称的钟形分布时,算术平均数位于分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数与算术平均数三者相等。当总体分布呈非对称的钟形分布时,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系。,众数、中位数、算术平均数,当分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间。反之,当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在众数与算术平均数之间。 以上的均值、中位数和众数都是反映数据集中趋势的统计量。,三个中心度量的比较,统计学上的定义和计算公式,全距(Range),定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。 计算公式:最大值最小值 RXmaxXmin 。,统计学上的定义和计算公式,全距(Range),全距的缺点在于其方法过于粗略,因为它只考虑总体两端数值的差异,没有考虑中间数值差异的情况,因而它是测定离散程度的一种粗略的方法,不能全面反映总体数据的差异程度。要充分利用每一个数据的信息,就需要利用方差和标准差。,统计学上的定义和计算公式,方差(Variance)和标准差(Standard Deviation),定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。,方差(Variance)和标准差(Standard Deviation),虽然标准差有计量单位,而方差无计量单位,但两者的作用一样,故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。 全距、方差和标准差都是反映数据离散趋势的统计量。,四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles),统计学上的定义,定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。,十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将全部数据分为十等份,与9个点位置上相对应的变量称为十分位数,分别记为D1,D2,D9,表示10%的数据落在D1下,20%的数据落在D2下,90%落在D9下。,百分位数是将一组数据由小到大(或由大到小)排序后分割为100等份,与99个分割点位置上相对应的变量称为百分位数,分别记为P1,P2,P99,表示1%的数据落在P1下,2%的数据落在P2下,99%落在P99下。,频数(Frequency),统计学上的定义和计算公式,定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。,变量的频数分析正是实现上述分析的最好手段,它可以使人们非常清楚地了解变量取值的分布情况。,峰度(Kurtosis),统计学上的定义和计算公式,定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。具体的计算公式为,偏度(Skewness),统计学上的定义和计算公式,定义:偏度也是描述数据分布形态的,它是描述某变量取值分布对称性的统计量。具体的计算公式为,这个统计量是与正态分布相比较的量,偏度为0表示其数据分布形态与正态分布偏度x相同;偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。,频数分布、峰度、偏度,频数 (Frequency) 就是一个变量的各个观测值出现的次数。比如某班语文考试的成绩,可以统计出各分数值的人数。,峰度(Kurtosis) : 是描述某变量所有取值的分布形态陡缓程度的统计量,而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于 0 ,其数据分布的陡缓程度与正态分布相同 ;峰度大于 0,其数据分布比正态分布更陡峭;峰度小于0,其数据分布比正态分布更平坦。,偏度( Skewness ) 是描述数据分布对称性的统计量 ,而且也是与正态分布的对称性相比较而得到的。如果分布的偏度等于0 ,则其数据分布的对称性与正态分布相同 ;如果偏度大于0,则其分布为正偏或右偏,即在峰的右边有大的偏差值,使右边出现一个拖得较远的尾巴;如果偏度小于 0,则为负偏或左偏,即在峰的左边有大的偏差值,使左边出现一个拖得较远的尾巴。,Frequencies:结果解释,描述性分析,Frequencies:结果解释,描述性分析,Frequencies:结果解释,描述性分析,一般性描述(Descriptives),描述性分析,调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标,且可将原始数据转换成标准Z分值并存入数据库,所谓Z分值是指某原始数值比其均值高或低多少个标准差单位,高的为正值,低的为负值,相等的为零。,一般性描述(Descriptives),描述性分析,一般性描述(Descriptives),是否保存标准 变换后的数据,描述性分析,Descriptives:定义统计量,Descriptives:结果解释,描述性分析,Descriptives:结果解释,描述性分析,此外,系统以zheight和zweight为变量名将原始数据转换成标准z分值,存放在原数据库中。新变量具有均值为0、标准差为1的特征,亦即变量的标准化过程。,探索性分析(Explore),描述性分析,调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索性统计。它在一般描述性统计指标的基础上,增加有关数据其它特征的文字与图形描述,显得更加细致与全面,有助于用户思考对数据进行进一步分析的方案。,1探索分析的内容包括下面几个方面, 检查数据是否有错误:过大或过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大,不能真实反映数据的总体特征。, 对数据规律的初步观察:通过初步观察获得数据的一些内部规律,例如,两个变量间是否线性相关。,2探索分析的考察方法,探索分析一般通过数据文件在分组与不分组的情况下,获得常用统计量和图形。一般以图形方式输出,直观帮助用户确定奇异值、影响点、进行假设检验,以及确定用户要使用的某种统计方式是否合适。,3正态分布检验,常用的正态分布检验是Q-Q图。本例中进行了正态分布检验。,4方差齐次性检验,对数据分析不仅需要进行正态分布检验,有时候还需要比较各个分组的方差是否相同,这就要进行方差齐次性检验。例如,在进行独立右边的T检验之前,就需要事先确定两个数据的方差是否相同。,如果通过分析发现各个方差不同,还需要对数据进行方差分析,那么就需要对数据进行转换使得方差尽可能相同。在探索分析中可以使用Levene检验。,Levene检验对数据进行方差齐次性检验时,不强求数据必须服从正态分布,它先计算出各个观测值减去组内均值的差,然后再通过这些差值的绝对值进行单因素方差分析。如果得到显著性水平小于0.05,那么就可以拒绝方差相同的假设。,探索性分析(Explore),描述性分析,两者均有,统计量,图,分组变量列表,待分析变量列表,Explore:定义统计量,Descriptives:输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。,M-estimators:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。 Outliers:输出五个最大值与五个最小值。 Percentiles:输出第5%、10%、25%、50%、75%、90%、95%位数。,描述性分析,箱图绘制方式,茎叶图,正态性检验/正态分布图,描述性分析,Explore:定义统计图,直方图,1. 用直方图直观地反映数据的总体分布,调 用 数 据 文 件 并 得 到 直 方 图,直方图:是一种频数分布图, 它反映处在某一观测值范围内的个案数。图中每个直方条下部的中点坐标是该观测值范围的中点、直方条的宽度代表该观测值范围、直方条的高度代表该观测值范围内的个案数。,2. 用Levene检验方差是否齐性,方差齐性检验是统计分析中的一种常见过程,它是从样本方差以至样本各自所代表的总体方差是否相同而判断两个样本同质性(homogeneity) 的方法。简单地说,方差齐性检验就是检验各个方差是否存在显著性差异。一般采用Levene方法:先将各组观测值均转换为离差绝对值,然后对各组离差绝对值进行方差分析,如果方差分析的显著性水平大于 0.05,则认为方差齐性(即方差具有相同性);方差分析的显著性水平小于0.05,则认为方差不齐性(即方差具有不同质性)。,Exclude case listwise:不分析有任一缺失值的记录 Exclude case pairwise:不分析计算某统计量时有缺失值的记录 Report values:报告缺失值,缺失值的处理方式,Explore:缺失值的处理,描述性分析,描述性分析,Explore:结果解释,原始数据的基本情况:男性有效数据459,缺失1,合计460;女性有效数据538,缺失2,合计540。,Explore:结果解释,描述性分析,Explore:结果解释,描述性分析,左面为箱图,图中方箱为四分位数,中心粗线为中位数,两端线为最大值与最小值,之外的圆圈代表可疑的离群值。,用箱图 (或叫框图)反映数据的集中趋势和特异值,调用数据文件并得到箱图,返回本章首页,批注 : 箱图可以直观地反映一组观测值的集中趋势、离散趋势、不正常观测值(奇异值和极值,均可被排除后重新分析)。左图中箱图的高度代表了25 位数到 75 位数的距离;箱图中的粗线代表中位数;箱图上下中央的垂直线叫触须线,触

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论