第4章:SPSS基本统计分析_第1页
第4章:SPSS基本统计分析_第2页
第4章:SPSS基本统计分析_第3页
第4章:SPSS基本统计分析_第4页
第4章:SPSS基本统计分析_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SPSS统计分析方法及应用第四章

SPSS基本统计分析2023/10/251河北工大廊坊分校经济系周玉江统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。

2023/10/252河北工大廊坊分校经济系周玉江1.频数分析通过对数据的加工整理,计算出数据的分布特征;用表格和常用的统计图形,直观的展示数据的分布特点。我们进行了储蓄存款的问卷调查,其中涉及工作种类、不同年龄层次等和存款之间的关系,如何进行分析呢?原始数据往往是杂乱无章的,看不出任何规律。例如下面某个居民小区短期存款数据。基本的统计分析:对搜集到的原始数据进行概括和描述,而不试图推断已存在数据之外的任何事情。包括:1)频数分析的基本指标2023/10/253河北工大廊坊分校经济系周玉江居民小区短期存款数据(百元)2023/10/254河北工大廊坊分校经济系周玉江数据排序后很容易看出,存款额的最小值300,最大值649,全距349。若分成7个组,组距50,其结果如下表。通过统计分组,我们得到了存款额在各个区间取值个数的序列。通过该序列企业对小区的存款分布有了清楚认识。2023/10/255河北工大廊坊分校经济系周玉江(1)频数将杂乱无章的原始数据按照某一规则进行分组,每一组中数据的个数称为频数。将各个组及对应的频数所形成的序列称为频数分布。频数与样本总数之比称为百分比或频率;频数与有效样本数之比称为有效百分比或有效频率。这里的有效样本,是剔除了缺失值的样本。(2)百分比(频率)与有效百分比2023/10/256河北工大廊坊分校经济系周玉江(3)累计频率其中fi为变量在第i个区间取值的个数。显然,0≤频数≤1。为了讨论问题的方便,有时还希望知道连续的多个区间中变量取值个数占样本总数的比例。频率逐级累加所得到的值称为累加频数或累加百分比。2)频数分析的基本操作(1)定类变量数据的频数分析例2023/10/257河北工大廊坊分校经济系周玉江(2)频数分析步骤分析:显然,户口和职业都是定类变量,直接按变量的取值所形成的自动分组直接统计频数。A)将“居民储蓄存款调查数据.sav”数据集打开。B)

分析描述性统计频率,弹出频数分析的对话框,数据集中的所有变量均出现在左边的列表框中。例1:对于居民储蓄存款调查数据,对储户的户口结构和职业结构分别进行分析,前者给出饼图,后者给出条形图.2023/10/258河北工大廊坊分校经济系周玉江条形图和直方图的不同条形图:1.用条形的长度表示各类别频数的多少,其宽度(表示类别)是固定的;2.各矩形通常是分开排列的;3.主要用于展示分类数据。直方图:1.用面积表示各组频数的多少,矩形的高度表示每一组的频数密度,宽度表示各组的组距;2.由于分组数据具有连续性,各矩形通常是连续排列;3.主要用于展示数值型数据。2023/10/259河北工大廊坊分校经济系周玉江D)

【统计量】按钮,输出的描述统计量C)将变量户口移入变量窗口。可以同时对多个变量进行频数分析,只要将其移入变量窗口即可。◎条形图,适用于定序和定类变量的分析。条形图的纵坐标可以是频数,也可以是频率。E)

【图形】按钮,输出图形的格式设置定距变量一般用直方图表示,而定序及定类变量则用条形图或饼图表示。2023/10/2510河北工大廊坊分校经济系周玉江◎饼图适合所有变量。饼图是圆内扇形的面积表示频数变化的图形,主要用于表现数据的结构与组成。其中扇形面积的大小,既可以表现频数的大小,也可以表现频率的大小。◎直方图,适用于定距数量。直方图之间无间隔,可以在直方图上附加正态分布曲线,便于数据正态分布的比较。操作:本例只适合选择条形图。□图表值,纵轴可以选择为频率,也可选择为百分比。操作:选择纵轴为频数。2023/10/2511河北工大廊坊分校经济系周玉江F)

【格式】按钮,输出频数表及频数图的格式设置注意:按变量值排序,仅对定距变量有效。如果定类变量选择了直方图,这里的排序设置无效。操作:选择输出的频数按降序排列。B)多变量表输出格式◎比较变量:

将多个变量结果对比输出。◎按变量组织输出:多个变量的统计结果分别输出。本模块适用于同时计算多个变量的频数时的输出选择。2023/10/2512河北工大廊坊分校经济系周玉江如果分类数多于n,则禁止输出频数分布表。默认值为10.本例的类为2,不用设置本条。利用同样的方法,计算变量职称的频数分析,只是输出图形时选择条形图。C)

排除具有多个类别的表2023/10/2513河北工大廊坊分校经济系周玉江(3)变量“户口”频数分析输出结果样本数量居民储蓄被调查者户口结构2023/10/2514河北工大廊坊分校经济系周玉江2023/10/2515河北工大廊坊分校经济系周玉江(4)储蓄存款调查问卷职称变量频数分析例储蓄存款被调查者的职称结构分布表2023/10/2516河北工大廊坊分校经济系周玉江储蓄存款被调查者的职业结构频数降序排列分布图2023/10/2517河北工大廊坊分校经济系周玉江2023/10/2518河北工大廊坊分校经济系周玉江条图(BarCharts)饼图(PieCharts)直方图(Histograms)2023/10/2519河北工大廊坊分校经济系周玉江(5)结论的简单分析本次调查的样本总量为313,有效样本313,其中城镇客户223人,占总数的71.2%;农村客户90人,占总数的28.8%.城镇客户明显多于农村客户。本次调查者的职业分布是:商业服务业最多,达到总储户的23%;其次是一般农户,如果加上果农、菜农,将达到总储户的18.5%,构成了储蓄存款的生力军。因此,这两个职业是银行部门的主要客户及服务对象,因此有必要制定相应服务政策予以支持与倾斜。A)

客户的城乡结构分析B)

客户的职业结构分析2023/10/2520河北工大廊坊分校经济系周玉江3)定距数量的组距分组频数分析例例2:根据居民储蓄存款调查数据,分析储户一次性存款的数量分布。这里的问题是对一次性存款数量进行频数分析。由于一次性存款是数量标志,是连续型变量,不可能对每一个数据进行分析,需要计算存款数量的极差,然后分组,对组中数据的频数进行分析:a)

将存款金额数据分成五组:500以下、500~2000、2000~3500、3500~5000、5000以上。b)

对分组后的数据序列进行频数分析。(1)储户一次性存款数量的分析思路2023/10/2521河北工大廊坊分校经济系周玉江(2)对一次性存款数据进行分组对一次性存款进行分组,确定每一个数据属于的组。a)点击转换重新编码成不同变量,弹出分组设置对话框。b)在左边的变量列表中,选择“存款金额”移入数字变量列表中。c)

在输出变量的变量名称文本框中输入s,用于存放生成的分组变量。点击按钮【更改】后,数字变量列表栏目出现操作:a5(存款数量)→sd)

点击按钮【旧值和新值】,进入组区间对应的2023/10/2522河北工大廊坊分校经济系周玉江操作:设置区间对应值:小于500→1,500~2000→2,2000~3500→3,3500~5000→4,大于5000→5。设置界面见下页图。设置完成后点击【继续】按钮,回到变量设置界面。e)点击【OK】按钮,完成分组设置,这时数据编辑窗口的数据集中增加了分组序列s。a)

分析描述性统计频率,弹出频数分析的对话框,数据集中的所有变量均出现在左边的列表框中。组值对话框。(3)对分组变量s进行频数分析的实现2023/10/2523河北工大廊坊分校经济系周玉江操作:

将分组变量s移入Variable列表框中。b)点击【图表】按钮,设置图形2023/10/2524河北工大廊坊分校经济系周玉江

附加正太分布曲线。操作:选c)设置输出格式。◎按频数升序排序操作:选d)点击【OK】按钮,完成频数的计算与作图。a)从输出的频数表可以看出,被调查者的近一半(48.6%)一次性存款:在500元以下,在2000~3500的客户为4.8%最少,而大于5000的达到了9.8%。b)从图形可以看出,频数并不是标准的正态分布,附加的正态分布曲线明显右偏,即一次存款的金额偏低的占较大比例,也有少数金额偏高的储户。◎输出直方图,适用于数量标志。(4)储户一次性存款数量的结构分析2023/10/2525河北工大廊坊分校经济系周玉江一次性存款在500元以下。c)一次性存款金额偏少的存款客户更多一些。一次性存款超过5000元的储户也有相当的比例。2023/10/2526河北工大廊坊分校经济系周玉江2023/10/2527河北工大廊坊分校经济系周玉江利用SPSS的频数分析计算出所有样本的存款金额的四分位数;然后,按照户口类型对数据进行拆分,并重新计算分位数,分别得到城镇和农村户口储户户口的存款金额的四分位数。各分位数的计算结果如下表所示:2023/10/2528河北工大廊坊分校经济系周玉江2023/10/2529河北工大廊坊分校经济系周玉江

从第一张表中我们可以看出,有25%的人一次存款金额在134元以下,50%的人在600元以下,75%的人在1500元以下。这些数据更加证实了金额呈右偏分布的结论。下面一张表表明:城镇储户有223人,一次存款金额的四分位数差分别是700(900-200)元和1600(2500-900)元;农村储户有90人,一次存款金额的四分位数差分2023/10/2530河北工大廊坊分校经济系周玉江2.描述性统计描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数等。其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。

分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。2023/10/2531河北工大廊坊分校经济系周玉江操作过程SPSS的【描述】命令专门用于计算各种描述统计性统计量。选择菜单【分析】→【描述统计】→【描述】

2023/10/2532河北工大廊坊分校经济系周玉江2023/10/2533河北工大廊坊分校经济系周玉江3.探索性分析调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。2023/10/2534河北工大廊坊分校经济系周玉江更确切地说:目的:对数据进行初步考察用途:◎计算整体或分组数据的描述性统计指标◎输出描述性统计图:茎叶图、直方图、箱式图◎正态性检验、方差齐性检验◎检查数据的错误,辨认奇异值2023/10/2535河北工大廊坊分校经济系周玉江2023/10/2536河北工大廊坊分校经济系周玉江因变量列表:待分析的变量名称,例如将存款金额作为研究变量。因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。标准个案:在源变量表中指定一个变量作为观察值的标识变量。在输出栏中,选择两者都,表示输出图形及描述统计量。选择【统计量】按钮,选择想要计算的描述统计量。如图所示2023/10/2537河北工大廊坊分校经济系周玉江对所要计算的变量的频数分布及其统计量值作图打开“Plots对话框”,出现如下图:1、输出图形:箱式图、茎叶图、直方图

2、正态性检验及图示

3、Levene方差齐性检验2023/10/2538河北工大廊坊分校经济系周玉江缺失值处理

1、某观测在所选择的变量中有缺失值时,该观测不参与全部分析

2、仅在与该变量有关的分析中视为缺失值

3、缺失值做为一个组别输出2023/10/2539河北工大廊坊分校经济系周玉江例:居民储蓄调查描述城乡居民存取款金额的差别检查存取款金额的离群点和极端值对存取款金额进行正态性检验和方差齐性检验,以便进一步选择分析方法。2023/10/2540河北工大廊坊分校经济系周玉江2023/10/2541河北工大廊坊分校经济系周玉江2023/10/2542河北工大廊坊分校经济系周玉江样本量n<=50时,2023/10/2543河北工大廊坊分校经济系周玉江茎叶图自左向右可以分为3大部分:频数、茎(Stem)和叶(Leaf)。茎表示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽(StemWidth),即茎叶所表示的实际数值的近似值。2023/10/2544河北工大廊坊分校经济系周玉江2023/10/2545河北工大廊坊分校经济系周玉江2023/10/2546河北工大廊坊分校经济系周玉江箱式图是在剔除了变量的极端值、离群点后计算统计量并绘制的。中间的黑粗线为中位数,红框为四分位间距的范围,上下两个细线为最大、最小值。

2023/10/2547河北工大廊坊分校经济系周玉江4.交叉分组下的频数分析目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。基本任务:(1)根据收集到的样本数据,产生二维或多维交叉列联表;(2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。(1)目的与基本任务2023/10/2548河北工大廊坊分校经济系周玉江(2)交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):2023/10/2549河北工大廊坊分校经济系周玉江观测频数行变量列边缘分布行边缘分布列变量期望频数列联表的格式2023/10/2550河北工大廊坊分校经济系周玉江上表中的性别变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(ObservedCounts)和各种百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;男职工、女职工的人数分别为12,4,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中男女的人数分别是4,0,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。2023/10/2551河北工大廊坊分校经济系周玉江

在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33.3%,25%,16.7%,25%分别是男职工12人中各学历人数所占的比例,称为行百分比(Rowpercentage),一行的百分比总和为100%;表中第一列的100%,0%分别是本科学历4人中男女人数所占的比例,称为列百分比(Columnpercentage),一列的列百分比总和为100%,表中的25%,25%,31.3%,18.8%等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Totalpercentage),所有格子中的总百分比之和也为100%。2023/10/2552河北工大廊坊分校经济系周玉江分析---描述性统计---交叉表(3)交叉分组下的频数分析的基本操作显示每一组中各变量的分类条形图。只输出统计量,不输出多维列联表。该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量。该框中的变量作为分布表中的行变量和列变量。2023/10/2553河北工大廊坊分校经济系周玉江(1)如果进行二维列联表分析,则将行变量选择到行框中,将列变量选择到列框中。如果行和列框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到层框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过上一张或下一张按钮确定控制变量间的层次关系。(2)选择复式条形图选项,指定绘制各变量交叉分组下频数分布条形图。取消表格表示不输出列联表,在仅分析行列变量间关系时可选择该选项。(3)单击单元格按钮指定列联表单元格中的输出内容,窗口如下:2023/10/2554河北工大廊坊分校经济系周玉江2023/10/2555河北工大廊坊分校经济系周玉江(4)交叉列联表行列变量间关系的分析

对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。为了理解行、列变量之间的关系,可以从分析两个极端的例子出发:

①年龄与工资收入的交叉列联表(一)2023/10/2556河北工大廊坊分校经济系周玉江②年龄与工资收入交叉列联表(二)

表一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。通常用的方法是卡方检验。2023/10/2557河北工大廊坊分校经济系周玉江卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此,Pearson卡方的表达式如下:当为四格表时,卡方的取值在0~∞之间。卡方值越大,行列变量的关联性越强。卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数;第二:观测频数与期望频数的总差值。在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。那么,在统计上卡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论