SPSS统计分析方法及应用 基本统计分析_第1页
SPSS统计分析方法及应用 基本统计分析_第2页
SPSS统计分析方法及应用 基本统计分析_第3页
SPSS统计分析方法及应用 基本统计分析_第4页
SPSS统计分析方法及应用 基本统计分析_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章SPSS基本统计分析11/85描述性统计分析是统计分析第一步,做好这第一步是下面进行正确统计推断先决条件。SPSS许多模块均可完成描述性分析,但专门为该目标而设计几个模块则集中在【描述统计】菜单中,包含:【频数】:频数分析过程,特色是产生频数表(主要针对分类变量)【描述】:数据描述过程,进行普通性统计描述(主要针对数值型变量)【探索】:数据探察过程,用于对数据概况不清时探索性分析【交叉表】:多维频数分布交叉表分析(列联表分析)【比率】:比率分析2/854.1频数分析4.1.1频数分析目标和基本任务

1、目标:经过频数分析能够了解变量取值情况,对把握数据分布特征是非常有用。

2、基本任务(1)频数分析第一个基本任务是编制频数分布表。频数(Frequency):即变量值落在某个区间(或某个类别)中次数百分比(Percent):即各频数占总样本数百分比有效百分比(ValidPercent):即各频数占有效样本数百分比,这里有效样本数=总样本-缺失样本数累计百分比(CumulativePercent):即各百分比逐层累加起来结果。最终取值为100。3/85

(2)频数分析第二个任务是绘制统计图条形图(BarChart):用宽度相同条形高度或长短来表示频数分布改变图形,适合用于定序和定类变量分析。饼图(PieChart):用圆形及圆内扇形面积来表示频数百分比改变图形,以利于研究事物内在结构组成等问题。直方图(Histograms):用矩形面积来表示频数分布改变图形,适合用于定距型变量分析。4/85注:变量计量尺度:

a、定类(CategoryScale):只能计次

b、

定序(OrdinalScale):计次、排序

c、定距(IntervalScale):计次、排序、加减

d、

定比(RatioScale):计次、排序、加减、乘除5/854.1.2频数分析基本操作(1)选择菜单【分析】—【描述分析】—【频率】。(2)将若干频数分析变量选择到【变量】框中。(3)单击【图表】按钮选择绘制统计图形,在【图表值】框中选择条形图中纵坐标(或饼图中扇形面积)含义,有【频数】;【百分比】。

6/85

输出百分位数:输出四分位数,显示25%、50%、75%百分位数;将数据平均分为所设定相等等份,可输入2—100整数,如键入4则输出第25、50、75百分位数自定义百分位数,可输入0—100整数。离散趋势分布形态栏集中趋势栏输出统计量对话框7/854.1.3SPSS频数分析扩展功效

1、计算分位数(PercentileValues)分位数是变量在不一样分位点上取值。分位点在0-100之间。普通使用较多是四分位点(Quartiles),即将全部数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。于是四分位数便分别是25%,50%,75%点所对应变量值。另外,还有八分位数、十六分位数等。

SPSS提供了计算任意分位数功效,用户能够指定将数据等分为n份(Cutpointsfornequalgroups)。还能够直接指定分位点(Percentile)。8/85

2、计算其它基本描述统计量

SPSS频数分析还能够计算其它基本统计量,其中包含描述集中趋势(CentralTendency)基本统计量、描述离散程度(Dispersion)基本统计量、描述分布形态(Distribution)基本统计量等。9/85Format对话框控制频数表输出分类数量。默认为10多变量框中可设定多变量表格输出格式设置频数表输出格式选择频数表中排列次序按变量升序排列,此为默认按变量降序排列按变量各种取值发生频数升序排列按变量各种取值发生频数降序排列10/853、频数分布表格式(Format)定义(1)调整频数分布表中数据输出次序(Orderby):频数分布表中内容输出次序能够按变量值升序输出(Ascendingvalues),按变量值降序输出(Descendingvalues),按频数升序输出(

Ascendingcounts),按频数降序输出(

Descendingcounts)。11/85

(2)【多个变量】单项选择框组:假如选择了两个以上变量作频数表,则comparevariables能够将全部变量结果在同一个频数表过程输出结果中显示,便于相互比较;organizeoutputbyvariables则将结果在不一样频数表过程输出结果中显示,每一个变量一张表。12/85

(3)压缩频数分布表(Suppresstableswithmorethanncategories)假如变量取值个数或取值区间个数太多,频数分布表将很庞大,此时能够压缩它。SPSS默认,假如变量取值个数或取值区间个数大于10,则不输出对应频数分布表。应用中能够修改该值。13/854.1.4频数分析应用举例利用商品房购置意向调查数据进行频数分析,有以下两个分析目标:目标一:分析被调查者户籍情况以及他们认为房价改变情况。目标二:分析月住房开销分布,并对不一样居住类型进行比较。14/854.2计算基本描述统计量4.2.1基本描述统计量常见基本描述统计量有三大类:刻画集中趋势统计量刻画离中趋势统计量刻画分布形态统计量15/851、刻画集中趋势描述统计量集中趋势是指一组数据向某一中心值靠拢倾向。(1)均值(Mean):即算术平均数,是反应某变量全部取值集中趋势或平均水平指标。如某企业职员平均月收入。其计算公式为:16/85(2)中位数(Median):即一组数据按升序排序后,处于中间位置上数据值。如评价社会老龄化程度时,可用中位数。(3)众数(Mode):即一组数据中出现次数最多数据值。如生产鞋厂商在制订各种型号鞋生产计划时应该利用众数。17/85(4)均值标准误差(StandardErrorofMean):描述样本均值与总体均值之间平均差异程度统计量。其计算公式为:

其中:σ为总体标准差,n为样本单位数18/852、刻画离散程度描述统计量离散程度是指一组数据远离其“中心值”程度。假如数据都紧密地集中在“中心值”周围,数据离散程度较小,说明这个“中心值”对数据代表性好;相反,假如数据仅是比较涣散地分布在“中心值”周围,数据离散程度较大,则此“中心值”说明数据特征是不含有代表性。19/85常见刻画离散程度描述统计量以下:(1)全距(Range):也称极差,是数据最大值(Maximum)与最小值(Minimum)之间绝对离差。(2)方差(Variance):也是表示变量取值距均值离散程度统计量,是各变量值与算数平均数离差平方算术平均数。其计算公式为:20/85(3)标准差(StandardDeviation:StdDev):表示变量取值距离均值平均离散程度统计量。其计算公式为:

标准差值越大,说明变量值之间差异越大,距均值这个“中心值”离散趋势越大。21/853、刻画分布形态描述统计量数据分布形态主要指数据分布是否对称,偏斜程度怎样,分布陡峭程度等。刻画分布形态统计量主要有两种:(1)偏度(Skewness):描述变量取值分布形态对称性统计量。其计算公式为:22/85

当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态偏斜程度越大。23/85众数、中位数和平均数关系图示左偏分布均值

中位数

众数对称分布

均值中位数众数右偏分布众数

中位数均值24/85(2)峰度(Kurtosis):描述变量取值分布形态陡峭程度统计量。其计算公式为:

当数据分布与标准正态分布陡峭程度相同时,峰度值等于0;峰度大于0表示数据分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据分布比标准正态分布平缓,为平峰分布。25/855.2.2计算基本描述统计量操作(1)选择菜单【分析】-【描述统计】-【描述】,出现以下窗口:26/85(2)将需计算数值型变量选择到【变量】框中。(3)单击【选择】按钮指定计算哪些基本描述统计量,出现以下窗口:27/85Options对话框

基本统计量当Variables框中有多个变量时,此框确定其输出次序:按Variables框中排列次序输出按各变量字母次序输出按均值升序排列按均值降序排列分布28/85

在上面窗口中,用户能够指定分析多变量时结果输出次序(DisplayOrder)。其中,Variablelist表示按变量在数据窗口中从左到右次序输出;Alphabetic表示按字母次序输出;AscendingMeans表示按均值升序输出;DescendingMeans表示按均值降序输出。

至此,SPSS便自动计算所选变量基本描述统计量并显示到输出窗口中。29/855.2.3计算基本描述统计量应用举例

1.利用商品房购置意向调查数据,对月住房开销变量计算基本描述统计量。

有以下分析目标:计算月住房开销基本描述统计量,并分别对不一样居住类型进行比较分析:首先按居住类型对数据进行拆分(Splitfile),然后计算月住房开销基本描述统计量。30/852.分析月住房开销数量是否存在不均衡现象。分析:假设月住房开销分布服从正态分布,跟据3标准,异常值通常为3个标准差范围之外值,可经过对数据标准化处理来判断。标准化数学定义为:31/85经过标准化能够得到一系列新变量值,通常称为标准化值或z分数。计算标准化值能够经过对话框中复选框【将标准化得分另存为变量(Z)】来实现,并将结果保留在一个新变量中。该变量命名规则为字母z+原变量名前七个字符。接下来可对新变量进行排序并浏览其标准化值取值情况,能够发觉z分数值得绝对数大于3样本是存在。对其分组为三组:zt10<-3,-3<zt10<3,zt10>3并进行频数分析能够发觉月住房开销存在一定不均衡现象。32/854.3交叉分组下频数分析4.3.1目标和基本任务

1、目标:交叉分组下频数分析又称列联表分析。经过前面频数分析能够掌握单个变量数据分布情况,在实际分析中,不但要了解单个变量分布特征,还要分析多个变量不一样取值下分布,进而分析变量之间相互影响和关系。对于这种包括两个或两个以上变量分布情况研究通常要利用交叉分组下频数分析来完成。33/852、基本任务:(1)依据搜集到样本数据,产生二维或多维交叉列联表;(2)在交叉列联表基础上,对两两变量间是否存在一定相关性进行分析。4.3.2交叉列联表主要内容编制交叉列联表是交叉分组下频数分析第一个任务。交叉列联表是两个或两个以上变量交叉分组后形成频数分布表。例:职员基本情况数据按职称和文化程度编制二维交叉列联表(见下页表):34/8535/85

上表中职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量变量值(或分组值)。表格中间是观察频数(ObservedCounts)和各种百分比。16名职员中,本科、专科、高中、初中人数分别为4,4,5,3,组成分布称为交叉列联表列边缘分布;高级工程师、工程师、助理工程师、无技术职称人数分别为3,4,6,3,组成分布称为交叉列联表行边缘分布;4个本科学历职员中各职称人数分别是1,1,2等,这些频数组成分布称为条件分布,即在行变量(列变量)取值条件下列变量(行变量)分布。36/85

在交叉列联表中,除了频数外还引进了各种百分比。比如表中第一行中33.3%,33.3%,33.3%分别是高级工程师3人中各学历人数所占百分比,称为行百分比(Rowpercentage),一行百分比总和为100%;表中第一列25.0%,25.0%,50.0%分别是本科学历4人中各职称人数所占百分比,称为列百分比(Columnpercentage),一列列百分比总和为100%,表中6.3%,6.3%,12.5%等分别是总人数16人中各交叉组中人数所占百分比,称为总百分比(Totalpercentage),全部格子中总百分比之和也为100%。37/854.3.3交叉分组下频数分析基本操作(1)菜单项选择【分析】-【描述统计】-【交叉表】,出现窗口以下:38/85该框中变量作为分布表中行变量和列变量。该框中变量作为控制变量,决定频数分布表中层,可有多个控制变量。显示每一组中各变量分类条形图。只输出统计量,不输出多维列联表。Crosstabs对话框39/85(2)假如进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。假如Row(s)和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。假如进行三维或多维列联表分析,则将其它变量作为控制变量选到Layer框中。多控制变量间能够是同层次,也能够是逐层叠加,可经过Previous或Next按钮确定控制变量间层次关系。40/85(3)选择【显示复式条形图】Displayclusteredbarcharts选项,指定绘制各变量交叉分组下频数分布条形图。【取消表格】Suppresstables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。(4)单击【单元格】Cells按钮指定列联表单元格中输出内容,窗口以下:41/85CrosstabsCellDisplay对话框选择在列联表中输出统计量,包含观察量数、百分比、残差输出观察量实际数量假如行和列变量在统计上是独立或不相关,那么会在单元格中输出期望观察值数量。输出单元格中观察量数目占整行全部观察量数目标百分比输出单元格中观察值数目占整列全部观察量数目标百分比输出单元格中观察量数目占全部观察量数目标百分比计算非标准化残差计算标准化残差计算调整后残差42/85

SPSS默认列联表单元格中只输出观察频数(Observed)。为便于分析,通常还应指定输出Percentage框中行百分比(Row)、列百分比(Column)、总百分比(Total)。Counts框中Expected表示输出期望频数;Residuals框中各个选项表示在各个单元格中输出剩下。其中,Unstandardized为非标准化剩下,定义为观察频数-期望频数;Standardized为标准化剩下,又称Pearson剩下,定义为:43/85(5)单击【格式】Format按钮指定列联表各单元格输出排列次序。【升序】Ascending表示以行变量取值升序排列,是SPSS默认项;【降序】Descending表示以行变量取值降序排列。(6)单击【统计量】Statistics按钮指定用哪种方法分析行变量和列变量间关系,窗口以下,其中,Chi-Square为卡方检验。44/854.3.4交叉列联表行列变量间关系分析

对交叉列联表中行变量和列变量之间关系进行分析是交叉分组下频数分析第二个任务。为了了解行、列变量之间关系,能够从分析两个极端例子出发:(1)年纪与工资收入交叉列联表(一)工资收入年龄段低中高青40000中05000老0060045/85(2)年纪与工资收入交叉列联表(二)

表一中表示年纪与工资收入呈正相关关系,表二表示年纪与工资收入呈负相关关系。但大多数情况下,观察频数分散在列联表各个单元格中,不轻易直接发觉行列变量之间关系强弱程度,此时就要借助非参数检验方法。通惯用方法是卡方检验。工资收入年龄段低中高青00600中05000老4000046/85交叉列联表卡方检验卡方检验属假设检验范围,步骤以下:(1)建立原假设在列联表分析中卡方检验原假设为行变量与列变量独立(2)选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:47/85

其中,r为列联表行数,c为列联表列数;为观察频数,为期望频数(ExpectedCount)。期望频数计算方法是:

其中,RT是指定单元格所在行观察频数累计,CT是指定单元格所在列观察频数累计,n是观察频数累计。

期望频数分布反应是行列变量互不相干下分布。48/8549/85比如,含有本科学历高级工程师期望频数是0.75计算公式是3*4/16=0.75。这里,期望频数能够了解为,总共16个职员学历分布是25%:25%:31.3%:18.8%,假如遵从这种学历总体百分比关系,高级职称三人学历分布也应为25%:25%:31.3%:18.8%,于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%。同理能够了解,总共16个职员职称分布为18.8%:25%:37.5%:18.8%,本科学历4人期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%。50/85卡方统计量观察值大小取决于两个原因:第一:列联表单元格子数;第二:观察频数与期望频数总差值。在列联表确定情况下,卡方统计量观察值大小取决于观察频数与期望频数总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。那么,在统计上卡方统计量观察值终究到达什么程度才能断定行列变量不独立呢?因为该检验中pearson卡方统计量近似服从卡方分布,所以可依据卡方理论找到某自由度和显著性水平下卡方值,即卡方临界值。

51/85(3)确定显著性水平(SignificantLevel)和临界值显著性水平是指原假设为真却将其拒绝风险,即弃真概率。通常设为0.05或0.01。在卡方检验中,因为卡方统计量服从自由度为(行数-1)×(列数-1)卡方分布,所以,在行列数目和显著性水平确定时,卡方临界值是可唯一确定。52/85(4)结论和决议对统计推断做决议通常有两种方式:依据统计量观察值和临界值比较结果进行决议。假如卡方观察值大于临界值,则认为实际分布与期望分布之间差距显著,能够拒绝原假设,断定列联表行列变量间不独立,存在相关关系;反之,接收原假设。依据统计量观察值概率p值和显著性水平比较结果进行决议。假如p值小于等于,则认为卡方观察值出现概率是很小,拒绝原假设,断定列联表行列变量间不独立,存在依存关系;反之,接收原假设。53/85什么是P值?是一个概率值;假如原假设为真,P-值是抽样分布中大于或小于样本统计量概率;被称为观察到(或实测)显著性水平。54/85双侧检验P值/

2

/

2Z拒绝拒绝H0值临界值计算出样本统计量计算出样本统计量临界值1/2P值1/2P值55/85左侧检验P值H0值临界值a样本统计量拒绝域抽样分布1-置信水平计算出样本统计量P值56/85右侧检验P值H0值临界值a拒绝域抽样分布1-置信水平计算出样本统计量P值57/85利用P值进行检验

(决议准则)若p-值>

,不拒绝H0若p-值<,拒绝H058/854.3.5交叉分组下频数分析应用举例利用商品房购置意向调查数据进行分析,实现以下目标:

1、不一样居住类型被访者未来购房预期是否一致。

59/85分析:1、该问题列联表行变量为居住类型,列变量为购房,在列联表中输出各种百分比、期望频数、剩下、标准化剩下,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对不一样居住类型对购房预期态度是否一致进行分析。

60/8561/8562/8563/855.3.6SPSS中列联表分析其它方法对列联表中行列变量分析,除上述卡方检验方法之外,SPSS还提供了其它测度变量间相关关系检验方法,包含:适合用于两定类变量方法:Nominal框中列出方法属该类方法。适合用于两定序变量方法:Ordinal框中列出方法属该类方法。适合用于一定类变量、一定距变量方法:Nominalbyinterval框中Eta方法属该类方法。其它方法。64/855.4多项选择项分析(频数分析和交叉分析)多项选择项问题概念:多项选择项问题是依据实际调查需要,要求被调查者从问卷给出若干个可选答案中选择一个以上答案。当前,市场研究或许多领域对某事物评价研究中经常碰到这么问题。能够选多个,分为限选和不限选:限选:如在11种工作种类中,选你喜欢,最多可选4种(Var1-Var4);求全部些人喜欢各种工作频数或频率。不限选:如在所列20种电器中,你家所拥有电器,不限选(Var1-Var20),求全部被调查家庭拥有各种电器频数或频率。65/855.4.1多项选择项问题分解多项选择项二分法及其编码(multipledichotomiesmethod):多项选择项二分法是将多项选择项问题中每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。如对下面问题有9个可能答案,每个可选择答案由一个变量表示,每个变量值只能有表明“是”和“否”两个代码0或者1。编号调查内容选项

1您喜欢红色吗□是□否

2您喜欢橙色吗□是□否

3您喜欢黄色吗□是□否

4您喜欢绿色吗□是□否

5您喜欢青色吗□是□否

6您喜欢蓝色吗□是□否

7您喜欢紫色吗□是□否

8您喜欢黑色吗□是□否

9您喜欢白色吗□是□否

左边表格为向用户发放颜色调查,在选择服装时,您喜欢什么颜色作为主体颜色,在答案“□”中打“”(可多项选择)这是一组问题,每个问题都有两个答案,回答者只能选择其中一个。在建立数据文件时,变量名使用相同变量主名,后面加以不一样序号组成,本组问题9个变量名能够是color1-color9。而答案编码规则为:回答“是”变量值为1,回答“否”变量值为0,其它值为缺失值。66/85多选项分类法及其编码(multiplecategorymethod):多项选择项分类法中,首先应预计多项选择项问题最多可能出现答案个数;然后为每个答案设置一个SPSS变量,变量取值为多项选择项问题中全部可选答案。如上面相关选择服装主体颜色,您能够选择喜欢三种,在提供10种答案前上选择。

1、红2、橙3、黄 4、绿 5、青

6、蓝7、紫8、黑9、白 10说不清这是一个问题,能够有三个答案。在建立数据文件时,要建立三个变量color1-color3表示回答者选择三个颜色。如选择结果为1、红、6、蓝、8、黑,则变量color1值为1,变量color2值为6,变量color3值为8。67/85

假如采取多项选择二分法则有6个选项,故应设6个变量,利用0-1编码方法编码,即:1,0,1,0,1,1。假如采取多项选择分类法,则编码为1,3,5,6,0,0。135668/85问题2:择业中考虑主要原因(多项选择)1经济收入2专业对口3发展前途4地理区位5个人兴趣6风险大小7劳动强度8社会福利9其它编码应为:1,0,1,1,1,0,1,1,0。或1,3,4,5,7,8,0,0,0。69/85136问题3:您择业中考虑主要原因有(限选三项)1经济收入2专业对口3发展前途4地理区位5个人兴趣6风险大小7劳动强度8社会福利9社会地位10其它

因为限选三项,故应设三个变量,编码依次为1,3,6。70/855.4.2多项选择项分析基本操作首先将每个题若干答案组成一个综合变量即变量集(Set),然后对综合变量各种取值进行分析。只有经过定义多项选择项变量集,spss才能确定应对哪些变量取相同值个案数进行累加。多项选择项分析在SPSS中是经过Analyze-MultipleResponse中各项功效实现。1.DefineSets:(1)从左边变量中将多项选择变量集变量选择到variablesinsets框中,建立多项选择二分变量集或多项选择分类变量集。(2)在variablesarecodedas框中指定多项选择变量集中变量是按照那种方法编码。Dichotomies表示以多项选择二分法编码,并在countedvalue中输入用哪个数值来表示选中该选项。categories表示以多项选择分类法编码,并在range框中输入变量取值最小值和最大值。71/85(3)为多项选择项变量集命名,系统会自动在该名字前加字符$。(4)单击add按钮将定义好多项选择项变量集加到multresponsesets框中。Spss能够定义多个多项选择项变量集。2.Frequencies:对多项选择变量集进行频数分析。从multresponsesets中把待分析多项选择项变量集选择到tablesfor框中;3.Crosstabs:对多项选择变量集与其它变量集或与原基本变量进行交叉表分析。72/85(1)选择列联表行变量并定义取值范围;(2)选择列联表列变量并定义取值范围;(3)选择列联表控制变量并定义取值范围;(4)单击option按钮选择列联表输出内容和计算方法。Matchvariableacrossresponsesets选项表示,假如列联表行列变量均为多项选择项变量集时,第一个变量集第一个变量与第二个变量集第一个变量作交叉分组,依次类推。结果中:注意PctofResponses(占总回答数%)和PctofCase(占总个案数%)区分。73/855.4.3多项选择项分析应用举例利用居民储蓄调查数据进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论