SPSS数据的基本统计分析_第1页
SPSS数据的基本统计分析_第2页
SPSS数据的基本统计分析_第3页
SPSS数据的基本统计分析_第4页
SPSS数据的基本统计分析_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSSSPSS基本统计分析基本统计分析单变量的频数分析单变量的基本描述统计量的计算多变量的交叉频数表的编制和分析探索性分析数据的多选项分析通过频数分析能够了解变量取值的状况,把握数据的分布特征,能反映样本是否具有总体代表性,抽样是否存在系统偏差等。u(1)程序:分析(analyze)-描述统计(descriptive)-频数(frequency)u(2)选择一个或多个频数分析变量放进变量框中u(3)选中右下角显示频数表格u(4)点击统计量、图表、格式依次进行设置源变量框源变量框待分析变量待分析变量要求输出频数分析表格要求输出频数分析表格选择统计量选择统计量选择图表选择图表选择输出格式选择输出

2、格式 制作频数分布表(频数、百分比):以表格形式呈现各个数据的次数分布情况,包括频数、百分比,有效百分比、累计百分比。 百分位百分位数选项数选项第第2525、5050、7575个百分个百分位数点对位数点对应的变量应的变量值值把数值平均把数值平均分为分为n n份,每份,每个等分位点个等分位点对应的变量对应的变量值值(2n1002n100)指定输出指定输出多个百分多个百分位数位数数据分布形态的偏数据分布形态的偏斜度和方向斜度和方向数据分布形态的陡数据分布形态的陡缓程度缓程度离散离散趋势趋势测量测量集中趋势测量集中趋势测量对于分组数据,计算百分位数值对于分组数据,计算百分位数值和中位数时,用各组的组

3、中值代和中位数时,用各组的组中值代表各组数据。表各组数据。分位数是变量在不同分位点上的取值,从一个侧面清楚地刻画了变量的取值分布状态。分位数差是一种描述数据离散程度的方式。分位数差越大,表示数据在相应分位段上的离散程度越大。 是描述某变量所有取值的分布形态陡缓程度的统计量,是描述某变量所有取值的分布形态陡缓程度的统计量,而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于而峰度对陡缓程度的度量是与正态分布进行比较的结果。如果峰度等于0 0 ,其数据分布的陡缓程度与正态分布相同;峰度大于其数据分布的陡缓程度与正态分布相同;峰度大于0 0,其数据分布比正态分布,其数据分布比正态分布更陡峭

4、;峰度小于更陡峭;峰度小于0 0,其数据分布比正态分布更平坦,其数据分布比正态分布更平坦。是描述数据分布对称性的统计量,而且也是与正态分布的是描述数据分布对称性的统计量,而且也是与正态分布的对称性相比较而得到的。如果分布的偏度等于对称性相比较而得到的。如果分布的偏度等于0 0 ,则其数据分布的对称性与,则其数据分布的对称性与正态分布相同;如果偏度大于正态分布相同;如果偏度大于0 0,则其分布为正偏或右偏;如果偏度小于,则其分布为正偏或右偏;如果偏度小于0 0,则为负偏或左偏。则为负偏或左偏。集中趋势Central tendency (一组数据向某一中心靠拢的倾向)离散趋势Dispersion(

5、一组数据远离其中心值的程度)定类众数Mode异众比率V定序中位数Median四分位差Quartiles定距 定比均值Mean全距 Range方差 Variance标准差Std.deviant不同等级的变量描述性指标不同等级的变量描述性指标均值:均值:某变量所有取值的平均水平,其大小易受到数据中极端值的影响。众数众数Mode:是一组数据中出现次数最多的数据。中位数中位数Median:一组数据按升序排序后处于中间位置的数据。均值标准误差:均值标准误差:是描述样本均值与总体均值之间差异程度的统计量。标准差:标准差:反映变量取值距离均值的平均离散程度。其值越大,变量间的差异越大。方差:方差:是标准差的

6、平方,反映变量取值离散程度。其值越大,变量间的差异越大。全距全距range:也称为极差,是数据最大值与最小值之间的绝对差,也是反映变量取值的离散程度。是用矩形的面积来表示频数分布变化的图形。适用于连续性数据,适用于连续性数据,即:定距数据适用于离散型数据,适用于离散型数据,即定序、定类和分组后的定距数据。其中,条形图(bar chart)是用宽度相同的条形的高度或长短来表示频数分布变化的图形;饼图(pie chart)是用圆形或圆内扇形的面积来表示频数分布变化的图形。不输出任何图形不输出任何图形输出条形图输出条形图输出饼图输出饼图直方图直方图输出正态分布曲线输出正态分布曲线居民储蓄调查数据居民

7、储蓄调查数据分析储户的户口和职业的基本情况;分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行分析比较。目标一:被调查者的户口和职业情况的频数分布表和统计图目标一:被调查者的户口和职业情况的频数分布表和统计图分析储户一次存(取)款金额的分布,并对城镇储户和农村储户进行分析比较。分析思路:分析思路:由于存(取)款金额属于定距型变量,直接采用频数分析不利于对分布形态的把握。 运用数据预处理中的数据分组功能对数据分组后再编制频数分布表。如:将(取)款金额重新分成5组:少于500元、500-2000、2000-3500、3500-5000、5000以上。对比城镇储户和农村储户情况,可采用数据

8、预处理中的数据拆分并计算样本存(取)款金额的四分位数、峰度、偏度等。储户一次存(取)款金额的分布情况:储户一次存(取)款金额的分布情况:被调查者有近一半的储户一次存取款金额在500元以下,2000-3500元的最少。从图形看来,储户的存(取)款金额呈明显的右偏分布,即一次存取款金额偏低的占较大比例,也有少数金额偏高的储户。城镇和农村居民储户一次存(取)款金额的比较:城镇和农村居民储户一次存(取)款金额的比较:从均值以及四分位数差可以看出城镇储户存取款金额的离散度大于农村储户(尤其在高金额区),且城镇储户的存取款金额高于农村储户。一是刻画集中趋势的描述统计量;二是刻画离散程度的描述统计量;三是刻

9、画分布形态的描述统计量。通过以上三类统计量能较为准确地把握数据的分布特点。 (1)程序:分析(analyze)-描述统计(descriptive statistics)-描述(descriptive) (2)选择要描述的一个或多个数值型变量 (3)点击选项按钮,做二级对话框设置 (4)选中右下角标准化得分保存为变量可将数据标准化后的取值保存到数据文档中。对数据标准化对数据标准化 ,并作,并作为新变量保存在文件中。为新变量保存在文件中。uxiiZ居民储蓄调查数据居民储蓄调查数据计算存(取)款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较;分析储户一次存(取)款金额的数量是否存在不均衡现

10、象。城镇储户的平均存取款金额(2687.2)高于农村储户(1944.97);从标准差及全距可看出,城镇储户存取款金额的离散程度低于农村储户。从峰度和偏度看来,城镇和农村储户存取款金额的分布均呈现右偏和尖峰分布,只是农村储户右偏斜程度及尖峰程度更大;总体而言,城镇储户和农村储户中的大部分人一次存取款金额都低于平均水平,且农村储户表现得更为明显。分析储户一次存(取)款金额的数量是否存在不均衡现象是否存在不均衡现象, 可以从分析金额是入手。一般而言,若储户存取款金额服从正态分布,那么根据3准则(3个标准差准则),异常值通常为3个标准差之外的变量值。可通过数据的标准化处理来判断。(先标准化,再依据标准

11、化值分组,后用频数分析)从频数分析可得,低异常组占比0%,高异常组占比2.6%。一般认为异常组的总比例大于理论值0.3%,可以认为存取款金额存在一定的不均衡现象。主要包括两大基本任两大基本任务务:根据收集到样本数据产生交叉列联表;在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。是两个或两个以上的变量交叉分组后形成的频数分布表。分析(analyze)-描述统计(descriptive statistics)-交叉表(cross table)行变量(自变量)的选取行变量(自变量)的选取列变量(因变量)的选取列变量(因变量)的选取显示每组变量的条形分类图显示每组变量的条形分类图相关统

12、计量的相关统计量的计算计算输出表格的形式输出表格的形式表格排列顺序表格排列顺序分层变量(控制变量)的选取分层变量(控制变量)的选取不输出列联表不输出列联表测量级别相关系数取值范围PRE意义检验方法SPSS程序类-类(类-序)0.12 crosstabs序-序G/ rs-1.1G/rs2T检验Crosstabs/correlation类序-距(3)E/E20.1E2F检验crosstabs/Oneway/means距-距r-1.1r2T检验crosstabs/correlation/linear相关分析的概念相关分析的概念定类变量定类变量定序变量定序变量E E系数系数类距类距G相关相关进行分层卡

13、方检验进行分层卡方检验得到相对风险测评的得到相对风险测评的OROR值值选中进行配对卡方检验选中进行配对卡方检验一致性检验。(行列变量的数目相一致性检验。(行列变量的数目相同)同)当KappaKappa0.750.75时,表明两者一致性较好;0.750.75Kappa Kappa 0.40.4时,表明一致性一般;KappaKappa2000时,结果以kolmogorov-smimov 为准。测量级别相关系数取值范围PRE意义检验方法SPSS程序类-类(类-序)0.12 crosstabs序-序G/ rs-1.1G/rs2T检验Crosstabs/correlation类序-距(3)E/E20.1

14、E2F检验crosstabs/Oneway/means距-距r-1.1r2T检验crosstabs/correlation/linear相关分析的要点:相关方向、相关程度及线性与否PearsonPearson简单相关系数:用来度量简单相关系数:用来度量型变量间的线性相关关系。型变量间的线性相关关系。显示相应显著度水平显示相应显著度水平Kendall Kendall 相关系数:采用非参数检验方相关系数:采用非参数检验方法度量法度量型变量间的线性相关关系。型变量间的线性相关关系。SpearmanSpearman等级相关系数:用来度量等级相关系数:用来度量型变量间的线性相关关系。型变量间的线性相关关

15、系。6.1 6.1 两个变量间的相关性分析两个变量间的相关性分析程序:程序:分析(analyze)相关(correlate)双变量(bivariate)剔除正在参与运算的2个变量值是缺失值的观测量剔除所有参与运算变量中带有缺失值的观测量 高校科研研究数据资料搜集了1999年31个省市自治区部分高校有关社科研究的数据。研究立项课题数(当年)、与投入的具有高级职称的人数(上年) 、发表论文数(上年)是否有较强的线性关系;在5%的水平下,当年的立项课题总数将受到上年投入高级职称的人数、论文数的正向影响运用居民存取款数据分析不同年龄段与收入水平的相关关系。在5%的水平下,收入水平会随着年龄的增长而增长(二者有较弱的正向相关关系)问题:相关系数本身未必是两事物间线性相关强弱的正式体现,往往有夸大的趋势。6.2 6.2 两个变量间的偏相关性分析两个变量间的偏相关性分析又称为净相关分析净相关分析,它是在控制其他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论