统计分析与SPSS的应用_第1页
统计分析与SPSS的应用_第2页
统计分析与SPSS的应用_第3页
统计分析与SPSS的应用_第4页
统计分析与SPSS的应用_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计分析与SPSS的应用第一章 SPSS统计分析软件概述SPSS简史:统计学为数据分析过程提供一套完整的科学的方法论。统计软件为数据分析提供了现实手段软件名称:Statistical Package for Social ScienceStatistical Product and Service Solutions软件发展:60年代:美国斯坦福大学三位研究生研制70年代:SPSS总部成立于芝加哥,推出SPSS中小型版SPSSX80年代:微机版(V14)SPSS/PC+90年代:Windows版(V610)本世纪:1115版,中文版1.1 SPSS使用基础1.1.1 SPSS软件的安装和启用1

2、.1.2 SPSS的基本窗口一、数据编辑窗口SPSS Data Editor扩展名为.sav功能:定义SPSS数据结构,录入、编辑和管理待分析的数据特点: File-Open(New)-Data或SPSS启动后自动打开;只能打开一个(SPSS15及以上版本除外)结构:窗口主菜单、工具栏、数据编辑区、系统状态显示区二、SPSS结果输出窗口SPSS ViewerSPSS的另一个主要窗口,扩展名为.spo功能:显示管理SPSS统计分析结果、报表及图形特点:第一次进行统计分析时自动打开或File-Open(New)-Output;允许创建或打开多个输出窗口结构:窗口主菜单、工具栏、分析结果显示区、状态

3、显示区【注】SPSS中数据的输入和结果的输出在不同窗口进行!三、程序窗口Syntax Editor扩展名为.sps 编写SPSS程序时使用特点:File- New/Open-Syntax或修改参数自动创建;允许同时创建或打开多个语句窗口构成:窗口主菜单、工具栏、SPSS程序编辑区、状态栏功能集中在菜单“RUN”中四、结果草稿窗口Draft Viewer扩展名为.rtf File-New/Open-Draft 可被Word等文本软件读取1.1.3 SPSS软件的退出 File-Exit或直接关闭1.2 SPSS的基本运行方式:完全窗口菜单方式、程序运行方式和混合运行方式1.2.1完全窗口菜单方式

4、在使用SPSS过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成。1.2.2 程序运行方式 在使用SPSS过程中,统计分析人员根据自己的分析需要,将数据分析的步骤手工编写成SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。1.2.3 混合运行方式在使用菜单的同时编辑SPSS程序,是完全菜单方式和程序运行方式的综合。不马上按OK键,而是按Paste按钮1.3 利用SPSS进行数据分析的基本步骤1.3.1 数据分析的一般步骤:明确数据分析目标正确收集数据加工整理数据选择恰当的统计分析方法进行探索分析读懂统计分析结果1.3.2 利用SPSS进行数据分析的一般步骤SPSS数据的准

5、备; SPSS数据的加工整理阶段; SPSS数据的分析阶段; SPSS分析结果的阅读和解释1.4 利用统计教练快速入门SPSSSPSS 的帮助系统:强大的帮助功能是SPSS的另一特色联机帮助菜单Help中的Topics 图解帮助菜单Help中的Tutorial统计教练Help中的Statistics Coach 在线帮助对话框中的Help及右键第二章 SPSS数据文件的建立和管理2.1 SPSS数据文件2.1.1 SPSS数据文件的特点:扩展名为.sav 由数据的结构和内容两部分组成 只能在spss软件中打开2.1.2 SPSS数据的基本组织方式一、原始数据的组织方式“行”为个案(case),

6、“列”为变量(variable) 例:P17 案例21二、计数数据的组织方式“行”为分组, “列”为变量(variable) 例:P18 案例222.2 SPSS数据的结构和定义方法SPSS数据的结构是对SPSS每列变量及其相关属性的描述,其定义通过变量视图完成。包括:变量名、类型、列宽、小数位宽、变量名标签、变量值标签、缺失值、列显示宽度、对齐方式、计量尺度。2.2.1 变量名字符个数不多于8个,汉字不超过4个(SPSS13.0以前版本) 。首字符以英文开头(不能以数字开头),不能包含,/,?,等运算符和逻辑符号(如:ALL,BY,AND,NOT,OR等)。变量名不区分大小写字母SPSS有默

7、认的变量名,它以字母“VAR”开头,后补足5位数字,如VAR00001等 【注】为方便记忆,变量名最好与其代表的数据含义相对应。2.2.2 数据类型、列宽、小数列宽数据类型是指每个变量取值的类型,分别有数值型、字符型和日期型。相应的类型会有默认的列宽和小数位宽。数值型,通常有阿拉伯数字和其他特殊符号(如美元符号、逗号、圆点)等组成。默认列宽为8个字符,小数位宽默认为2位。包括标准型(默认)、科学记数法型、逗号型、圆点型和美元符号型。应用最为广泛字符型,由一串字符串组成,默认列宽为8个字符,区分大小写,输入时无需双引号。由于分析、整理都较困难,建议尽量少用,改为编码录入日期型,用来表示日期或是时

8、间数据。格式很多,如dd-mmm-yyyy,mm/dd/yyyy等。实际上是特殊的数值型变量,尽量少用2.2.3 变量名标签对变量名含义的进一步说明,它可增强变量名的可视性和统计分析结果的可读性。可用中文,总长度达120个字符。可省略,但建议给出。2.2.4 变量值标签是对变量取值含义的解释说明信息,对定类型和定序型数据尤为重要。2.2.5 缺失数据数据中明显错误或明显不合理的数据以及漏填的数据都可看作缺失数据。用户指定缺失值:字符型或数字型变量,可指定13个缺失值数字型变量,缺失值可在一个连续的闭区间内并同时附加一个区间外的离散值系统默认缺失值 用.表示(注. 0)SPSS提供了专门分析缺失

9、值的模块2.2.6 计量尺度Scale(刻度型或定距型):数据的最高级别,可进行四则运算和基于此的延伸运算;可分为两个子级别:间距级(Interval):可做加减,不可做乘除。比如在采用摄氏度时,不能说10摄氏度是5摄氏度的2倍比率级(Ratio):既可做加减,又可做乘除。比如长度的0定序型数据(Ordinal):具有固定的大小顺序,却不等距 如:优、中、差定类型数据(Nominal):没有有固定的大小顺序 如:男、女2.2.7 SPSS结构定义操作中应注意的问题(略)2.3 SPSS数据的录入与编辑2.3.1 SPSS数据的录入调查问卷的录入开放题:原则上按照字符变量自由录入,注意适情况适当

10、放大变量宽度(Width)单选题:按照选项设定标签,采用数字代码录入多选题P103:多重二分法(简称:二分法),多重分类法(简称:多分法)半开放题:使用两个变量对其进行定义,在第一个变量中,“其他,请指出”作为选项中的一个进行录入;第二个变量将“其他,请指出”看作一个独立的开放题进行数据录入将没有选择该选项的被访者作为缺失值处理多选题:多重二分法所谓多重二分法,是指将多选题问题中的每个答案设为一个SPSS变量,每个变量只有0或1两个取值,分别表示选择该答案和不选择该答案。多选题:多重二分法【例】请问您用下列哪几种方式保持身体健康? 科学安排饮食 运动 保持情绪乐观积极 其他措施每一个题项设立一

11、个二分类变量,用Y/N或0/1表示该选项是否被选择,当选项过多时不宜使用这种方法多选题:多重分类法多选题答案定义的另一种方法,首先估计多选项问题的最多可能出现的答案个数;然后,为每个答案设置一个SPSS变量,变量取值为多选项问题中的可选答案。变量必须为数值型变量,适用于问题的选项较多的情况多选题:多重分类法【例】请在下面列出的20个品牌中选出您认为最信得过几个(最多列五个),并将代码填入下面空格 1、 2、 3、 4、 5 、 。 候选品牌列表:1、长虹 2、海尔2.2.3 SPSS数据的编辑一、数据的定位人工定位,人工浏览数据。适用于数据较少的情况系统定位,系统按照用户指定的条件自动寻找数据

12、单元。适用于数据量较大的情况按个案号码定位,Data-Go to case按变量值定位,Edit-Find二、插入或删除一个个案或变量菜单操作:Data-Insert Case/Insert Variable鼠标右键: Insert Case/Variables, Cut三、数据的移动、复制和删除步骤:定义源数据块;单击鼠标右键Clear/Copy/Cut;指定目标单元块Paste2.4 SPSS数据的保存2.4.1 SPSS支持的数据格式SPSS文件格式(.sav),完整但通用性差;Excel格式(.xls),dbf文件格式(.dbf),文本文件格式(.dat),变量格式信息丢失但可被相应软

13、件直接读取2.4.2 保存SPSS的操作File-Save/Save as 文件名、文件类型及选择保存变量2.5 读取其他格式的数据文件2.5.1 直接读入其他格式的数据文件SPSS格式文件、Excel格式文件、dBase系列数据文件、SAS格式文件等步骤:File-Open-Date;选择文件类型并输入文件名2.5.2 使用文本导向读入文本文件File-Read Text Data2.5.3 使用数据库导向读入文件(略)2.6 SPSS数据文件的合并将一个(或多个)以存储在磁盘上的SPSS数据文件分别依次与SPSS数据编辑窗口中的数据合并,即合并个案。2.6.1 纵向合并数据将数据编辑窗口中

14、的数据与另一个SPSS数据文件中的数据进行首尾对接。操作:Data-Merge File-Add Cases 例:职工数据.sav和追加职工.sav【注】合并后的数据有意义含义相同的变量最好同名2.6.2 横向合并数据文件将数据编辑窗口中的数据与另一个SPSS数据文件中的数据进行左右对接,即合并变量。操作:Data-Merge File-Add Variables 例:职工数据.sav和职工奖金.sav【注】各数据文件中至少有一个名称相同的变量事先将关键变量进行升序排序不同含义的变量不应同名第三章 SPSS数据的预处理3.1 数据的排序(Data-Sort Cases)将记录按ID变量排序,有

15、利于查找、修改;将某个变量按升序或降序排列,可以非常容易的发现输入错误,因为他们往往就是最大/最小值;缺失值在排序中会排在最小值的前面,可以通过排序的方法很快发现那些记录为缺失值;包括单值排序和多重排序;例1:将“职工数据.sav”文件,按职称降序和工资收入升序重新排列。例2:“住房状况调查.sav”,通过排序分析本市户口和外市户口的住房面积情况3.2 变量的计算( Transform-Compute)在原有数据的基础上,根据用户给出的SPSS算术表达式以及函数,对所有个案或满足条件的部分个案,计算产生一系列新变量用于计算新变量,或者给老变量赋值有大量的SPSS函数可供使用学会如何写相应的语句

16、可能更方便实例依据“职工数据.sav”按职称级别计算实发工资,计算规则:实发工资等于基本工资减去失业保险,之后,依据职称14等级分别将以上计算结果上浮5,3,2,1。SPSS 算术表达式由常量、变量、算术运算符、圆括号、函数等组成的式子字符型常量用引号引起来算术运算符包括:、/、*(乘方)运算先后顺序为先乘方,再乘除,最后加减。同级运算时按从左到右的顺序进行,遇括号改变运算顺序同一表达式中常量及变量,数据类型应该保持一致SPSS 条件表达式对条件进行判断的式子。其结果有两种取值:如果判断条件成立,则结果为真;反之,则假简单条件表达式由关系运算符、常量、变量及算术表达式组成。关系运算符包括、=、

17、35复合条件表达式由逻辑运算符、圆括号和简单条件表达式等组成的式子。逻辑运算符有&(或AND)、(或OR)、(或NOT)。NOT的运算最优先,其次是AND,最低是OR如(nl=35) and not (zc3)SPSS 函数事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。书写的具体形式为:函数名(参数),其中参数可以是常量也可以是变量或算术表达式SPSS函数大致分为八大类,分别是算术函数、统计函数、分布函数、逻辑函数、字符函数、缺失值函数、日期函数和其它函数3.3 数据选取( Data-Select Cases)按要求筛选出数据集的一部分,可以使用组合条件进行筛选,按

18、指定条件选取;随机选取(包括近似选取和精确选取);选取某一区域内的样本;通过过滤变量选取。可以直接在数据集中抽样例:在“住房状况调查.sav”的数据文件中,按不同条件选择个案:只选本市户口的住户,选择全部样本的70,从前15个个案中随机选择3个个案,选择第3到第6个个案,选出未来三年变量的缺失值。3.4 计数(Transform-Count)计算某个值或某个区间的值出现的次数步骤:指定哪些变量参与计数,计算结果存入哪个新变量;指定计数区间例: “住房状况调查.sav”中,分析被调查家庭中有多少比例的家庭对目前的住房满意且近几年不准备购买住房。例: “学生数据.sav”中,分析学生各科成绩优秀、

19、良好的门数。3.5 分类汇总( Data-Aggregate)按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。例: “住房状况调查.sav”中,分析本市户口家庭和外地户口家庭目前人均住房面积的平均值是否有较大差距,未来打算购买住房的平均面积是否有较大差距。注意:这里指的是希望将原数据文件分类汇总为一个新的汇总数据文件进行分析,如果只是希望进行汇总描叙,则有相应的统计分析功能可以完成,不需要使用本过程3.6 数据分组( Transform-Recode)将数据按照某种标准重新划分为不同类型: Recode into same

20、 variable; Recode into different variable对连续型变量进行分组【例】:在“学生数据.sav”中生成新变量grade,当英语成绩小于60分时取值“不及格”,大于等于60分且小于70分为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。【注】端点值:前面的设定优于后面分类变量类别的合并【例】:将上例在数据“学生数据.sav”中生成的变量grade中的“优秀”、“良好”、“及格”三个等级合并为等级“PASS”,将grade等级“不及格”转化成“NOPASS”。3.7 数据预处理的其他功能Data-Transpose过程,对数据集进行数据排列格

21、式的转换:行列互换,即将个案转为变量,将变量转为个案,主要运用于编程例:将Transform.sav文件进行转置Data-Weight Cases过程分类资料数据录入格式,只有先进行加权设定,统计软件才能正确识别和处理数据分类资料数据录入格式枚举格式 频数格式只有先进行加权设定,统计软件才能正确识别和处理数据例:将“蔬菜销售.sav”文件进行频数分析Data-Split File过程将数据文件分组进行处理Analyze all cases:不拆分文件Compare groups:按所选变量拆分文件,各组分析结果紧挨在一起便于互相比较Organize output by groups:按所选变量

22、拆分文件,各组分析结果单独放置例:将“职工数据.sav”按职称进行分割,并按职称计算基本统计指标第四章 SPSS基本统计分析统计分析内容知识回顾:统计描述的工具(一)统计指标: 1、集中趋势Central tendency 2、离散趋势Dispersion tendency 3、偏度和峰度(二)统计表(分配数列)(三)统计图:直方图(Histogram)条形图(Bar Chart)饼图(Pie Chart)统计指标集中趋势的描述统计指标离散趋势指标1、全距(Range,R)2、方差(variance)和标准差(standard deviation)3、四分位差(quartile interva

23、l)4、变异系数(coefficient of variance, CV)描述对称程度的统计量偏度偏度(skewness):描述陡峭程度的统计量峰度峰度(kurtosis)4.1 频数分析(Frequencies)产生频数表,输出每个变量值对应的频数;输出基本描述统计量产生直方图、条图、饼图适用于定类及定序变量资料例: “住房状况调查.sav”分析户主从业情况、目前所住房屋产权情况;分析对比本市户口和外地户口人均住房面积的分布。Statistics 子对话框Percentile Values 复选框组 定义输出的百分数四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut po

24、ints for equal groups)、或直接指定某个百分位数(Percentiles)Central tendency复选框组 定义描述集中趋势均值(Mean)、中位数(Median)、众数(Mode)、总和(Sum)Statistics 子对话框Dispersion复选框组:定义描述离散趋势标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)Distribution复选框组:定义描述分布特征偏度系数(Skewness)和峰度系数(Kurtosis)Values are gro

25、up midpoints复选框确定输出的数据是分组频数数据,具体数据为组中值Charts子对话框Chart Type统计图类型选项栏None:不生成图 Bar charts:绘制条形图 Pie charts:绘制饼图Histograms:绘制直方图 With normal curve(加上正态曲线)Charts子对话框Chart Values作图数据选项栏如果选择了Bar charts 或Pie charts,便激活了Chart Values选项栏Frequencies:按频数作图 Percentage:按百分比作图Format对话框Order by 频数表的排列次序选项栏Ascending

26、values 按变量值的升序从小到大排列Descending values 按变量值的降序从大到小排列Ascending counts 按频数的升序从小到大排列Descending counts 按频数的降序从大到小排列Multiple variables 多变量选项栏:用两个以上变量作频数表Compare variables 两个变量的结果结合输出Organize output by variables 各变量单独输出Suppress tables with more than categories 分组变量大于10时禁止在结果窗口中输出,以免产生巨型表格4.2 计算基本描述统计量(Desc

27、riptives)进行一般性的统计描述,适用于正态分布资料与频数分析的区别:用于连续性变量 Z值的产生例:“住房状况调查.sav”对人均住房面积计算基本描述统计量,并分别对本市户口和外地户口家庭进行比较;分析人均住房面积是否有不均衡现象。4.3 交叉分组下的频数分析(Crosstabs)对两个变量之间关系的统计描述 适用于定类变量和定序变量统计检验:卡方检验(行列变量是否独立)H0:行列变量独立例1:“职工数据.sav”,要求:编制职称和文化程度交叉分组表;编制职称、文化程度和性别三维交叉分组表例2:“住房状况调查.sav”,分析本市户口和外地户口家庭对“未来三年是否打算买房”是否持相同的态度

28、。4.4 多选项分析(Multiple)定义多选变量 Frequencies过程 Crosstabs过程 统计描述指标例:“保险市场调查.sav”分析老年人购买商业养老保险的原因;分析不同单位性质人员购买商业养老保险的原因。第5章 SPSS统计分析进阶5.1 SPSS 参数检验假设检验的基本思想假设检验的步骤:提出原假设和备择假设(H0/H1)确定适当的检验统计量(t)规定显著性水平(a=0.01, 0.05, 0.10)计算检验统计量的值(t值或P值)作出统计决策一、单样本T 检验 (One Sample T Test)目的:检验某个标度型变量的均值是否为一已知值分析结果的含义例1:“住房状

29、况调查.sav”,家庭人均住房面积是否为20平方米。例2:“保险公司人员构成情况.sav”,推断具有高等教育水平的员工比例不低于0.8,年轻人的平均比例是否为0.5。二、独立样本T 检验( Independent-Sample T Test)目的:两个样本是否来自同一总体前提:总体服从正态分布,两个样本来自的总体等方差(方差齐性检验)分析结果的含义例1:“住房状况调查.sav”,推断本市户口总体和外地户口总体的家庭人均住房面积是否有显著差异。例2:“保险公司人员构成情况.sav”,全国性保险公司与外资和合资保险公司人员构成中,具有高等教育的员工比例的均值是否存在显著性差异。三、 配对样本的T

30、检验(Paired-Sample T Test)目的:同一样本的某个变量经过前后两次测试,形成两个均值是否有显著性差异。分析结果的含义例:“减肥茶数据.sav”,通过35名志愿者喝茶前后体重变化,分析减肥茶是否有明显的减肥效果。四、平均数分析(Means过程)目的:一个变量(标度型)是否受另一个变量(定类或定序)的影响, H0:u1=u2=un (两变量不相关),对需要比较的各组进行描述统计分析分析结果的含义【例】 “住房状况调查.sav”,文化程度和性别是否影响家庭收入。5.2 SPSS方差分析什么是方差分析?1.检验多个总体均值是否相等通过对各观察数据误差来源的分析来判断多个总体均值是否相

31、等2.变量一个定类尺度的控制变量(2个或多个处理水平),一个定距尺度的观察变量3.用于分析完全随机化试验设计方差分析的几个概念1.因素或因子 所要检验的对象称为因子2.水平 因素的具体表现称为水平3.观察值 在每个因素水平下得到的样本值两类误差:随机误差:在因素的同一水平(同一个总体)下,样本的各观察值之间的差异,比如,同一种颜色的饮料在不同超市上的销售量是不同的。系统误差:在因素的不同水平(不同总体)下,各观察值之间的差异,比如,同一家超市,不同颜色饮料的销售量也是不同的两类方差:组内方差:因素的同一水平(同一个总体)下样本数据的方差,比如,无色饮料A1在5家超市销售数量的方差,组内方差只包

32、含随机误差。组间方差:因素的不同水平(不同总体)下各样本之间的方差,比如,A1、A2、A3、A4四种颜色饮料销售量之间的方差。组间方差既包括系统误差也包括随机误差方差的比较:如果不同颜色(水平)对销售量(结果)没有影响,那么组间方差与组内方差就应该很接近,两个方差的比值就会接近1如果不同的水平对结果有影响,在组间方差中除了包含随机误差外,还会包含有系统误差,这时组间方差与组内方差的比值就会大于1。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异方差分析中的基本假定:每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本,比如,每种颜色饮料的销售量

33、必需服从正态分布各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的,比如,四种颜色饮料的销售量的方差都相同观察值是独立的 比如,每个超市的销售量都与其他超市的销售量独立方差分析的原假设:如果原假设成立,即H0: u1 = u2 = u3 = u4四种颜色饮料销售的均值都相等,没有系统误差这意味着每个样本都来自均值为 m、差为s2的同一正态总体 如果备择假设成立,即H1: ui (i=1,2,3,4)不全相等至少有一个总体的均值是不同的,有系统误差这意味着四个样本分别来自均值不同的四个正态总体 构造检验的统计量总离差平方和(SST)、组内离差平方 (SSE)和组间离差平方和 (SSA) 之间的关系将SSA和SSE分别除以自由度进行对比,即得到所需要的检验统计量F当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即一、单因素方差分析(One-Way ANOVA)目的:控制变量各水平下观测变量总体均值是否存在显著差异。前提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论