版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS基本操作
SPSS基本操作1内容提要
1.SPSS操作入门
SPSS的窗口、运行方式、结果输出等
2.变量的相关操作变量名的定名规则、变量类型、标签等
3.数据文件的编辑数据的排序、转置、合并、拆分、选择、加权、转换
内容提要2SPSS基本操作1.SPSS操作入门
SPSS的窗口、运行方式、结果输出2.变量及有关变量的操作变量名的定名规则、变量类型、标签等3.数据文件的编辑数据的排序、转置、合并、拆分、选择、加权、转换SPSS基本操作1.SPSS操作入门3SPSS操作入门SPSS的窗口SPSS的运行方式SPSS的结果输出SPSS操作入门SPSS的窗口4安装SPSS安装SPSS5从开始菜单运行使用桌面快捷方式来运行运行SPSS从开始菜单运行使用桌面快捷方式来运行运行SPSS6启动SPSS,首先看到的是数据编辑窗口菜单栏工具栏SPSS启动界面启动SPSS,首先看到的是数据编辑窗口菜单栏工具栏SPSS7SPSS的5个窗口数据编辑窗口结果管理窗口语法编辑窗口脚本窗口草稿结果窗口SPSS操作入门SPSS的5个窗口数据编辑窗口SPSS操作入门8SPSS的数据管理窗口此窗口类似于Excel窗口,SPSS处理数据的主要工作全在此窗口进行。它分为两视图:数据视图和变量视图。SPSS操作入门SPSS的数据管理窗口此窗口类似于Excel窗口,SPSS处9
File:对SPSS文件的管理,包括新建、打开、保存文件等
Edit:与windows类似的编辑功能,如复制、剪切、粘贴、撤消等,以及系统参数设置
View:选择显示状态条、工具栏、网格线、变量标签、变量视图及字体设置等
Data:实现文件级别的数据管理,如记录排序、记录拆分、记录筛选、合并文件等
Transform:实现变量级别的数据管理,如计算新变量、变量值的分组合并、连续变量的可视化分段等SPSS菜单栏File:对SPSS文件的管理,包括新建、打开、保存文10
Analyze:SPSS的重点菜单项,涵盖各种主要统计分析功能
Graphs:绘制各种普通统计图及交互式统计图,如直方图、茎叶图、箱图、残差图等
Utilities:提供各种实用性管理设置,如变量信息管理,输出结果文件设置、菜单管理等
Windows:窗口拆分、最小化、当前窗口显示等
Help:帮助系统SPSS菜单栏Analyze:SPSS的重点菜单项,涵盖各种主要统计分析11打开文件保存文件打印召回前次菜单操作撤消查找记录查看变量信息查找变量值插入记录插入变量拆分文件设置权重选择记录显示变量标签使用数据集SPSS工具栏打开文件保存文件打印召回前次菜单操作撤消查找记录查看变量信息12数据管理窗口的数据视图用于显示具体的数据,一行代表一个观测个体(一条记录),一列代表一个属性(一个变量)。SPSS操作入门菜单栏工具栏数据视图标签变量视图标签变量名数据管理窗口的数据视图用于显示具13数据管理窗口的变量视图专门显示有关变量的信息:
Name:变量名Type:变量类型Width:变量长度Decimals:小数位数Label:变量标签
Value:变量值标签Missing:定义变量缺失值Columns:显示列宽Align:对齐方式Measure:测量尺度SPSS操作入门菜单栏工具栏数据视图标签变量视图标签关于变量信息的格式名称数据管理窗口的变量视图专门显示有关变量的信息:SPSS操14SPSS的结果管理窗口又称结果视图,用于存放分析结果。此窗口类似于Windows的资源管理器,整个窗口分两个区:左边为目录区,是SPSS分析结果的一个目录;右边是内容区,是与目录一一对应的内容。SPSS操作入门SPSS的结果管理窗口又称结果视图,用于存放分析结果。SPS15SPSS的结果管理窗口SPSS操作入门SPSS的结果管理窗口SPSS操作入门16SPSS的4种运行方式菜单对话框方式程序方式Include命令方式SPSSProductionFacility方式SPSS操作入门SPSS的4种运行方式菜单对话框方式SPSS操作入门17菜单对话框方式SPSS操作入门待选变量列表框分析变量列表框确认粘贴恢复取消帮助表格格式图形统计粘贴:将对话框中的选择自动转化为相应的程序语句。恢复:将对话框恢复为默认状态。菜单对话框方式SPSS操作入门待选变量列表框分析变量列表框确18SPSS的4种结果输出表格格式文本格式标准图交互图SPSS操作入门SPSS的4种结果输出表格格式SPSS操作入门19表格格式SPSS操作入门表格格式SPSS操作入门20标准图SPSS操作入门是在Graphs菜单下直接单击图形生成的,与交互图相比,生成速度快,可以满足大部分统计绘图的需求,但编辑能力要弱于交互图,适用于理解数据。标准图SPSS操作入门是在Graphs菜单下直接单击21交互图SPSS操作入门是在Graphs→Interactive下单击图形生成的,与标准图相比,对系统硬件环境要求更高,但可绘制的图形种类更多,编辑功能更强,尤其可以生成实时旋转的动态三维图,更适合在报告演示中应用。交互图SPSS操作入门是在Graphs→Intera22变量的相关操作变量名(Name)的定名规则变量类型(Type)变量宽度(Width)和小数位数(Decimal)变量标签(Label)变量赋值(Value)变量缺失值的定义(Missing)列宽(Column)和位置(Align)度量类型(Measure)变量的相关操作23变量名(Name)的定名规则(1)变量名的第一个字符可以是字母或中文字,后面可跟任意字母或中文字、数字、句点或@、#、_或$等符号;(2)变量名不能以句点结尾;(3)定名时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符为下划线,这样有可能造成冲突);(4)变量名的长度一般不超过64个字符(32个中文字),SPSS11.0版变量名的长度一般不超过8个字符(4个中文字);(5)空格和特殊字符(如!、?、’和*等)不能用于变量名;(6)每个变量名必须保证是唯一的,不区分大小写;(7)下面的关键词不能用作变量名:ALLNEEQTOLELTGEBYORGTANDNOTWITH
注意:1.如果操作时使用了违犯定名规则的变量名,系统会有提示,并使定名不成功。
2.尽管变量名可以用中文字,这样更直观、可理解,但在实际操作中应尽量避免用中文字作为变量名。由于此软件为英文版本,用中文字作为变量名,可能会在操作中发生一些难以预计的错误。为使操作方便和结果输出直观,可在变量标签处用中文注明(后述)。变量的相关操作变量名(Name)的定名规则(1)变量名的第一个字符24不合法变量名示例及分析变量名错误原因
NAME_@123变量名超过8个字符(11.0及以前版本)
NAME_1.以句点结尾
_12NAME第一个字符不是字母
NAME?1变量名中有?和空格
ALL用了不能用作变量的关键词*输入不合法的变量名时,会自动显示出错信息.变量的相关操作不合法变量名示例及分析变量名错误原因NAME_@12325变量类型(Type)数值型逗号型句点型科学计数型日期格式型字符串型定制货币型美元型变量的相关操作变量类型(Type)数值型逗号型句点型科学计数型日期格式型字26变量宽度(Width)和小数位数(Decimal)宽度小数位数*宽度数字不得小于小数位数加1。变量的相关操作变量宽度(Width)和小数位数(Decimal)宽度小数位27变量标签(Label)一般在变量标签处输入中文,为变量名的中文意思,或相关说明。允许变量标签字符数最多可达256个。变量标签变量的相关操作变量标签(Label)一般在变量标签处输入中文,为变28变量标签(Label)当为变量定义了变量标签以后,在进行分析时,对话框中的待选变量列表框和分析变量列表框中的变量名前标注有变量标签,操作时一目了然。定义了变量标签未定义变量标签变量的相关操作变量标签(Label)当为变量定义了变量标签以后,在29变量标签(Label)当为变量定义了变量标签以后,在对该变量进行数据处理后得到的图表中就用变量标签来表示变量信息;但如果没有定义变量标签,将直接用变量名来表示变量信息。未定义变量标签定义了变量标签变量的相关操作变量标签(Label)当为变量定义了变量标签以后,在30变量赋值(Value)填入数字填入数字所代表的意义变量的相关操作变量赋值(Value)填入数字填入数字所代表的意义变量的相关31变量赋值(Value)给变量的值赋值(赋予值标签)后,可以使输出结果更清楚、更便于阅读和理解。未赋予值标签赋予值标签后变量的相关操作变量赋值(Value)给变量的值赋值(赋予值标签)后32变量缺失值的定义(Missing)没有缺失值离散的缺失值连续的缺失值加上一个离散缺失值变量的相关操作变量缺失值的定义(Missing)没有缺失值离散的缺失值连续33列宽(Column)和位置(Align)位置列宽变量的相关操作列宽(Column)和位置(Align)位置列宽变量的相关操34
定类尺度(NominalMeasurement):无序分类变量,如性别可取“男”、“女”。只能计算频数和频率
定序尺度(OrdinalMeasurement):有序分类变量,如对游泳的喜欢程度1-非常喜欢,2-喜欢,3-无所谓,4-不喜欢,5-非常不喜欢,可计算频数、频率、累计频数、累计频率
定比尺度(ScaleMeasurement):能够计算两个测度值之间比值的一种计量尺度,如职工月收入。有绝对“零点”,0就表示“没有”度量类型定类尺度(NominalMeasurement):无序35数据文件的编辑数据的排序数据的转置数据的合并数据文件的拆分数据的选择数据的加权数据的转换(利用Compute)数据文件的编辑数据的排序36数据的排序数据文件的编辑有的过程运行以前要求对数据按照某个或某几个变量进行排序,如数据文件夹拆分和合并等。可执行数据排序操作以实现。排序数据的排序数据文件的编辑有的过程运行以前要求对数据按37数据的排序数据文件的编辑升序第一排序变量第二排序变量降序数据的排序数据文件的编辑升序第一排序变量第二排序变量降序38数据的转置数据文件的编辑
SPSS可以将数据编辑器中打开的数据进行行、列互换,使原来的行变成列,原来的列变成行。数据的转置数据文件的编辑SPSS可以将数据编辑器中打39数据的合并数据文件的编辑
对于存在某种联系的两个数据文件,可以用SPSS的合并功能将它们按照一定的方式进行合并。
SPSS提供了两种方式来合并数据文件的数据:个案合并(AddCases)和变量合并(AddVariables)。
个案合并要求两个数据文件具有相同的变量,执行个案合并,相同变量所对应的个案集中到一个文件中。新文件增加了记录的条数。
变量合并要求两个数据文件具有相同的个案,执行变量合并,两个文件中相同个案对应的变量集中到新文件中。新文件增加了变量数。数据的合并数据文件的编辑对于存在某种联系的两个数据文40个案合并数据文件的编辑合并个案合并数据文件的编辑合并41变量合并数据文件的编辑合并变量合并前应先将两个文件按照将要选择的共同变量(关键变量)进行升序排列.如例中的“id”。变量合并数据文件的编辑合并变量合并前应先将两个文件按42数据文件的拆分数据文件的编辑如果要对数据基于一个或几个变量分类以后形成的各组数据的个体进行统计分析,可以用拆分(Split)功能。需要明确的是,所谓拆分,并不是要把文件真的分成几个,而是根据需要,依据某一个或几个变量按照一定顺序把原数据重新排列,把与所选定的一个或几个变量共同相关的数据在数据编辑器中集合到一起,以便集中操作和对比。拆分以后,原数据进行了重新排列,这一点与排序有相近之处。但实际上,其主要作用是,对拆分后的数据进行处理,所得结果在查看器中的显示出是不一样的,它是按照某一个或几个变量分类后,各自的结果而显示。数据文件的拆分数据文件的编辑如果要对数据基于一个或几43数据文件的拆分数据文件的编辑数据文件的拆分数据文件的编辑44数据文件的拆分数据文件的编辑数据文件的拆分数据文件的编辑45数据的选择数据文件的编辑有时,我们需要在大量的原始数据中选择所需要的部分数据进行统计分析,就可用到“数据的选择”功能。数据的选择数据文件的编辑有时,我们需要在大量的原始数46数据的选择数据文件的编辑根据逻辑关系表达式选择数据随机选取数据在给定范围(日期、时间或个案号等)内选择数据用过滤器变量选取数据选择所有数据剔除个案(斜杠)删除个案数据的选择数据文件的编辑根据逻辑关系表达式选择数据随机选取数47数据的选择(逻辑关系表达式举例)数据文件的编辑选择男性并且年龄大于等于35岁且小于等于74岁的个案数据的选择(逻辑关系表达式举例)数据文件的编辑选择男性并且年48数据的加权数据文件的编辑加权是一种通过人为方法来调节样本或数据大小的方法,在样本分析和科学评价中经常用到。所谓加权,就是给被加权对象乘上一个系数。数据的加权数据文件的编辑加权是一种通过人为方法来调节49数据的加权(个案加权举例)数据文件的编辑数据的加权(个案加权举例)数据文件的编辑50数据的加权(个案加权举例)数据文件的编辑实例数据的加权(个案加权举例)数据文件的编辑实例51第一节、单变量描述统计
由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集中量数分析、离散量数分析。第一节、单变量描述统计由一种变量的全部分数或观察值组成的一52一.频数分布与频率分布频数分布(FrequencyDistribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。
频率分布(percentagesdistribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达.
一.频数分布与频率分布频数分布(FrequencyDis53
编制频数分布表,画出频数分布图
某中学初三甲班60人期中英语考试分数
826093938972859768777698564577766146605189437569896080747467858755877191746488578491606159637879889687895289857656545890案例编制频数分布表,画出频数分布图某中学54二、集中量数分析集中量数就是代表数据分布集中趋势的量数。集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。
最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。
二、集中量数分析集中量数就是代表数据分布集中趋势的量数。55中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处56中位数(Md)中位数(Md),又称中数,是频数分布上50%处的数值,即将观察总数一分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为偶数时,取分布50%(最中心)处的两个数据的平均数作为中数。中位数(Md)中位数(Md),又称中数,是频数分布上50%处57几何平均数(Mg)
是n个数据的连乘积开n次方的根。常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读能力的进步率等。
Mg=几何平均数(Mg)是n个数据的连乘积开n次方的根。常58算术平均数通常称平均数,又称均数或均值。英文为Mean,故以M表示。如果是由变量X计算得来的就记为(读X杠),现在一般都以表示样本的平均数,以U表示总体的平均数。算术平均数就是各个变量值相加求和再除以变量的总次数。==算术平均数通常称平均数,又称均数或均值。英文为Mean,故以59算术平均数的计算方法1、用原始数据计算平均数。当一组数据个数不多时,可直接用原始数据来计算。如某实验小组10人的实验成绩为11,13,15,16,16,16,17,18,18,20。其平均数为:===16算术平均数的计算方法1、用原始数据计算平均数。当一组数据个602、用频数分布表求平均数。如果样本的数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。=Xc为各组的组中值,f为各组的频数,N为总次数()
2、用频数分布表求平均数。如果样本的数据很多,达到数十个或61某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表
==73.5
73.5
73.5
73.5
73.5某中学初三甲班60人英语期中考试成绩
平均数、标准差计算表62中位数与平均数的比较(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.¬(2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定类测量或者是有开口组的定居测量时,中位数能够拟补不足.中位数与平均数的比较(1)平均数要求计算所有的数值,而中位数63三.离散量数分析
离散(中)量数分析指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.常见的离散量数统计量有全距,标准差,异众比率,和四分位差.三.离散量数分析离散(中)量数分析指的是用一个特别的数64
示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78,79,80,81.82X=80数学系:65,72,80,88,95X=80外语系:35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.示例:651.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之差.
它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-Lmin1.全距(R)全距也叫极差,它是一组数据中,最大值与最小值之66R=98(最大值)—43(最小值)
=551.求全距步骤R=98(最大值)—43(最小值)1.求全距步67视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。2.定组数
分组参考表
n5080100150200300500100020005000分组数9111214161822303956视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显68组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。3、求组距
组距i
=
=9.3
i=本例组数为6,组距一般地,为计算方便,组距取10为宜
组距就是每一组的间距,即每组所包含的单位。组距以“i”表示。69组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组限的写法有很多,有的用上下限表示,有的用组中值表示。如以“10”为组距,一般多用首尾相接,间隔为10的形式表示。即60~70,70~80,80~90。其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确界限,如“80~90”这一组的精确界限为“79.5~89.4999……”。4.定组限组限是分组的界限,其底数为下限(L),其顶数为上限(U)。组705.求组中值
组中值XC=精确下限L+
如以10为组距,则”80~90”一组的组中值为:组中值=79.5+=84.5
5.求组中值组中值XC=精确下限L+如以10为组71某中学初三甲班60人英语期中考试成绩频数分布表
6.归类划记
某中学初三甲班60人英语期中考试成绩频数分布表6.归类划722.标准差标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S(或来表示)式中S(样本统计值)为标准差,X为各学生的成绩分数,为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。S==2.标准差标准差:一组数据对其平均数的偏差平方的算术平均73例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如下:中文系:7879808182数学系:6572808895英语系:35788998100平均成绩=80
标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。S(中文系)=1.414(分)S(数学系)=10.8(分)S(英语系)=23.8(分)S=例1:某校三个系各选5名同学,参加智力竞赛,他们的成绩分别如74例2.例:有某生三次数学考试的成绩分别为70、57、45,三次考试的班平均为70、55、42,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位?(如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问题。)
Z1=(70-70)/8=0Z2=(57-55)/4=0.5Z3=(45-42)/5=0.6这说明,原始分数为70,其位置正在平均线上,而原始分数为57的,其位置在平均线上0.5处,而原始分数为45的,其位置在平均线上0.6处。
例2.例:有某生三次数学考试的成绩分别为70、57、45,三753.异从比率
是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。4.四分位差
把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25%)
舍去资料中数值最高的25%和最低的25%,仅就中间50%数据求其量数作为离中量数,就是四分位差。
四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。
Q=Q3-Q1
(2)对定距类资料计算四分位差。3.异从比率76使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与77四、相对差异(离散或离中)量数
1.离散系数
离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。。离散系数的定义是:标准差与平均数的比值,用百分比表示。CV=S/XCV=×100CV=×100
四、相对差异(离散或离中)量数1.离散系数78例1:一项调查得到下列结果,某市人均平均收入为92元,标准差为17元,人均住房面积7.5平方米,标准差为1.8平方米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。[解]人均收入的离散系数为CV=S/×100%=18.5%人均住房面积的离散系数为CV=1.8/7.5×100%=24%例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?[解]广州居民收入的离散系数为CV=120/680×100%=17.6%武汉居民收入的离散系数为CV=80/360×100%=22.2%例1:一项调查得到下列结果,某市人均平均收入为92元,标准差79五、标准分数
是用来描述变量分布中某一分数在整个分布中所处的位置,它是以标准差为单位的相对量数。其计算公式为:
z
==从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。五、标准分数是用来描述变量分布中某一分数在整个分布中所处的80例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得92分,乙生得70分,问甲乙二生的分数各为多少?
Z甲=Z乙=
=2=-.59据正态分布理论可知的取值范围在-3到+3之间。为了使标准分数变成正值并减少小数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计算公式为:T=10Z+50
例如:某班语文平均考试成绩为75分,标准差为8.5分。甲生得81目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量数,如平均数、标准差也不相等。我们不能说语文的考分80分等价于数学的考分的80分,也不能说英语考分75分等价于物理的考分75分,在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,把每个考生的各科分数变成标准分数,然后再进行相加和比较。目前,我国各类学校招考新生和对学生进行学习成绩考查评82甲乙两位考生七科分数的标准化表
甲乙两位考生七科分数的标准化表83练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些问题进行单变量的统计描述,绘制频数分布表。2.在一个社区诊所,10天内来排队看病的人数分别是52,68,39,47,57,32,75,25,31和93,求算术平均数和中位数,以及标准差练习1.根据各小组调查的问卷,先进行数据清理工作,然后对某些84第二节如何对数据进行基本的统计分析第二节如何对数据进行基本的统计分析85一、统计变量的频次分布(人数、百分比)单选项的频次分析1)将表示多选项的多个变量合成一个变量2)对合成变量进行频次分析
AnalyzeMultipleResponseDefineSets
AnalyzeMultipleResponseFrequenciesAnalyzeDescriptiveStatisticsFrequencies2.多选项的频次分析一、统计变量的频次分布(人数、百分比)单选项的频次分析1)将86二、计算变量分布的特征指标众数、中位数、平均数异众比率、极差-四分位差、标准差AnalyzeDescriptiveStatisticsfrequencies二、计算变量分布的特征指标众数、中位数、平均数Analyze87分布平均数中位数众数离散程度分布平均数中位数众数离散程度88SPSS软件的基本操作教程课件89三、变量间的交互分类与相关AnalyzeDescriptiveStatisticsCrosstabs1.单选项间的交互分类三、变量间的交互分类与相关Analyze90三、变量间的交互分类与相关2.多选项与其他变量的交互分类1.单选项间的交互分类3.相关系数的选择(接1、2)Crosstabsstatistics相关系数三、变量间的交互分类与相关2.多选项与其他变量的交互分类191常用相关系数的适用范围变量层次相关系数适用的变量关系取值范围预测的基准定类-定类(定类-定序)Lambda(λ)对称或不对称〔0,1〕众数Goodman&Kruskal’stau-y(τy)不对称〔-1,1〕变量值的分布比例定序-定序Gamma(G)对称或不对称〔-1,1〕变量值顺序Somers’D(dyx)不对称〔-1,1〕变量值顺序定类-定距(定序-定距)Correlationratio(E2)不对称〔0,1〕均值定距-定距积距相关系数(Pearson’sr)对称或不对称〔-1,1〕均值
常用相关系数的适用范围常用相关系数的适用范围变量层次相关系数适用的取值预测的定类-921推断统计的一般概念1.1推断统计的含义及类型:(1)含义:推断统计是指用概率分布的方法,由样本的统计量推断总体参数的统计方式。SPSS的推断统计(一)参数估计和单变量的假设检验1推断统计的一般概念SPSS的推断统计(一)93样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度的人占32%。样本32%总体参数:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为38%。总体38%样本统计量:样本中某个变量的统计值。如此次调查中高中文化程度94样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者之间有着某种概率关系。推断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。为了区别样本和总体的不同,样本的平均数用来表示,标准差用S表示;总体的平均数用μ表示,标准差用σ表示。因此,推断统计往往可以看作是由推断μ。样本统计量有可能等于总体参数,也有可能不等于总体参数,但二者95样本32%总体μ=?(2)类型:推断统计分为参数估计和假设检验两大类。参数估计:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。样本32%总体(2)类型:推断统计分为参数估计和假设检96假设检验:先假定总体参数为μ,用一个随机样总体μ=38%样本32%来检验总体参数为μ的假设是否成立。本的统计量?假设检验:先假定总体参数为μ,用一个随机样总体样本3971.2推断统计的原理:参数估计和假设检验都是利用正态分布的概率特征来进行的。(1)正态分布(μ,σ):正态分布是一种统计分布,它有如下几个特征:A单峰对称;B平均数、中位数、众数合一,都在峰点;Cμ±1.96σ包含了95%的面积;
μ±1.65σ包含了90%的面积;即面积和标准差之间有一个固定换算。1.2推断统计的原理:98正态分布N(μ,σ)μ±1.96σ平均数μ正态分布N(μ,σ)μ±1.96σ平均数μ99170±1.96*10(170,10)例:某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:1)高于平均数1.5个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?170±1.96*10(170,10)例:某校同学的身高为100解1:Xi=μ+Z*σ=170+1.5*10=185cm;解2:Z=(Xi-μ)/σ=(162-170)/10=-0.8;解3:Xi=μ-Z*σ=170-1.96*10=150.4Xi=μ+Z*σ=170+1.96*10=189.6(150.4~189.6)由上可得出:其中Xi为分布中任何一个值,μ是平均数;σ是标准差。Z是Xi距离平均数μ的标准差单位,又称Z分数,同时也表示Xi与平均数μ之间的面积。解1:Xi=μ+Z*σ=170+1.5*10=185cm;由101(2)标准正态分(Z分布):N(0,1)标准化了的正态分布。即平均数=0,标准差=1的正态分布。(0,1)σ=1(2)标准正态分(Z分布):N(0,1)(0,1)σ=1102(3)总体分布:D(μ
,σ
)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分布。(3)总体分布:D(μ,σ)总体中某变量的几何分布。有103(4)样本分布:D(,S)样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。(4)样本分布:D(,S)样本中某变量的统计分布,和总体104(5)样本平均数的抽样分布:N(μ
,)从总体中多次重复抽取容量为n的样本,每个样本平均数的所形成的统计分布。是由多个组成的。总体分布样本平均数的抽样分布D(μ,σ
)N(μ,)(5)样本平均数的抽样分布:N(μ,)从总体中多次重复抽105样本平均数的抽样分布的特点:B正态分布。C它的平均数就等于总体的平均数μ,标准差则是A是由多个组成,因此,我们所作的任何一次抽样的平均数都可看作是样本平均数的抽样分布中的一个点。它会有95%的概率落在μ±1.96总体标准差σ的倍。即的范围内。,又被称作标准误(StandardError,S.E)样本平均数的抽样分布的特点:B正态分布。A是由多个组成,106总体分布(μ
,σ)样本分布(,s)样本平均数的抽样分布(μ,)三种分布的关系总体分布(μ,σ)样本分布(,s)107推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及与μ的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点,可用来估计总体参数μ
。推断统计的原理就是:在实际调查中,我们便是利用这一原理,用一1082参数估计的步骤1)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的标准差代替)3)设定参数估计的置信区间[即参数估计的把握性](90%?95%?)的Z值(1.65?1.96?)4)根据计算出μ的所在范围。2参数估计的步骤1)求出样本的平均数、标准差;4)根据计算109例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取25人,得知他们的课外活动时间平均为60分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择95%的置信区间)解:=60S.E=15/251/2Z=1.96=60±5.88≈60±654<μ<66例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从110例:在此次调查中,男性共630人,平均年龄为45岁,标准差为15;女性共620人,平均年龄为44岁,标准差为14。问:1)男性与女性各自平均年龄的总体参数是多少?(95%的置信区间)解:男性=45±1.17643.824<μ<46.176例:在此次调查中,男性共630人,平均年龄为45岁,标准差为111女性:=44±1.142.9<μ<45.12)从总体上看,男女年龄是否有差异?解:比较男女平均年龄的总体参数的区间,μ男(43.8,46.1)μ女(42.9,45.1)二者有交集,故总体年龄在95%的置信度上没有差异。女性:=44±1.142.9<μ<45.12)从总体上看112答案:1(652.339,709.561)(646.97,714.93)2(5.8364,6.0436)(6.574,6.766)(7.827,8.053)答案:(652.339,709.561)(646.97,1133比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占9.4%,也可以用μ=Xi±Z*S.E公式的变形:P总=Pi±Z*S.E来推断总体参数。其中,Pi为比例数形式的样本统计量,3比例数的参数估计:114示例:在此次抽样调查的1254人中,共青团员的比例为9.4%,求总体中共青团员的比例参数(置信度为95%)。解:P总=Pi±Z*S.E(0.078,0.11)总体中共青团员的比例有95%的可能性在7.8%~11%的区间内。示例:(0.078,0.11)1154假设检验的步骤:示例:纳税起征线的规定是根据当地居民的平均月收入制定的。有关部门认为某地的起征线应为800元,因为根据经验当地居民平均月收入应不低于此数。在当地进行的一次400人的随机抽样表明,居民月收入为790元,标准差为100元,请用此调查结果在95%的置信水平上检验居民月收入为800元的说法是否成立。4假设检验的步骤:示例:116
假设m=800800!1.96*5m=800,样本容量为400时的样本平均数的抽样分布:N(800,5)样本:X=790假设m=800800!1.96*5m=8001174.1假设检验的分布算法1)确定有关总体参数m的假设;如假设总体平均收入为800元;2)确定检验此假设的概率标准,即置信区间为P=90%?P=95%?(Z=1.65?Z=1.96?)
(平均数、标准差、标准误,即样本平均数抽样分布的标准差)。4)以m为中心,作出样本平均数抽样分布的给定概率区间。3)抽取一个随机样本,计算出、S、S.E5)看在这一区间内是否包括了,如果包括,就可以说,在给定的置信区间中(或在给定的概率条件下),验证(接受)了原假设;如未包含,则说明原假设在给定的概率水平上不成立(被否定),或说原假设在给定的显著度水平(1-给定概率)上被否定。4.1假设检验的分布算法(平均数、标准差、标准误,即118解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算样本的有关统计量=790;S=100;S.E==100/20=54)以m为中心,作出样本平均数抽样分布的给定概率区间。(800±1.96×5),即(790.2~
809.8)5)结论:此区间未包含样本统计量790,因此在5%的显著水平上推翻原假设。当地居民的平均月收入小于800元。解:1194.2假设检验的公式算法:从上一算法中可以看出,Xi距m的距离是检验假设的关键指标:Xi如果落在m的95%的置信区间之外,这时|Zxi|〉Z95%,即|Zxi|〉1.96。则原假设被否定的概率〉95%,或者说,原假设成立的概率〈5%,我们称为在5%的显著水平上否定了原假设。Xi如果落在m的95%的置信区间之内,这时|Zxi|〈Z95%,即|Zxi|〈1.96。我们称为在5%的显著水平上不能否定原假设。因此,可以利用4.2假设检验的公式算法:从上一算法中可以看出,Xi距m的120来直接计算出|Zxi|是否大于Z95%。解:1)确定有关总体参数的假设H0:m
=800;H1:m
!800;2)确定检验此假设的概率标准:置信度为95%,显著度为5%,即Z=1.963)计算Zxi4)判定:Zxi=-2,绝对值大于Z95%,因此在5%的显著水平上否定原假设m
=800。来直接计算出|Zxi|是否大于Z95%。4)判定:Zxi=-121
假设m=800样本1:X1=795;S=10m!1.96S.E样本2:X2=790;S=10接受区95%拒绝区5%假设m=800样本1:X1=795;S=10m1221双变量统计关系假设检验概述变量间关系的统计和变量关系强度的测量也同样存在统计推断问题。即从样本中统计出的变量关系强度系数(如X2、各种相关系数)是否在总体上也有效。比如:根据我们的调查1254人的统计结果得知性别)与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367,那么总体上这些变量之间是否也会有同样的相关?这就要依靠变量关系的假设检验。SPSS的推断统计(二)双变量关系的假设检验1双变量统计关系假设检验概述SPSS的推断统计(二)1232双变量统计关系假设检验的步骤双变量的假设检验和单变量很相似,通常采用以下的步骤:1)确定双变量总体参数的假设:如假设总体中性别与文化程度无关,即卡方值=0;W19.1与W19.2不相关,即r=0;2)确定检验此假设的概率标准,即置信区间为95%或90%(即显著度为0.05或0.1);3)抽取一个随机样本,计算出样本中双变量关系的统计量,如性别与文化程度的卡方值为27.89,W19.1与W19.2的相关系数r=0.367;2双变量统计关系假设检验的步骤1244)选择用来检验这些假设的概率分布,如标准正态分布(Z分布)、卡方分布、t分布、F分布等,并根据置信区间或显著度设立接受原假设的区间(接受域)或拒绝区间(拒绝域);5)观察样本的统计量的概率值是否落在接受区内,从而判断是接受/拒绝原假设。一般而言,显著度(即拒绝域)一般都定在0.05或0.10。当检验的结果小于此,原假设就落在了拒绝域中,因此就可以得出结论:变量间统计关系为0的假设在总体上是不成立的;而作出这一结论的显著性(或者说,犯错误的概率)<5%或10%;换言之,样本中变量关系统计不为0的结果在总体上是成立的,而作出这一结论的显著性(或者说,犯错误的概率)也同样<5%或10%;4)选择用来检验这些假设的概率分布,如标准正态分布(Z分布)1253变量关系的显著性检验类型3变量关系的显著性检验类型126B卡方计算公式:4SPSS中变量关系的显著性检验
1)定类—定类尺度:X2检验
卡方检验是用来检验样本中两个定类变量的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 你信不?性格可决定运气
- 新型数据基础设施发展研究报告-推动全闪存数据中心建设助力数字经济高质量发展
- 吉首大学《国际商务谈判》2021-2022学年第一学期期末试卷
- 吉林艺术学院《字体设计》2021-2022学年第一学期期末试卷
- 吉林艺术学院《文化政策法规》2021-2022学年第一学期期末试卷
- 吉林艺术学院《乐理Ⅱ》2021-2022学年第一学期期末试卷
- 2024年供应商付款优惠协议书模板
- 小型汽车租用协议书范文范本
- 吉林师范大学《音频处理与视频剪辑》2021-2022学年第一学期期末试卷
- 河道洗砂承包协议书范文模板
- 电缆振荡波局部放电试验报告
- 西门子RWD68说明书
- 针对建筑工程施工数字化管理分析
- 多品种共线生产质量风险评价
- 【MBA教学案例】从“虾国”到“国虾”:国联水产的战略转型
- Unit-1--College-Life
- 医院车辆加油卡管理制度
- 平面四杆机构急回特性说课课件
- 安徽职业技术学院实验实训室建设管理办法(试行)
- 岗位价值评估表(共4页)
- 娃哈哈晶钻水营销策划方案
评论
0/150
提交评论