应用统计软件介绍:04-数据处理_第1页
应用统计软件介绍:04-数据处理_第2页
应用统计软件介绍:04-数据处理_第3页
应用统计软件介绍:04-数据处理_第4页
应用统计软件介绍:04-数据处理_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、应用统计学软件,第四章 SPSS数据的预处理,1计数 2分类汇总 3数据汇总 4数据预处理的其他功能,1计数,计数目的 计数区间 计数的基本操作 transform-count 计数的应用举例,计数目的,(例子) 例如,学生成绩的综合评价(优良中差)。 计数定义 是对所有个案或满足某条件的部分个案,计算若干变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量中的过程。 计数的关键步骤 1、指定那些变量参与计数,计数的结果存入哪 个新变量中; 2、指定计数区间。,计数区间的描述形式,单个变量值 系统缺失值 系统缺失值或用户缺失值 给定最大值和最小值的区间 小于等于某指定值的区间 大于

2、等于某指定值的区间 注意:前三个区间是一些离散的点,通过浏览计数的结果,便可把握缺失值的总体情况,计数区间软件形式,应用举例,居民储蓄调查数据 分析近些年来储户收入的总体状况。 我们认为,如果储户收入今年比去年增加了,且认为今后两年内收入仍会增加,则认为收入状况较好。 分析,分析,选择参与计数的变量有“收入情况”和“未来收入情况”,计数区间定义为value=1,于是将对所有个案计算今年收入和未来收入这两个变量中有几个取1; 如果计数结果为2,则表示两变量值均为增加,相应的储户收入状况应较好; 进一步可以计算数值为2的占总个案数的百分比;,2分类汇总,分类汇总的目的 分类汇总的基本操作 分类汇总

3、的应用举例,1、引入 例如,某企业希望了解本企业不同学历职工的基 本工资是否存在较大差距。 某商厦希望了解假日不同职业不同年龄段的顾客对于某类商品打折促销的反应敏感程度。 2、定义 分类汇总是按照某分类进行汇总计算。 3、内涵(两个方面) 按照哪个变量进行分类 对哪个变量进行汇总,并计算哪些统计量。,基本操作,Data aggregate,注意: 1、分类汇总中的变量可以是多个,此时的分类汇总称为多重分类汇总。 2、类似于数据的排序,在多重分类汇总中,指定多个分类变量的前后次序很重要。他们决定了分类汇总的先后次序。,应用举例,利用居民储蓄调查数据,分析城镇储户和农村储户的一次平均存取金额是否有

4、显著的差异。,3数据分组,数据分组的目的 单变量值分组 组距分组 分位数分组,数据分组,1、引入 上一讲的职工基本情况数据,其中的工资金额。 离散型的数据不利于整体把握,需要粗化,也就是分组。 我们可以把他们按某标准分为高收入、中收入和低收入。 2、定义 根据统计研究的需要,将数据按照某种标准重新划分为不同的组别。,3、三种数据分组方法 1单变量值分组 2组距分组 3分位数分组,1单变量值分组,定义 把每一个变量值作为一组,通常只适合于离散变量且变量值较少的情况。 操作transform-automatic recode 转换-自动重新编码 应用例题 利用职工数据对职工基本情况中的工资作单变量

5、值分组。,2组距分组,定义 将全部变量值依次划分为若干区间, 通常适合于连续变量或变量值较多的情况下。 分组的关键问题 分组操作 应用案例,分组的关键问题,分组数目的确定 采用Sturges经验公式 组距的确定 组距=(最大值-最小值)/组数,注意事项,指定分组变量 定义分组区间 指定存放分组结果的变量 分组遵循“不重不漏”原则 不仅支持等距分组,同时也支持非等距分组。,分组操作,transformrecode into same variables 转换-重新编码为相同变量 transformrecode into different variables 转换-重新编码为不同变量 注意: 一

6、般选择后者,利用职工基本情况数据对基本工资进行分组,应用案例,应用案例,理论分组 数目K=1+lg16/lg2=5 组距=(1044-824)/5=44,可以近似的取为50 则可以分组为0850、850900、900950、9501000、1000无穷;,3分位数分组,定义及细则 分位数定义 操作应用案例,定义及原则,适用于连续变量或变量值较多的情况下, 分位数分组与以上述组距分组非常类似,不同的是,分位数分组中各组的下限值和上限值是由分位数所决定的; 确定分组数目的原则与组距分组相同;,分位数,定义 将全部数据按升序排序并等分成n份后相应分位点上的变量值;,下四分位数:30+0.25*(40

7、-30)=32.5 中四分位数:50+0.5*(55-50)=52.5 下四分位数:59+0.75*(60-59)=59.75,操作应用,操作: transformcategorize variables 应用举例: 利用职工基本情况数据,对基本工资进行分组。 思考练习题?,4数据预处理的其他功能,4.1数据转置 4.2加权处理 4.3数据拆分 4.4缺失值处理 4.5变量集,4.1数据转置,将数据编辑窗口中数据的行列互换 操作: datatranspose 数据-转置,注意,转置后变量可以有选择的保留; 系统自动产生一个名为case-lbl的新变量,用来存放原变量名。,4.2加权处理,例子:

8、 蔬菜销售的平均价,应考虑销售量的影响 操作:dataweight cases 数据加权个案 本质:数据复制 注意:一旦指定了加权变量,那么以后的分析处理中,加权是一直有效的,直到取消加权为止。,4.3数据拆分,与数据排序相似,区别是它不仅是按指定变量进行简单排序,更重要的是根据变量对数据进行分组,为以后的分组统计分析提供便利。 数据拆分对后面的分析一直会起作用,除非再进行一次拆分。 可对数据进行多重拆分,次序决定于选择拆分变量的先后。,例题: 对职工数据按照职称进行拆分 操作:datasplit file 数据-拆分文件,4.4缺失值处理,操作 Transform-replace missing values 转换-替换缺失值,4.5SPSS变量集,目的:通过减少变量显示个数,从而简化变量选择操作的方式。 变量集分类: 系统变量集,包括all va

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论