第3章 数据的预处理new_第1页
第3章 数据的预处理new_第2页
第3章 数据的预处理new_第3页
第3章 数据的预处理new_第4页
第3章 数据的预处理new_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、l数据的预加工处理是服务于数据分析和建模的。缺失值和异常数据的处理数据的转换处理数据抽样选取变量l在SPSS中,数据预处理的功能主要集中在Data和Transform两个主菜单下.3.1 缺失数据的处理缺失数据的处理3.2 数据的排序数据的排序3.3 查找重复个案查找重复个案3.4 变量计算变量计算3.5 数据选取数据选取3.6 计数计数3.7 分类汇总分类汇总3.8 数据分组数据分组3.9 数据预处理的其它功能数据预处理的其它功能3.1 缺失数据的处理缺失数据的处理l缺失数据:数据中明显错误或明显不合理的数缺失数据:数据中明显错误或明显不合理的数据、漏填的数据等。据、漏填的数据等。例如,年龄

2、例如,年龄=213,年收入,年收入=?l缺失数据处理的必要性缺失数据处理的必要性如果不对缺失数据进行特意说明,如果不对缺失数据进行特意说明,SPSS将对缺失数将对缺失数据按正常且合理数据进行分析。据按正常且合理数据进行分析。大量的缺失数据会使分析结果出现系统性偏差大量的缺失数据会使分析结果出现系统性偏差缺失数据的存在使得缺少充分可利用的数据而造成缺失数据的存在使得缺少充分可利用的数据而造成统计计算精度的大幅下降统计计算精度的大幅下降有些模型由于无法处理数据而限制该模型的应用。有些模型由于无法处理数据而限制该模型的应用。l缺失数据说明的方法:指定用户缺失值缺失数据说明的方法:指定用户缺失值空缺数

3、据处填入某个特定的标记数据,例如空缺数据处填入某个特定的标记数据,例如999999指明特定标记数据和明显失真数据为用户缺指明特定标记数据和明显失真数据为用户缺失值。失值。l缺失数据的处理方法:缺失数据的处理方法:忽略缺失值删除样品填补缺失值l忽略缺失值是一种普遍策略,但这种方忽略缺失值是一种普遍策略,但这种方法在许多样品属性缺失的情况下是不适法在许多样品属性缺失的情况下是不适用的;删除包含缺失值的样品的方法会用的;删除包含缺失值的样品的方法会导致有价值数据的丧失。因此,应用有导致有价值数据的丧失。因此,应用有效方法填补缺失值,是机器学习和统计效方法填补缺失值,是机器学习和统计学中最常用的处理方

4、法。学中最常用的处理方法。l变量视图中在“缺失()”列定义l应用举例 “职工数据(排序).sav”中,。“minority”(少数民族)变量取值为9的表示用户缺失值。3.2 数据的排序l数据排序的目的:数据排序的目的: 数据排序在数据分析过程中有很重要的作用数据排序在数据分析过程中有很重要的作用便于数据的浏览,有助于了解数据的取值状况、缺失值数量便于数据的浏览,有助于了解数据的取值状况、缺失值数量的多少等。的多少等。找到数据的最大值和最小值,进而可以计算出数据的全距找到数据的最大值和最小值,进而可以计算出数据的全距(极差(极差 ),初步把握和比较数据的离散程度。),初步把握和比较数据的离散程度

5、。快捷的发现数据的异常值,为进一步明确它们是否对分析产快捷的发现数据的异常值,为进一步明确它们是否对分析产生重要影响等提供帮助。生重要影响等提供帮助。在进行数据处理在进行数据处理 过程中,有时需要按某个变量值的顺序重过程中,有时需要按某个变量值的顺序重新排列观测个案在数据文件中出现的先后顺序。新排列观测个案在数据文件中出现的先后顺序。例如,对两例如,对两个文件进行横向合并时要求按关键变量升序排序。个文件进行横向合并时要求按关键变量升序排序。l数据排序是整行数据排序,而不是只对某列变量排序。l多重排序中指定排序变量的次序很关键。先指定的变量排序时优先于后指定的变量;第一个指定的排序变量为主排序变

6、量。可以按一个变量升序排序的同时按其它变量降序排列。l排序后原有数据排列次序必然打乱,注意保留数据的原始排列顺序,尤其对于没有包含时间变量的时间数列数据。lData Sort Cases;l从左边的变量框中指定主排序变量到Sort by 框,并选择排序规则(按升序还是降序排列);l如果需要多重排序,依次指定其它排序变量及相应的排序规则。l数据排序的应用举例 以“职工数据.sav”为例,通过数据排序功能分析不同职位的职工(职员、管理人和经理)的目前薪水情况有何不同。l操作:Data Sort Cases;将变量“雇员分类”选入Sort by 框,在Sort Order框中选择排序方式将变量“目前

7、薪水”选入Sort by 框,在Sort Order框中选择排序方式l结果解释: 经理目前薪水的最小值为$34,410,最大值为$135,000;管理人目前薪水的最小值为$24,300,最大值为$ 35,250 ;职员目前薪水的最小值为$15,750,最大值为$80,000。可见,在最小值上,职员、管理人和经理的差距不大,但在最大值上却有较大差距;从全距角度看,经理之间、职员之间目前薪水差距比较大,但管理人之间目前薪水差距较小。l查找重复个案:对关键变量相同的个案进行统计和处理。l方法:按用户指定的关键变量对所有个案排序。指定重复个案的排序变量l对纵向合并后的“职工数据.sav”按“职工号”查

8、找重复个案,对重复个案按“基本工资”排序。l变量计算:在原有数据的基础上,根据用户指定的算术表达式以及函数,对满足条件的个案计算产生一系列新变量。l变量计算的目的派生新变量对数据的原有分布状态进行转换。例如,对非正态变量取对数处理,对时间序列平稳化处理,对变量取值进行标准化或压缩取值区间处理等。l变量计算的是针对所有个案的,计算结果生成一个新的变量,每个满足条件的个案都有自己的值。l变量计算的结果应保存到一个指定的变量中,该变量的数据类型应与计算结果的数据类型相一致。l算术表达式由常量、变量、算术运算符、圆括号、函数等组成的式子。字符型常量应用引号引起来。同一算术表达式中的常量和变量,数据类型

9、必须一致。l条件表达式对个案是否满足指定条件进行判断的式子。结果有两种取值:满足指定条件,结果为真;不满足指定条件,结果为假。分为:简单条件判断式和复合条件(逻辑)表达式l函数事先编好并存储在软件中的,能够实现某些特定计算任务的程序,各有自己的名字函数名。形式:函数名(参数)。种类:算术函数、统计函数、分布函数、逻辑函数、字符函数、缺失值函数、日期函数和其他函数。lTransform Compute;l在Target Variable输入框中输入生成的新变量的变量名,单击输入框下的Type & Label按钮,在对话框中对新变量的类型和标签进行设置;l在Numeric Expressi

10、on框中输入新变量的计算表达式。可以用键盘直接输入,也可以用鼠标从左侧变量列表、下方的按钮面板和右下方的Functions列表中选择。l单击If按钮,输入进行计算的个案的条件表达式。l单击OK按钮,执行命令。数据文件中可看到新生成变量。l根据“大学生职业生涯.sav”,为直观评价每个学生对专业和未来职业的喜爱及了解程度,计算专业和职业认知得分。计算方法:认知总得分Q61+Q62+Q63+Q64l数据选取:根据分析的需要,从已收集到的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析,也称为样本抽样。l数据选取的目的:提高数据分析效率检验模型的需要l按指定条件选取选取符合条件的个案。

11、指定条件表达式。 l随机选取近似选取。指定抽样比。精确选取。指定要选取的个案数和抽选的范围(前多少个方案)。l选取某一区域内的样本给定区域上下限号码,选取区域内所有个案。l通过过滤变量(筛选器)选取依据过滤变量的取值选取个案。指定过滤变量(取值0和1的变量),其值为1的个案被选取。lData Select casesl对话框中选择抽取方法。l指定对未选中个案的处理方式。Filtered未被抽选的个案号码上打“”;Deleted未被抽选的个案从数据编辑窗口删除。l从“大学生职业生涯.sav”中选取听过职业规划专门课程或就业指导课程的学生进行分析。l从“大学生职业生涯.sav”中选取男性个案进行分

12、析。l计数:对所有个案或满足某条件的部分个案,计算若干个变量中有几个变量落在指定的区间内,并将计数结果存入一个新变量中的过程。l步骤:指定参与计数的变量、结果存入哪个新变量;指定计数区间。lTransform Countl选择计数变量l在Target Variable框中输入存放计数结果的变量名,并指定Variable Lablel按Define Values按钮定义计数区间l如果需要,可按IF按钮定义条件表达式l对于“大学生职业生涯.sav”,分析有多大比例的学生对问卷中的量表问题(Q61-Q616)感觉不好回答(量表得分为0)。l分类汇总的目的:分类汇总的目的:分类汇总是按照某种分类对一个

13、或多个变量进行分分类汇总是按照某种分类对一个或多个变量进行分类汇总计算,生成新的数据文件。类汇总计算,生成新的数据文件。在实际数据分析中是极为常见的。在实际数据分析中是极为常见的。l 涉及两个主要方面:涉及两个主要方面:分类变量。按照哪个或哪些变量(教育水平、雇员分类变量。按照哪个或哪些变量(教育水平、雇员分类)进行分类。一般是离散型变量。分类)进行分类。一般是离散型变量。汇总变量。对哪个或哪些变量进行汇总,并指定对汇总变量。对哪个或哪些变量进行汇总,并指定对汇总变量计算哪些统计量(平均薪水、平均经验、汇总变量计算哪些统计量(平均薪水、平均经验、薪水差距等)。一般是连续型变量。薪水差距等)。一

14、般是连续型变量。lData Aggregate;l选择分类变量,移入Break Variables框;l选择汇总变量,移入Aggregate Variable框;l选择要计算的统计量。默认值为均值。单击Aggregate Variable列表框中某个变量,再单击Functions按钮,在子对话框可选择其他统计量。l以“大学生职业生涯.sav”为例,分析不同专业类别学生对本专业和未来职业的喜爱及了解程度。l即对专业和职业认知得分按专业类别分类计算平均得分。l以“职工数据.sav”为例,分析男性和女性的入职薪水平均值是否有较大差距,目前薪水的平均值是否有较大差距。l男性和女性职工的平均入职起薪和平

15、均目前薪水存在较大的差距,尽管平均教育水平差距不大。l数据分组:是根据统计分析的需要,将数据按数据分组:是根据统计分析的需要,将数据按照某种标准重新划分为不同的组别。照某种标准重新划分为不同的组别。l数据分组的目的:数据分组的目的:数据分组是对数值型数据进行整理和粗略把握数据数据分组是对数值型数据进行整理和粗略把握数据分布的重要工具,在数据分组的基础上进行的频数分布的重要工具,在数据分组的基础上进行的频数分析,更能够概括和体现数据的分布特征。分析,更能够概括和体现数据的分布特征。分组还能够实现数据的离散化处理等。分组还能够实现数据的离散化处理等。l分组数目K的确定影响因素:数据本身特点、数据个

16、数组数的确定应以能够清楚地显示数据分布特征和规律为原则经验公式 :K=1+ln(n)/ln(2) (四舍五入取整)l组距的确定组距=(最大值-最小值)/组数 =全距/组数l在定义分组区间时应注意遵循“不重不漏”的原则。“不重”是指一个变量值只能分在某一个组中,不能在其他组中重复出现;“不漏”是指所有数据都应分配在某个组中,不能遗漏。lTransform Recode Into Same Variables或者Into Different Variables;l将分组变量移入Numeric Variables框中;l如果只对满足条件的个案分组,则单击If按钮,输入条件表达式;l单击Old and

17、 New values按钮,在Old Value选项栏中选择:Vale:对离散值分组System missing和System or user missing:对系统缺失值或用户定义缺失值进行分组3个不同的Range选项:用于对特定范围的取值的分组All other values:对剩余的所有取值分组l单击OK,执行分组命令l数值分组的应用举例 以“大学生职业生涯.sav”为例,计算专业和职业认知得分,并以5为组距进行分组,以便把握认知得分的分布特征。例: 以“职工数据.sav”为例,分析职工目前薪水的分布特征。l数据转置l数据加权l数据拆分l变量集l数据转置就是将数据编辑窗口中数据的行列互换

18、.l操作:Data Transpose;将转置后的数据文件中包含的变量选入Variables框中;在Name Variable框中指定标记变量,转置后数据各变量取名为V或K+标记变量值.如果不指定标记变量,则转置后各变量名默认为VAR00001, VAR00002l在实际中,经常需要计算数据的加权平均数。例如,希望了解某超市中某天售出商品的平均价格。如果以各种商品的单价平均数作为平均价格是不合理的,还应考虑到各商品的销售量对平均价格的影响。因此,应以各商品的销售量作为权重计算价格平均数。l以“蔬菜销售.sav”为例,希望计算该菜市场该天蔬菜销售的平均价格。蔬菜名称单价(元/斤)销售量(斤)萝卜

19、0.81025西红柿1.5850蘑菇2.8130荷兰豆4.534油菜1.2880韭菜1.4725蒜苗3.5150西兰花5.515大白菜0.52300lData Weight Cases;l选择是否加权;l如果加权,则从左栏中选择加权变量;l按OK完成。注意:一旦指定了加权变量,那么在以后的分析处理中加权是一直有效的,直到取消加权为止。取消加权的方法: Data Weight Cases后选择不加权. 系统只对数值变量进行有效加权,即大于0的数按变量的实际值加权,0、负数和缺失值加权为0。l在进行数据处理时经常要对数据文件中的观测量进行分组分析,如分性别的平均薪水。进行分析之前必须对 数据文件进

20、行拆分。l数据拆分与数据排序很相似,但也有一个重要的不同点,即数据拆分不仅是按指定变量对数据进行简单排序,更重要的是根据指定变量对数据进行分组,l拆分分件并不是将一个数据文件分为两个或几个独立的数据文件,而是在同一个数据文件中按某个条件分组。这种拆分在以后的运算中一直有效直到取消或更改拆分变量。lData Split Files ,打开Split Files对话框;l选择输出结果的排列方式:Analyze all cases, do not create groups:对全部个案进行分析,不拆分;Compare groups:将各组分析结果放在一个表格中进行比较;Organize output by groups:每一组的分析结果单独显示。l将分组变量移入Groups Based on框中;l选择排序方式:Sort the file by grouping variables:按分组变量对数据进行排序;File is already sorted:数据已按分组变量排序,系统不必重排;l按OK完成lSPSS数据编

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论