文件级别的数据管理_第1页
文件级别的数据管理_第2页
文件级别的数据管理_第3页
文件级别的数据管理_第4页
文件级别的数据管理_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章 文件级别的数据管理文件级别的数据管理数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量排序;文件合并、拆分。(1)简单命令:包括插入变量、插入记录、到达某条记录,复制数据集。他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。(2)常用的简单过程:包括排序、拆分文件、个案筛选和个案加权。(3)数据重组导向:用于进行数据转置,或者对重复测量数据进行长型、宽型记录间的转换。(4)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。(5)与数字字典有

2、关的功能:定义变量属性,复制变量属性,新建设定属性。 (6)与数据准备有关的功能:针对复杂数据管理。用于数据自动查错的数据验证模块,查找异常记录的重复个案,异常数据查找向导。(7)其他过程:包括正交设计,定义日期变量、数据汇总和多重响应集。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权4.1 常用过程常用过程一、排序的两种方法:(1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。

3、(2)对于多变量排序,则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点:(1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。(2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。(3)排序以后,原来记录数据的排列次序将被打乱。2 拆分文件拆分文件Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。例:CCSS按月份进行拆分,计算S3的统计描述。3 选择个案Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。筛选CCSS中的月份为20

4、0912All case:选择所有数据;If condition is satisfied: 按指定条件选择数据。Random Sample of cases:对观察值进行随机抽样。 Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。Based on time or case range:顺序抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。4 加权个案Weight Cases:设定某变量为频数变量

5、。:设定某变量为频数变量。以频数格式录入的数据以频数格式录入的数据非等概率抽样非等概率抽样5 分类汇总分类汇总所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。一、汇总的概念一、汇总的概念二、进行分类二、进行分类汇总的方法汇总的方法1、打开“data”菜单,选择“Aggregate”,展开aggregate data”对话框。2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variables)框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(Aggre

6、gate Variables)框中,即要求这些变量的值进行分类汇总。4、“name& label” (名称与标签):单击此按钮可以修改组合后所生成新变量名称以及标签:可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。5、“Function”(函数) 选择此项可以确定汇总变量的描述内容;系统默认函数为平均数。例:按time和S0对CCSS的变量进行均数汇总,并保存到Sum_index14.2 数据文件的重组与转置数据文件的重组与转置一、数据的长型与宽型格式:长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。由于重复测量模

7、型可以使用不同的统计模型加以分析,因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。二、长型格式转换为宽型格式:二、长型格式转换为宽型格式:Restructure。选择Data Restructure,系统就会弹出下图导向。G enerated VariablesG enerated Variablesscore.1score.1:Scorescore.2score.2:Scorescore.3score.3:Scorescore.4score.4:ScoreTrial1234O riginal VariableScoreNam eLabelResul tPro

8、cessi ng St atist icsProcessi ng St atist ics48124.0574Cases InCases O utCases In/Cases O utVari ables InVari ables O utIndex Values三、数据转置Transpose:用于对数进行行列转置,数据文件的转置就是将数据编辑窗口中数据的行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中。Variable(s):放入将要行列转置的变量名。在数据文件中,未放入栏中的变量会遗失。字符串变量不能转换,如强迫转换,变量值转变为系统缺失值。Name variable

9、:变量命名栏,在左侧源变量栏中选择一个变量,放入name variable栏,技改变量的数据作为转置后的变量名。4.3 多个数据文件的合并多个数据文件的合并纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。纵向合并必须遵循两个条件:第一,两个合并的spss数据文件,其

10、内容合并是有实际意义的。第二,为方便spss数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。Unpaired variable:不匹配变量栏。指变量名相同而变量定义不同的变量,或变量名不同的变量。Variable in new working data:新工作数据变量栏。Indicate case source as variable:指示记录来源的变量选项/二、数据文件的横向合并二、数据文件的横向合并横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。横向合并遵循三个条件:第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至

11、少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列。第三,为方便SPSS文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。Excluded Variables:拒绝变量名。外部文件与当前数据的同变量,拒绝加到新工作区中。New Working Data:新工作数据变量栏。Match Case on Key Variable in sort:排序文件中按关键变量匹配记录选项。Both files provide case:由外部文件和当前数据量两者提供记

12、录。External file is keyed table:外部文件为关键表,以当前数据为基准,外部文件匹配当前数据的关键变量值,如匹配成功,外部文件的新变量值加入到当前数据的新变量中,匹配不成功则不加入。Working Data File is keyed table:当前数据为关键表。Key Variables:关键变量栏,在拒绝变量选择某变量作为关键变量。Indicate case source as variable:指示记录来源的变量选项。4.4 与数据字典有关的功能1 数据字典的定义与应用在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事

13、先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。一、变量属性定义导向:Define Variable Properties 具体说来,可以列出所选变量的所有值;分辨没有值标签的值,并且提供自动给出值标签的功能;可以将另一个变量的属性拷贝到所选变量,也可以将所选变量的属性拷贝到其他变量。二、复制数据文件属性导向Copy Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中,还可以进行自行定义,只选择某些变量,或者某些属性进行拷贝,这无疑大大提高了连续性项目对原有资源的利用程度。4.5 与数据准备有关的功能1 数据验证模块2 标识重复个案3 标识异常个案1. 数据验证模块单变量规则交叉变量规则1.定义验证规则2.进行数据验证2. 标识重复个案运行结束后,结果窗口会给出本次操作的信息汇总:Stat isticsStat isticsIndicator of each last m atching case as Prim ary120Vali dM i ssingNIndicator

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论