第三讲数据的基本加工和处理

上传人：q*** IP属地：湖北上传时间：2022-07-07 格式：PPT 页数：90 大小：2.40MB 积分：28 举报 版权申诉

已阅读5页，还剩85页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第三讲第三讲数据的基本加工和处理数据的基本加工和处理SPSS数据的基本加工和处理n数据文件的整理个案排序、个案选取、文件合并、文件转置n数据加工计算变量、产生计数变量、分类汇总、文件拆分n数据分组手工分组、自动分组、可视化分组n数据文件的其它处理功能指定加权变量、缺失值的替代数据文件的整理n个案排序（Sort）将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列快速查找异常值和极端值类似于Excel排序数据文件的整理n个案排序（Sort）执行菜单命令：Data Sort cases 指定排序关键字变量，用按钮选择到： “Sort by”中，可以是一个，也可以

2、是若干个。即所谓的第一关键字、第二关键字、第三关键字。例如：按照顺序选择：语文、数学、外语。则首先按照语文成绩进行排序，对于语文成绩相同的个案将按照数学排序，对于语文、数学成绩都相同的个案将按照外语进行排序。 “Sort Order”将指定排序方式是用升序还是降序。 “OK” 执行。数据文件的整理数据文件的整理数据文件的整理数据文件的整理数据文件的整理n个案选取（Select Cases）对于全部个案按照某种方式选择部分个案进行统计分析。选择方式有：条件选择、随机选择、范围选择和运用过滤器变量。执行菜单命令：Data Select cases 选择抽样方式：数据文件的整理n个

3、案选取（Select Cases） All cases 全部个案，即不抽样，全部个案都参与统计分析。 If condition is satisfied 条件选择。即建立一定的条件表达式，对于满足表达式的个案将被选定。 Random sample of cases 给定一个百分比，随机选定个案，或者从全部个案中选择若干个个案。数据文件的整理n个案选取（Select Cases） Base on time or cases range 给定起始个案号和终止个案号。在该取值范围内的全部个案将是被选定的。 Use filter Variable 如果将某变量定义为过滤器变量，则抽样将按照该变量

4、的值进行，这个变量值为“0”的个案将不被选定，而值不为“0”的个案将被选定。 “OK” 执行。nTransform.sav选择计算选择计算nTransform.sav选择计算选择计算nTransform.sav选择计算选择计算数据文件的整理n文件合并（Merge Files）将两个数据文件按照文件中共同的变量名做纵向合并，或按照某变量的取值作为索引进行横向合并。纵向合并是将外部某指定文件追加到当前文件的后面。参与纵向合并的两个文件必须有共同的变量名。横向合并是将外部某指定文件合并到当前文件的右边。参与横向合并后的两个文件必须有共同的索引个案。例如：学号“ID”或姓名“Name”

5、等。数据文件的整理n文件合并（Merge Files）纵向合并首先需要打开一个文件作为当前文件。执行菜单命令：Data Merge files Add cases回答外部数据文件名，单击“打开”按钮。在变量匹配窗口有两个列表框。如果两个文件具有全部共同的变量，则合并后的新文件中将可以具有全部共同的变量，在列表框“Variables in New Working Data File”中将显示出来。数据文件的整理n文件合并（Merge Files）两个文件有不匹配的变量，在列表框“Unpaired Variables”中将显示出不匹配变量名。只在当前工作文件独有的变量，后面将有(

6、*)号。只在外部工作文件独有的变量，后面将有(+)号。指定匹配。当两个文件中具有不同变量名，但数据内容是相同的时，可以采取指定匹配的方式。在 Unpared Variables列表框中分别单击选择需配对的两个变量，按“Pair”按钮，该两个指定的变量将移入“Variables in New Working Data file”列表框。数据文件的整理n文件合并（Merge Files）更名匹配可以在“Unpaired Variables”列表框中选择变量，按 “Rename”按钮，回答新的变量名。重命名后可以进行匹配操作。强制移入在“Unpared Variables”列表框

7、中选择变量，按按钮强行移入“Variables in New Working Data file” 列表框，可以将不能匹配的变量强行移入。由于不匹配，合成文件将出现缺失值。数据文件的整理n文件合并（Merge Files）在合成文件中剔除某些变量在“Variables in New Working Data file”列表框中选择剔除变量，按向左箭头，将该变量将被剔除。生成个案来源变量选择“Indicate case source as variable”选项, 将生成一个新变量： “0”表示此个案来自当前工作文件,“1” 表示此个案来自外部文件。应当强调的是: 相配对的两个

8、变量必须有相同的变量类型，宽度可以不相同,但当前变量宽度应大于外部变量宽度，否则会丢失数据的位数。n数据的合并纵向纵向n数据的合并纵向纵向n数据的合并纵向纵向数据文件的整理n文件合并（Merge Files）横向合并首先需要打开一个文件作为当前文件。当两个数据文件的个案数不相等或顺序不一致时，应当对两个文件的个案进行相同的排序。如果以一个或多个变量为标准对个案进行匹配，两个文件需要按照这个关键变量的升序对个案进行排列。数据文件的整理n文件合并（Merge Files）执行菜单命令： Data Merge files Add variables，回答外部数据文件名，单击“打开

9、” 按钮。在横向合并变量选择窗口“Add Variables”中有两个列表框: “Exclude Variables”为不能进入新工作文件中的变量。 “New Working Data file”能够进入新工作文件中的变量。数据文件的整理n文件合并（Merge Files）选择一个关键变量“key variables” 在两个文件中都有的同名变量，只有这个变量可以作为关键变量。例如：学号“ID”或姓名“Name”等。当两个数据文件中的个案数量不相等或顺序不一致时，应当选择“Match Cases on key variables in sorted file”，以确定是以哪一

10、个文件的关键变量为标准对个案进行排列。数据文件的整理n文件合并（Merge Files）一般情况下：如果两个合并文件的ID不能一一对应，则将要考虑以哪一个文件的ID为准了。若以当前工作文件的关键变量为准，则外部文件不在索引范围的个案将丢失。反之，若以外部文件的关键变量为准，则当前工作文件不在索引范围的个案将丢失。如果选择两个文件的全部个案按照关键变量排序，两个文件的个案都将进入新文件，但合并后没有数值的相应位置将按系统缺失值处理。数据文件的整理n文件合并（Merge Files） “Both files provide cases”：两个文件的全部个案按照索引变量的关键字升序排列。无值处

11、按系统缺失值处理。 “External file is keyed table” ：外部数据文件的个案按照当前文件索引变量的关键字升序排列。外部文件中若无相应值，将按系统缺失值处理。 “Working Data file is keyed table” ：当前工作文件的个案按照外部数据文件的索引变量的关键字升序排列。当前文件中若无相应值，将按系统缺失值处理。生成标志变量“Indicate case source as variable”。对数据文件的整理横向合并横向合并，也就是变量值的合并。可以将两个或两个以上的，也就是变量值的合并。可以将两个或两个以上的具有相同个案的数据文件连在一起。具

12、有相同个案的数据文件连在一起。数据文件的整理n文件转置（Transpose）将数据文件的行列互换。执行转置后形成的新数据文件中的第一列为一个新变量名 “case_lbl”，用来存放原来的变量名。将个案转换为变量，变量转换为个案如果想在新数据文件中指定新变量名，可以先定义一个变量，其变量值在转置后将是新变量的名称。数据文件的整理n文件转置（Transpose）执行菜单命令：Data Transpose 在源变量列表中选择转置变量，用按钮选择到 Variable(s)中。在“New Variable”中可以指定某一个原来的变量，将其值作为新变量名。若该变量的值为没有重复值的字

13、符串，则新变量名将取该值。若该变量的值为有重复值的字符串，则新变量名将在重复值后添加数字序号。若该变量的值为数值型，则新变量名将在该值前面添加字符K。同样，在重复值后将添加序号以示区别。数据文件的整理数据文件的整理数据文件的整理数据文件的整理数据的加工n变量计算（Compute）产生新变量或对原变量进行必要的变换，如城镇化水平计算 SPSS算术表达式和逻辑表达式 SPSS函数与Excel函数计算相似数据的加工n变量计算（Compute）执行菜单命令：Transform Compute 指定将生成的变量：“Target”，回答新变量名建立计算表达式：“Numeric Express

14、ion”，通过菜单所提供的计算器和变量选择按钮选择变量。如果只对部分变量值进行指定计算，可以使用“If”按钮输入一个表达式，使满足表达式的变量值参与运算，而不满足的不进行计算。数据的加工数据的加工数据的加工数据的加工n练习n计算课程总成绩数据的加工n产生计数变量（Count）对所有或部分个案，计算若干个变量中有几个变量的值落在指定的区域内，并将结果存入新变量中例如：新的变量定义为：优秀科目其变量值为：语文、数学、外语等若干门成绩超过85的门数。其中检验表达式为：语文、数学、外语的成绩 85 thru Highest数据的加工n产生计数变量（Count）执行菜单命令：Tr

15、ansform Count 指定将生成的变量：“Target”,回答新变量名指定将要计数的变量：“Numeric Expression ” 建立检验表达式;“Define Value ”通过窗口提供的计数方式框添加计数检验条件。如果只对部分变量值进行指定计数，可以使用“If” 按钮输入一个表达式，使满足表达式的变量值参与运算，而不满足的不进行计算。n计数变量计数变量对数据中每个学生的英语、数学和语文3门课程成绩中80分以上的成绩进行计数统计。n计数变量计数变量数据的分组n目的：了解数据的总体分布状况n手工分组（Recode）将指定按照哪个变量进行分组：即指定分组变量定义分组变量的

16、分组区间（不重、不漏）指定一个存放分组结果的标志变量与Compute方法不同的是：Recode方法不能进行运算，只能根据指定变量值作数值转换，且这种转换是单一数值的转换数据的分组n手工分组（Recode）例如：年龄的取值是从18-60的各种取值，对于分组讨论不方便，特重新定义为： Lowest thru 25 为1 26 thru 45 为2 46 thru Highest 为 3 可以使原变量的值变为：1 2 3 三个年龄段也可得到新变量，值为： 1 2 3 三个年龄段数据的分组n手工分组（Recode）执行菜单命令：Transform Recode 两个子命令： Into s

17、ame variable Into Different Variables 分别代表在原来的变量名下更改数值或将更改数值生成一个新变量：“Output variable”。数据的分组n手工分组（Recode）更新原变量执行子命令：Into same variable 更新原变量的命令只能改变原变量的数值，不能改变其属性。即：数值型-数值型字符串型-字符串型指定要更新的变量：“Numeric ”，选择变量建立新旧变量值的对应关系“Old and new value” 回答：旧变量值回答：新变量值 “Add”按钮：加入。数据的分组n手工分组（Recode）产生新变量执行子命令：In

18、to Different Variables 产生新变量的命令可以改变原变量的数值，也能改变其属性。数值型-数值型- 字符串型字符串型 -字符串型- 数值型建立新旧变量的对应关系“Old variable new” 建立新旧变量值的对应关系“Old and new value” 回答：旧变量值回答：新变量值 “Add”按钮：加入。可以使用“If” 使满足表达式的变量值参与运算，而不满足的不进行计算。数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组数据的分组n变量赋值p45n变量赋值n变量赋值p45数据的

19、分组n自动分组（Automatic Recode）相当于按照结点处取最小值的连续赋值产生一个重编码变量。与求秩分变量唯一不同的是在输出窗口处将产生一个新旧对照的变量值列表。数据的分组n自动分组（Automatic Recode）执行菜单命令：Transform Automatic recode 指定求秩分的变量，用按钮选择到： “Variable New Name”， “New Name”，回答新变量名, “Recode starting value” 回答起始值， “Lowest value”，表示将变量的最小值定为1(顺序) “Highest value”，表示将变量的最大值定为

20、1(倒序)数据的分组数据的分组数据的分组数据的分组数据的分组n字符变量转换为数字变量n字符变量转换为数字变量数据文件的其它处理功能n加权（Weight Cases）在进行个案之间的数值比较时，通常为了提高其合理性，可以对不同个案的取值添加一个系数。个案数值为零、负数和缺失值的时候，权重的取值为零。在Chi-Squre检验中必不可少。权重一旦确定将一直有效，除非将其取消或者定义其他变量为权重。数据文件的其它处理功能n加权（Weight Cases）建立一个权重变量。可以手工输入，也可以用Compute或者用 Recode建立。执行菜单命令：Data Weight cases 选择权重变量：选择“Weight cases by”在 “Frequency”中指定权重变量。选择“Do not weight cases”将取消加权。数据文件的其它处理功能数据文件的其它处理功能数据文件的其它处理功能数据文件的其它处理功能n缺失值的替代（Replace Missing Values）对于缺失值可采取多种科学方法进行替代用该变量的所有非缺失值的均数做替代用缺失值相邻点的非缺失值的均数做替代，

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三讲数据的基本加工和处理

文档简介

温馨提示

最新文档

评论

第三讲数据的基本加工和处理

文档简介

温馨提示

最新文档

评论

相关文档