应用统计学数据管理-业务分析-全文在线阅读-_第1页
应用统计学数据管理-业务分析-全文在线阅读-_第2页
应用统计学数据管理-业务分析-全文在线阅读-_第3页
应用统计学数据管理-业务分析-全文在线阅读-_第4页
应用统计学数据管理-业务分析-全文在线阅读-_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据管理重庆交通大学管理学院7/12/20221:21:18数据管理·

在数据文件建立好之后,还需要对数据进行必要的加工处理。对同一个数据往往需要从各种不同的侧面进行研究,采取多种统计方法进行分析,而不同的统计方法对数据文件结构的要求不尽相同,这就需要对数据文件的结构进行重新调整或转换,以便适合于相同的统计方法。文件级别的数据管理

变量级别的数据管理重庆交通大学管理学院7/12/20221:21:18文件级别的数据管理(1)·SPSS中的Data菜单提供了文件级别的数据管理,可以对整个数据文件进行加工整理。重庆交通大学管理学院7/12/20221:21:18简单命令(这些功能都可以用鼠标在数据表界面直接完成,很少用菜单操作,在此不详述)Insert

Variable:插入变量Insert

Cases:插入记录Go

to

Case:到达某条记录常用的简单过程(使用频繁,必须掌握) Sort

Cases:记录排序Split

File:记录拆分Select

Cases:记录筛选Weight

Cases:记录加权重庆交通大学管理学院7/12/20221:21:18文件级别的数据管理(2)变量与数据文件属性向导(对大型或连续性数据分析项目非常有用)Define

Variable

Properties:定义数据字典Copy

Variable

Properties

:将预定义的数据字典直接引入当前数据文件,即复制外部数据文件属性到当前数据文件数据重构向导Transpose:数据转置Restructure:数据文件的重新排列重庆交通大学管理学院7/12/20221:21:19文件级别的数据管理(3)文件合并过程(Merge

Files)Add

Cases:纵向合并Add

Variable

:横向合并正交设计过程(Orthogonal

Design)其他过程Define

Dates:定义日期变量过程,用于时间序列数据Aggregate:数据汇总过程Identify

Duplicate

Cases:查找重复记录重庆交通大学管理学院7/12/20221:21:19文件级别的数据管理(4)单变量排序:SPSS提供了一种简易操作方法,即在数据表格的变量名处单击右键,弹出右图多变量排序:使用Sort

Cases过程来进行,查看详情记录排序重庆交通大学管理学院7/12/20221:21:19记录排序重庆交通大学管理学院7/12/20221:21:19选中District,选择升序选钮(默认),将District选入Sort

by重庆交通大学管理学院7/12/20221:21:19选中Region,选择降序选钮,将Region选入Sort

by框记录排序注意:在多重排序中,指定排序变量名的次序很关键,首先安第一个变量排序,对于与第一个变量取值相同的记录考虑按第二个变量排序排序后,原来记录数据的排序将被打乱,对于时间序列数据,若未存放有记录标志的变量,应注意保存原数据的排列顺序,以免数据混乱记录排序重庆交通大学管理学院7/12/20221:21:19记录拆分重庆交通大学管理学院7/12/20221:21:19123456选中此框不拆分文件按所选变量拆分文件,各组分析结果放在一起便于比3较3较.按所选变量拆分文件,各组分析结果单独放置用于选择拆分数据文件的变量要求将数据按所用拆分变量排序数据集很大,且拆分变量已排序,选此可节省运行时间重庆交通大学管理学院7/12/20221:21:19记录拆分记录筛选重庆交通大学管理学院7/12/20221:21:191重庆交通大学管理学院7/12/20221:21:1923451.分析所有记录2.分析满足条件的记录,按If按钮设定筛选条件3.从原数据中按某种条件抽样,按Sample进行设定4.基于时间或记录序号选择记录,按Range进行设定使用筛选指示变量选择记录,非0值的记录被选中未选中的记录被隔离未选中的记录被删除67记录筛选记录筛选重庆交通大学管理学院7/12/20221:21:19记录加权重庆交通大学管理学院7/12/20221:21:19·

设置作为权重的变量,如第一行表示agecat=1

gender=1的人共33个,accid表示人数,应设为权重记录加权重庆交通大学管理学院7/12/20221:21:19定义数据字典重庆交通大学管理学院7/12/20221:21:19变量名、测量尺度等变量列表频数、标签、缺失值设定等拷贝变量属性自动生成值标签定义数据字典重庆交通大学管理学院7/12/20221:21:19数据转置重庆交通大学管理学院7/12/20221:21:20·Transpose:该过程用于对数据进行行列转置,即原来的一条记录转成为一个变量,而变量则转成为一个记录,两次Transpose过程后数据集会恢复原样(点此见具体操作)。重庆交通大学管理学院7/12/20221:21:20数据转置将变量Group、x选入variable框,再点击OK键转置前的数据集转置后的数据集·

注:未选中的变量id其数据信息在转置后丢失数据转置重庆交通大学管理学院7/12/20221:21:20数据文件重新排列重庆交通大学管理学院7/12/20221:21:20Restructure:此过程是用来改变数据的排列格式,即长型格式和宽型格式之间的互转。数据文件重新排列重庆交通大学管理学院7/12/20221:21:20数据文件重新排列重庆交通大学管理学院7/12/20221:21:20·

数据anxiety转换前后的长型格式和型格式重庆交通大学管理学院7/12/20221:21:20数据文件重新排列文件纵向合并重庆交通大学管理学院7/12/20221:21:20AddCases:纵向合并,从外部数据文件中增加记录到当前数据文件中,相互合并的数据文件中应该有相同的变量。左框:新、老数据文件中不匹配的变量名*:当前数据集中的变量+:新添加数据集中的变量右框:已匹配的变量名,选择完成后单击OK即可文件纵向合并重庆交通大学管理学院7/12/20221:21:20文件横向合并重庆交通大学管理学院7/12/20221:21:20Add

Variables:横向合并,从外部数据文件增加变量到当前数据文件,两个数据集要有一个一一对应的关键变量进行匹配合并,且记录应按关键变量升序后再合并。未被纳入的变量列被纳入合并后新数据集的变量列表记录匹配使用的关键变量123文件横向合并重庆交通大学管理学院7/12/20221:21:21数据汇总重庆交通大学管理学院7/12/20221:21:21分组变量被汇总变量数据汇总重庆交通大学管理学院7/12/20221:21:21·

定义汇总函数·

定义新产生汇总变量的重庆交通大学管理学院7/12/20221:21:21名称和标签FunctionName&Label数据汇总查找重复记录重庆交通大学管理学院7/12/20221:21:21希望查找重复值的变量重复记录按该变量的取值排序设定第一个还是最后一个重复记录为主记录重庆交通大学管理学院7/12/20221:21:21查找重复记录·

PrimaryLast=0表示相应的记录为重复记录重庆交通大学管理学院7/12/20221:21:21查找重复记录变量级别的数据管理(1)·

SPSS中的Transform菜单提供了变量级别的数据管理,可以对变量进行操作。重庆交通大学管理学院7/12/20221:21:21计算新变量(Compute):最常用变量转换Recode:对变量值进行分组合并

Visual

Bander:连续变量的可视化分段Count:表示某个变量的取值中是否出现某个值,或某个区间Rank

Cases:变量编秩Automatic

Recode:对记录按某个变量值的大小排序重庆交通大学管理学院7/12/20221:21:21变量级别的数据管理(2)Create

Time

Series:建立时间序列Replace

Missing

Values:缺失值替代Random

Number

Seed:设定随机种子·

专用过程变量级别的数据管理(3)·

控制命令Run

Pending

Transforms:用于执行编程中被挂起的数据整理操作专用于时间序列模型重庆交通大学管理学院7/12/20221:21:21例1数据fee.sav是上海和杭州16名住院病人的费用数据,计算上海的住院病人平均每天的住院费用,要求结果取整。计算新变量重庆交通大学管理学院7/12/20221:21:21输入新变量名perfee计算新变量重庆交通大学管理学院7/12/20221:21:21计算新变量输入条件表达式重庆交通大学管理学院7/12/20221:21:21计算新变量选择函数输入函数表达式重庆交通大学管理学院7/12/20221:21:21计算新变量重庆交通大学管理学院7/12/20221:21:21变量值分组合并例2

在数据fee.sav中生成新变量grade,当住院总费用小于5000元时取值为“相对较低”,大于等于5000元且小于7000元取值为“中等”,大于等于7000元且小于10000元为“较高”,大于等于10000元为“很高”。重庆交通大学管理学院7/12/20221:21:21新变量名grade选入原变量total重庆交通大学管理学院7/12/20221:21:21变量值分组合并变量值分组合并重庆交通大学管理学院7/12/20221:21:22·

三种Range的设置,所有的范围均包含了端点,而前面设定的变换会优于后面的变换,因此应该将大于等于10000元最先设定,而将小于5000元最后设定。重庆交通大学管理学院7/12/20221:21:22变量值分组合并变量值分组合并重庆交通大学管理学院7/12/20221:21:22变量值分组合并重庆交通大学管理学院7/12/20221:21:22变量值分组合并重庆交通大学管理学院7/12/20221:21:22务必选上该项变量值分组合并重庆交通大学管理学院7/12/20221:21:22变量值分组合并重庆交通大学管理学院7/12/20221:21:22recode过程提供了精确分组的功能,但如果希望进行的分组是有规律的,比如等距分组,或等样本量分组,使用recode过程进行操作就显得非常麻烦,且可视化程度不高。此时可以考虑使用visual

bander过程进行可视化分段。连续变量的可视化分段重庆交通大学管理学院7/12/20221:21:22连续变量的可视化分段例3

仍以数据fee.sav为例,按变量total将病人分为5组,5000元以下为第一组,5000元以上的按等间距的方式分4组。重庆交通大学管理学院7/12/20221:21:22连续变量的可视化分段重庆交通大学管理学院7/12/20221:21:22连续变量的可视化分段重庆交通大学管理学院7/12/20221:21:22设定分段规则连续变量的可视化分段重庆交通大学管理学院7/12/20221:21:22连续变量的可视化分段自动填充值标签重庆交通大学管理学院7/12/20221:21:22连续变量的可视化分段重庆交通大学管理学院7/12/20221:21:22例4

仍以数据fee.sav为例,查看变量total中是否出现值6890。查看特定变量值重庆交通大学管理学院7/12/20221:21:22查看特定变量值重庆交通大学管理学院7/12/20221:21:22查看特定变量值重庆交通大学管理学院7/12/20221:21:22查看特定变量值重庆交通大学管理学院7/12/20221:21:22查看特定变量值重庆交通大学管理学院7/12/20221:21:22变量编秩例5仍以数据fee.sav为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论