应用统计学数据管理_第1页
应用统计学数据管理_第2页
应用统计学数据管理_第3页
应用统计学数据管理_第4页
应用统计学数据管理_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用统计学数据管理第一页,共七十九页,2022年,8月28日

在数据文件建立好之后,还需要对数据进行必要的加工处理。对同一个数据往往需要从各种不同的侧面进行研究,采取多种统计方法进行分析,而不同的统计方法对数据文件结构的要求不尽相同,这就需要对数据文件的结构进行重新调整或转换,以便适合于相同的统计方法。数据管理

文件级别的数据管理

变量级别的数据管理第二页,共七十九页,2022年,8月28日文件级别的数据管理(1)SPSS中的Data菜单提供了文件级别的数据管理,可以对整个数据文件进行加工整理。第三页,共七十九页,2022年,8月28日

InsertVariable:插入变量

InsertCases:插入记录

GotoCase:到达某条记录

简单命令(这些功能都可以用鼠标在数据表界面直接完成,很少用菜单操作,在此不详述)

SortCases:记录排序

SplitFile:记录拆分

SelectCases:记录筛选

WeightCases:记录加权

常用的简单过程(使用频繁,必须掌握)文件级别的数据管理(2)第四页,共七十九页,2022年,8月28日

DefineVariableProperties:定义数据字典

CopyVariableProperties

:将预定义的数据字典直接引入当前数据文件,即复制外部数据文件属性到当前数据文件

变量与数据文件属性向导(对大型或连续性数据分析项目非常有用)

Transpose:数据转置

Restructure:数据文件的重新排列

数据重构向导文件级别的数据管理(3)第五页,共七十九页,2022年,8月28日

AddCases:纵向合并

AddVariable

:横向合并

文件合并过程(MergeFiles)

DefineDates:定义日期变量过程,用于时间序列数据

Aggregate:数据汇总过程

IdentifyDuplicateCases:查找重复记录

其他过程文件级别的数据管理(4)

正交设计过程(OrthogonalDesign)第六页,共七十九页,2022年,8月28日单变量排序:SPSS提供了一种简易操作方法,即在数据表格的变量名处单击右键,弹出右图多变量排序:使用SortCases过程来进行,查看详情记录排序第七页,共七十九页,2022年,8月28日记录排序第八页,共七十九页,2022年,8月28日选中District,选择升序选钮(默认),将District选入Sortby框选中Region,选择降序选钮,将Region选入Sortby框记录排序第九页,共七十九页,2022年,8月28日注意:在多重排序中,指定排序变量名的次序很关键,首先安第一个变量排序,对于与第一个变量取值相同的记录考虑按第二个变量排序排序后,原来记录数据的排序将被打乱,对于时间序列数据,若未存放有记录标志的变量,应注意保存原数据的排列顺序,以免数据混乱记录排序第十页,共七十九页,2022年,8月28日记录拆分第十一页,共七十九页,2022年,8月28日1.选中此框不拆分文件2.按所选变量拆分文件,各组分析结果放在一起便于比较3.按所选变量拆分文件,各组分析结果单独放置4.用于选择拆分数据文件的变量5.要求将数据按所用拆分变量排序6.数据集很大,且拆分变量已排序,选此可节省运行时间123456记录拆分第十二页,共七十九页,2022年,8月28日记录筛选第十三页,共七十九页,2022年,8月28日123451.分析所有记录2.分析满足条件的记录,按If按钮设定筛选条件3.从原数据中按某种条件抽样,按Sample进行设定4.基于时间或记录序号选择记录,按Range进行设定5.使用筛选指示变量选择记录,非0值的记录被选中6.未选中的记录被隔离7.未选中的记录被删除67记录筛选第十四页,共七十九页,2022年,8月28日记录筛选第十五页,共七十九页,2022年,8月28日记录加权第十六页,共七十九页,2022年,8月28日

设置作为权重的变量,如第一行表示agecat=1gender=1的人共33个,accid表示人数,应设为权重记录加权第十七页,共七十九页,2022年,8月28日定义数据字典第十八页,共七十九页,2022年,8月28日变量名、测量尺度等变量列表频数、标签、缺失值设定等拷贝变量属性自动生成值标签定义数据字典第十九页,共七十九页,2022年,8月28日数据转置第二十页,共七十九页,2022年,8月28日Transpose:该过程用于对数据进行行列转置,即原来的一条记录转成为一个变量,而变量则转成为一个记录,两次Transpose过程后数据集会恢复原样(点此见具体操作)。数据转置第二十一页,共七十九页,2022年,8月28日将变量Group、x选入variable框,再点击OK键转置前的数据集转置后的数据集

注:未选中的变量id其数据信息在转置后丢失数据转置第二十二页,共七十九页,2022年,8月28日数据文件重新排列第二十三页,共七十九页,2022年,8月28日Restructure:此过程是用来改变数据的排列格式,即长型格式和宽型格式之间的互转。数据文件重新排列第二十四页,共七十九页,2022年,8月28日数据文件重新排列第二十五页,共七十九页,2022年,8月28日

数据anxiety转换前后的长型格式和型格式数据文件重新排列第二十六页,共七十九页,2022年,8月28日文件纵向合并第二十七页,共七十九页,2022年,8月28日*:当前数据集中的变量+:新添加数据集中的变量

左框:新、老数据文件中不匹配的变量名

右框:已匹配的变量名,选择完成后单击OK即可AddCases:纵向合并,从外部数据文件中增加记录到当前数据文件中,相互合并的数据文件中应该有相同的变量。文件纵向合并第二十八页,共七十九页,2022年,8月28日文件横向合并第二十九页,共七十九页,2022年,8月28日1.

未被纳入的变量列2.

被纳入合并后新数据集的变量列表3.

记录匹配使用的关键变量AddVariables:横向合并,从外部数据文件增加变量到当前数据文件,两个数据集要有一个一一对应的关键变量进行匹配合并,且记录应按关键变量升序后再合并。123文件横向合并第三十页,共七十九页,2022年,8月28日数据汇总第三十一页,共七十九页,2022年,8月28日分组变量被汇总变量数据汇总第三十二页,共七十九页,2022年,8月28日

定义汇总函数

定义新产生汇总变量的名称和标签FunctionName&Label数据汇总第三十三页,共七十九页,2022年,8月28日查找重复记录第三十四页,共七十九页,2022年,8月28日希望查找重复值的变量重复记录按该变量的取值排序设定第一个还是最后一个重复记录为主记录查找重复记录第三十五页,共七十九页,2022年,8月28日PrimaryLast=0表示相应的记录为重复记录查找重复记录第三十六页,共七十九页,2022年,8月28日变量级别的数据管理(1)SPSS中的Transform菜单提供了变量级别的数据管理,可以对变量进行操作。第三十七页,共七十九页,2022年,8月28日

计算新变量(Compute):最常用

Recode:对变量值进行分组合并

VisualBander:连续变量的可视化分段

Count:表示某个变量的取值中是否出现某个值,或某个区间

RankCases:变量编秩

AutomaticRecode:对记录按某个变量值的大小排序

变量转换变量级别的数据管理(2)第三十八页,共七十九页,2022年,8月28日

CreateTimeSeries:建立时间序列

ReplaceMissingValues:缺失值替代

RandomNumberSeed:设定随机种子

专用过程变量级别的数据管理(3)

控制命令

RunPendingTransforms:用于执行编程中被挂起的数据整理操作专用于时间序列模型第三十九页,共七十九页,2022年,8月28日例1

数据fee.sav是上海和杭州16名住院病人的费用数据,计算上海的住院病人平均每天的住院费用,要求结果取整。计算新变量第四十页,共七十九页,2022年,8月28日输入新变量名perfee计算新变量第四十一页,共七十九页,2022年,8月28日计算新变量输入条件表达式第四十二页,共七十九页,2022年,8月28日计算新变量选择函数输入函数表达式第四十三页,共七十九页,2022年,8月28日计算新变量第四十四页,共七十九页,2022年,8月28日例2

在数据fee.sav中生成新变量grade,当住院总费用小于5000元时取值为“相对较低”,大于等于5000元且小于7000元取值为“中等”,大于等于7000元且小于10000元为“较高”,大于等于10000元为“很高”。变量值分组合并第四十五页,共七十九页,2022年,8月28日新变量名grade选入原变量total变量值分组合并第四十六页,共七十九页,2022年,8月28日变量值分组合并第四十七页,共七十九页,2022年,8月28日

三种Range的设置,所有的范围均包含了端点,而前面设定的变换会优于后面的变换,因此应该将大于等于10000元最先设定,而将小于5000元最后设定。变量值分组合并第四十八页,共七十九页,2022年,8月28日变量值分组合并第四十九页,共七十九页,2022年,8月28日变量值分组合并第五十页,共七十九页,2022年,8月28日变量值分组合并第五十一页,共七十九页,2022年,8月28日务必选上该项变量值分组合并第五十二页,共七十九页,2022年,8月28日变量值分组合并第五十三页,共七十九页,2022年,8月28日recode过程提供了精确分组的功能,但如果希望进行的分组是有规律的,比如等距分组,或等样本量分组,使用

recode过程进行操作就显得非常麻烦,且可视化程度不高。此时可以考虑使用visualbander过程进行可视化分段。连续变量的可视化分段第五十四页,共七十九页,2022年,8月28日例3

仍以数据fee.sav为例,按变量total将病人分为5组,5000元以下为第一组,5000元以上的按等间距的方式分4组。连续变量的可视化分段第五十五页,共七十九页,2022年,8月28日连续变量的可视化分段第五十六页,共七十九页,2022年,8月28日连续变量的可视化分段第五十七页,共七十九页,2022年,8月28日设定分段规则连续变量的可视化分段第五十八页,共七十九页,2022年,8月28日连续变量的可视化分段自动填充值标签第五十九页,共七十九页,2022年,8月28日连续变量的可视化分段第六十页,共七十九页,2022年,8月28日例4

仍以数据fee.sav为例,查看变量total中是否出现值6890。查看特定变量值第六十一页,共七十九页,2022年,8月28日查看特定变量值第六十二页,共七十九页,2022年,8月28日查看特定变量值第六十三页,共七十九页,2022年,8月28日查看特定变量值第六十四页,共七十九页,2022年,8月28日查看特定变量值第六十五页,共七十九页,2022年,8月28日例5

仍以数据fee.sav为例,根据城市分组计算住院总费用的

秩次。变量编秩第六十六页,共七十九页,2022年,8月28日变量编秩第六十七页,共七十九页,2022年,8月28日

用于定义秩次类型,默认为rank(秩分数)变量编秩第六十八页,共七十九页,2022年,8月28日

用于定义对相同值观测量的处理方式默认值为取平均秩次。变量编秩第六十九页,共七十九页,2022年,8月28日变量编秩第七十页,共七十九页,2022年,8月28日将字符变量转换为数值变量例6

仍以数据fee.sav为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论