spss统计软件应用二、数据管理_第1页
spss统计软件应用二、数据管理_第2页
spss统计软件应用二、数据管理_第3页
spss统计软件应用二、数据管理_第4页
spss统计软件应用二、数据管理_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据管理 在数据文件建立好之后,还需要对数据进行必要的加工处理。对同一个数据往往需要从各种不同的侧面进行研究,采取多种统计方法进行分析,而不同的统计方法对数据文件结构的要求不尽相同,这就需要对数据文件的结构进行重新调整或转换,以便适合于相同的统计方法。数据管理 文件级别的数据管理 变量级别的数据管理文件级别的数据管理(1) SPSS中的Data菜单提供了文件级别的数据管理,可以对整个数据文件进行加工整理。 Insert Variable:插入变量 Insert Cases:插入记录 Go to Case:到达某条记录 简单命令(这些功能都可以用鼠标在数据表界面 直接完成,很少用菜单操作,在此不

2、详述) Sort Cases:记录排序 Split File:记录拆分 Select Cases:记录筛选 Weight Cases:记录加权 常用的简单过程(使用频繁,必须掌握)文件级别的数据管理(2) Define Variable Properties:定义数据字典 Copy Variable Properties :将预定义的数据 字典直接引入当前数据文件,即复制外部数据 文件属性到当前数据文件 变量与数据文件属性向导(对大型或连续性数据分析项目非常有用) Transpose:数据转置 Restructure:数据文件的重组 数据重构向导文件级别的数据管理(3) Add Cases:纵

3、向合并 Add Variable :横向合并 文件合并过程(Merge Files) Define Dates:定义日期变量过程,用于时间序列数据 Aggregate:数据汇总过程 Identify Duplicate Cases:查找重复记录 其他过程文件级别的数据管理(4) 正交设计过程(Orthogonal Design)单变量排序:SPSS提供了一种简易操作方法,即在数据表格的变量名处单击右键,弹出右图多变量排序:使用Sort Cases过程来进行,查看详情记录排序记录排序选中Responese ,选择升序选钮(默认)记录排序注意:在多重排序中,指定排序变量名的次序很关键,首先安第一个

4、变量排序,对于与第一个变量取值相同的记录考虑按第二个变量排序排序后,原来记录数据的排序将被打乱,对于时间序列数据,若未存放有记录标志的变量,应注意保存原数据的排列顺序,以免数据混乱记录排序记录拆分也可以选择快捷方式1.选中此框不拆分文件2.按所选变量拆分文件,各组分析结果放在一起便于比较3.按所选变量拆分文件,各组分析结果单独放置4.用于选择拆分数据文件的变量5.要求将数据按所用拆分变量排序6.数据集很大,且拆分变量已排序,选此可节省运行时间记录拆分123456记录筛选快捷方式1.分析所有记录2.分析满足条件的记录, 按If按钮设定筛选条件3.从原数据中按某种条件抽样,按Sample进行设定4

5、.基于时间或记录序号选择记录,按Range进行设定5.使用筛选指示变量选择记录,非0值的记录被选中6.未选中的记录被隔离,7.选定的个案复制到新的数据集8.未选中的记录被删除记录筛选12345678记录筛选划斜线的表示没有选中的个案被过滤了记录加权快捷方式 对于采用频数输入方式的数据应设置权重变量,如第三行表示treat单纯药物 e有效的人共48个,f是频数变量,应设为权重记录加权定义变量属性变量名、测量尺度等定义变量属性变量列表拷贝变量属性数据转置 Transpose:该过程用于对数据进行行列转置,即原来的一条记录转成为一个变量,而变量则转成为一个记录,两次Transpose过程后数据集会恢

6、复原样(点此见具体操作)。数据转置将变量VAR00001-VAR000010选入变量框,再点击确定键转置前的数据集数据转置转置后的数据数据文件重组示例:此例中不同性别的体重记录在单独的列中,如果你想要通过t检验,来比较不同性别的体重,但没有t检验过程所需要的分组变量,这时就需要重组数据,将一个变量组重组为一个weight变量,同时创建一分组变量group。原数据结构重组后的数据结构打开数据菜单,选择重组数据文件重新排列选择变量重组为个案数据文件重新排列此例选择一个变量组将原数据集中的需重组的变量组放入目标变量框,然后定义重组后目标变量名。此例重组后的目标变量名为:weight此例选择创建单个索

7、引变量定义索引变量名、标签及索引值未选定重组变量的处理完成重组后数据集合并数据文件可以使用两种不同的方式合并两个文件中的数据1、纵向合并: 合并活动的数据集与另一个打开的数据集,两个数据集中变量相同,个案不同(即将一个数据集中的个案添加到另一具有相同变量数的数据集中)。2、横向合并:合并活动的数据集与另一个打开的数据集,两个数据集中个案相同,变量不同(即将一个数据集中的变量添加到另一具有相同个案数的数据集中)。3、无论用那一种合并方式,如果两个数据集中有变量数(或个案数)不同,则合并后的数据集中有部分缺省值。4、横向合并有匹配合并和不匹配合并,如何是匹配合并则两个数据集中必须具有唯一相同的匹配

8、变量。示例:下面两个数据集分别来自于两家医院,如何合并?A医院数据集B医院数据集选择合并文件 添加个案 Add Cases:纵向合并,从打开的数据文件中增加记录到当前活动数据集中,相互合并的数据文件中应该有相同的变量。文件纵向合并 左框:新、老数据文件中不匹配的变量名*:当前数据集中的变量 +:新添加数据集中的变量 右框:已匹配的变量名,选择完成后单击确定即可合并后的数据集横向合并示例:研究开始时的基线数据集随访结束时的数据集文件横向合并1. 未被纳入的变量列2. 被纳入合并后新数据集的变量列表3. 记录匹配使用的关键变量 Add Variables:横向合并,从打开数据文件增加变量到活动数据

9、文件,两个数据集要有一个一一对应的关键变量进行匹配合并,且记录应按关键变量排序后再合并。123“分类汇总数据”将活动数据集中的个案组汇总为单个个案并创建新的汇总文件,或在活动数据集中创建包含分类汇总数据的新变量。基于零个或多个中断(分组)变量的值汇总个案。如果未指定中断变量,则整个数据集将成为单个中断组。分类汇总数据如果创建新的分类汇总数据文件,则新数据文件对由中断变量定义的每个组都包含一个个案。例如,如果中断变量有两个值,则新的数据文件将仅包含两个个案。如果未指定中断变量,则新数据文件将包含一个个案。如果将分类汇总变量添加到活动数据集,则不分类汇总数据文件本身。分隔变量值相同的每个个案对新聚

10、合变量都得到相同的值。例如,如果性别是唯一的中断变量,则所有男性对于表示平均年龄的新分类汇总变量将得到相同的值。如果未指定中断变量,则对于代表平均年龄的新分类汇总变量,所有个案将收到相同值。分组变量被汇总变量定义变量名与标签定义函数值 定义汇总函数 定义新产生汇总变量的 名称和标签Name&Label标识重复记录在数据中出现“重复”个案有多种原因,包括: 数据输入错误,意外地多次输入了同一个案。 多个个案具有相同的主标识值,但它们有不同的次标识值,就像居住在同一间屋子的多个家庭成员。 多个个案代表同一个案,但是对于除标识该个案的变量之外的其他变量有不同值,例如由同一个病人在不同时间服用的不同的

11、约。“标识重复个案”允许您自由定义重复,并在一定程度上控制对主个案和重复个案的自动确定。希望查找重复值的变量重复记录按该变量的取值排序设定第一个还是最后一个重复记录为主记录 PrimaryLast0表示相应的记录为重复记录标识重复记录变量级别的数据管理(1) SPSS中的Transform(转换)菜单提供了变量级别的数据管理,可以对变量进行操作。在理想情况下,原始数据非常适用于要执行分析的类型,并且,变量间的任何关系都是合适的线性或切合的正交关系。不幸的是,这种情况非常少。初步分析可能会暴露出编码方案不合理或编码错误,或者可能需要数据转换以揭示变量间的真实关系。您可以执行从简单任务(比如拼并类

12、别以进行分析)到更高级任务(比如基于复杂方程和条件语句创建新的变量)的数据转换。 计算新变量(Compute):最常用 Recode:对变量值进行分组合并 Visual Bander:连续变量的可视化分段 Count:表示某个变量的取值中是否出现某个值,或 某个区间 Rank Cases:变量编秩 Automatic Recode:对记录按某个变量值的大小排序 变量转换变量级别的数据管理(2) Create Time Series:建立时间序列 Replace Missing Values:缺失值替代 Random Number Seed:设定随机种子 专用过程变量级别的数据管理(3) 控制命

13、令 Run Pending Transforms:用于执行编程中被 挂起的数据整理操作专用于时间序列模型例1 下例数据是一组慢性病随访数据,计算每个人的体重指数,BMI=体重/身高2*100。计算新变量计算新变量对话框此框中输入表达式定义目标变量名、类型及标签软键盘和运算符函数选择框函数说明框根据条件计算条件表达式对话框输入条件表达式例2 在数据heart.sav中将v2(年龄)重新编码,生成新变量grade,当=21岁且=31岁且=41岁且=51岁且=60岁且70岁取值为6,71岁以上取值为7。数值变量值分组变量重新编码对话框将重新编码的变量v2放入此框输入重新编码后的变量名及变量标签,按

14、按钮。原变量为v2,编码后的变量为grade按 按钮设置编码规则旧值可以是单值、缺省值、范围、从最小到某一值、从某一值到最大或其他值。新值:1,2,3,4,5,6,7变量值分组合并变量值分组合并变量值分组合并变量值分组合并 recode过程提供了精确分组的功能,但如果希望进行的分 组是有规律的,比如等距分组,或等样本量分组,使用 recode过程进行操作就显得非常麻烦,且可视化程度不高。 此时可以考虑使用visual bander过程进行可视化分段。连续变量的可视化分段例3 仍以数据heart为例,将变量v2(年龄)分为7组,20岁以下为第一组,按10岁等间距的方式分组。连续变量的可视离散化连

15、续变量的可视化分段连续变量的可视化分段生成分割点对话框连续变量的可视化分段自动填充值标签连续变量的可视化分段例4 仍以数据heart.sav为例,查看变量v2(年龄)大于等于60岁,如果v2大于等于60岁,创建的新变量取值为1,否则为0。查看特定变量值(count功能) 该对话框将创建一个变量,该变量统计每个个案的变量列表中相同值的出现次数。例如,某调查可能包含一个年龄变量,您可以计算并创建一个年龄大于等于60岁和小于60岁的新变量,产生的新变量为二分类变量,即满足条件的为1,否则为0。查看特定变量值查看特定变量值查看特定变量值例5 仍以数据heart.sav为例,根据年龄分组计算SBP的秩次

16、。变量编秩 使用“个案排秩”对话框可以为数值变量创建包含秩、常规得分和Savage 得分以及百分位值的新变量。将基于原变量名称和选定的测量自动生成新变量名称和描述性变量标签。一个摘要表将列出原变量、新变量和变量标签。(注意:自动生成的新变量名称的最大长度为8 个字节。)根据需要,您可以:1、按升序或降序对个案排秩。2、通过在“依据”列表中选择一个或多个分组变量而将排秩组织为子组。将计算每个组中的秩。组通过分组变量的值组合定义。例如,如果您选择疾病类型和性别作为分组变量,则将为疾病类型和性别的每一组合计算秩。变量编秩 用于定义秩次类型,默认为rank(秩分数)变量编秩 用于定义对相同值观测量的处理方式 默认值为取平均秩次。变量编秩自动重新编码例6 仍以数据demo.sav为例,将字符型变量gender转化成数值变量new_gender。 使用“自动重新编码”对话框可以将字符串值和数值转换为连续整数。当类别代码不连续时,对许多过程来说,生成的空单元将降低性能并增加内存要求。此外,某

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论