SPSS13基础知识_第1页
SPSS13基础知识_第2页
SPSS13基础知识_第3页
SPSS13基础知识_第4页
SPSS13基础知识_第5页
已阅读5页,还剩94页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021-5-12 研究生用 1 暨南大学医学院医学统计教研室暨南大学医学院医学统计教研室 夏苏建夏苏建 2021-5-12 2 spss是软件英文名称的首字母缩写 原意为: statistical package for social science 即“社会科学统计软件包” 2021-5-12 3 spss是国际上最流行并具有权威性的统 计分析软件之一,它由美国斯坦福大学 的三位学生于1968年研制。 spss最显著的特点是用菜单和对话框选 择并完成统计过程,操作简便,是非统 计专业人员应用最多的统计软件。 2021-5-12 4 尽管spss在不断升级,但其基本统计分 析内容无变动。 以

2、spss 13.0版本为基础介绍。对于 spss 11.5和16.0版本,本指导也适用。 spss 13.0与spss 11.5以前版本的最大 不同是:变量名可以最多长达64个字节, 统计图的编辑更加灵活。 2021-5-12 5 运行spss13eval安装程序 安装完成后,拷贝crack目录下的执行文 件patch到安装目录运行即可! 2021-5-12 6 尽可能用默认选择项或最简捷的操作方式 获得必要的结果。 按医学统计学和医学论著的要求来解释结 果。 2021-5-12 7 spss启动 spss主要窗口及其功能 数据文件的建立 2021-5-12 8 有3种方式启动spss: 在桌

3、面双击spss13.0图标 从菜单选择:开始程序spss for windows spss 13.0 for windows 在资源管理器中双击spsswin.exe文件 2021-5-12 9 数据编辑窗(data editor) 结果输出窗(viewer) 程序编辑窗(syntax editor) 2021-5-12 10 2021-5-12 11 2021-5-12 12 2021-5-12 13 数据文件的建立是指把收集到的数据存入 到计算机的磁盘中,以便调用、修改、添 加数据和统计分析。主要步骤是: 数据编码 建立数据文件结构 数据录入和保存数据 2021-5-12 14 病例病例

4、号号 姓名姓名性别性别年龄年龄入院日期入院日期出院日期出院日期hbsag身高身高 (厘米)(厘米) 体重体重 (公斤)(公斤) 疗效疗效 1 张山山张山山 男男5509/29/200 4 10/29/200 4 阴性阴性17275.0显效显效 2 王武王武 男男6510/25/200 4 11/28/200 4 阴性阴性16865.5好转好转 3 陈杉陈杉 女女3912/14/200 4 01/13/200 5 阴性阴性16055.5治愈治愈 4 李思李思 女女3011/22/200 4 12/29/200 4 阳性阳性15862.5无效无效 5 欧阳山欧阳山 男男5712/01/200 4

5、01/15/200 5 未检未检17580.0好转好转 6 赵杉赵杉 女女1310/01/200 4 11/18/200 4 阴性阴性16055.0治愈治愈 2021-5-12 15 定义变量名(variable) 定义变量的标签(variable labels) 对数据进行编码和定义变量取值的标签 (value labels) 数据编码的一般方法 2021-5-12 16 变量名变量名变量名标签变量名标签数据编码数据编码 num病例号病例号 name姓名姓名 sex性别性别1 1:男;:男;2 2:女:女 age年龄(岁)年龄(岁) date_in入院日期入院日期 date_ou t 出院日

6、期出院日期 hbsag乙肝表面抗原乙肝表面抗原0 0:阴性;:阴性;1 1:阳性;:阳性;2 2:缺失值(未检):缺失值(未检) height身高(身高(cm) weight体重体重(kgkg) effect疗效疗效1 1:无效;:无效;2 2:好转;:好转;3 3:显效;:显效;4 4:治愈:治愈 2021-5-12 17 病例病例 号号 姓名姓名性别性别年龄年龄入院日期入院日期出院日期出院日期hbsag身高身高 (厘米)(厘米) 体重体重 (公斤)(公斤) 疗效疗效 1 张山山张山山 15509/29/200 4 10/29/200 4 017275.03 2 王武王武 16510/25/

7、200 4 11/28/200 4 016865.52 3 陈杉陈杉 23912/14/200 4 01/13/200 5 016055.54 4 李思李思 23011/22/200 4 12/29/200 4 115862.51 5 欧阳山欧阳山 15712/01/200 4 01/15/200 5 217580.02 6 赵杉赵杉 21310/01/200 4 11/18/200 4 116055.04 2021-5-12 18 变量名的长度不能多于64个字符。每个英 文字母或阿拉伯数字为1个字符,每个汉字 为2个字符。变量名不应过长,最好有实际 含义,如性别或sex。 首字符应该为英文字

8、母或汉字。变量名的 任何字符不能使用“+”、“-”、“*”、 “?”。 变量名不能使用spss的保留字。如:all、 and、or、not、eq、ge、gt、le、 lt、ne、to、with。 系统中不区分变量名的大小写字符。例如 time和time被认为是同一变量。 2021-5-12 19 定义变量名标签是对变量名做进一步说明。 如果变量名已经说明了变量的内涵,则不必设置 变量名标签。如性别、血型、name,等 有时,变量名不能明确表示该变量的含义。如 date_in。变量名标签设置为“入院时间”。 变量标签不受字符位数的限制,可以用英文或中 文表示。 在统计分析的输出结果中,可显示变量

9、的英文或 中文标签,使输出结果的可读性更好。 2021-5-12 20 对于分类变量,常用数字对不同的类别进 行编码,从而方便数据的输入和统计分析。 有时为了更好理解数据内容和输出结果, 给变量的不同取值赋以不同标签,使用户 一目了然。如乙型肝炎表面抗原hbsag: (0:阴性,1:阳性,2:未检测) 2021-5-12 21 数值变量:如:年龄、体重,不必编码就可直 接输入。 无序分类变量:如:性别(1:男;2:女)、 职业(1:医生;2:护士;3:行政人员;4: 工人;5:其他)。 有序分类变量:疼痛(0:无;2:轻度;3: 中度;4:重度)、年龄(1:15岁;2: 1534岁;3:355

10、9岁;4:60岁)。 可选择多项的变量(复选题) 2021-5-12 22 如药物的不良反应(无0;有:头昏1, 恶心2,上腹不适3,口干4,食欲不振 5)。此例可以分解为5个数值变量,如 a1,a2,a3,a4,a5,用数值0表示 “无”,1表示“有”。也可设置1个字 符变量,如affect,如同时有“头昏”、 “恶心”和“食欲不振”症状,可用字 符变量值“125”表示,使得资料输入方 便。 2021-5-12 23 打开数据编辑窗口 启动spss以后,数 据编辑窗口首先自动打开。 单击cancel按钮,即进入数据窗口 (data view)。 在spss运行过程中欲建立新的数据文件, 从菜

11、单选择:file new data。单击 数据编辑窗左下方的variable view按钮, 使当前窗口由数据窗口(data view)转 为变量窗口(variable view)。 2021-5-12 24 2021-5-12 25 2021-5-12 26 2021-5-12 27 变量名(name) 在光标处直接输入。 变量类型(type) 默认设置:数值变量类型(numeric),长 度(width)是8个字符,小数点(decimal) 2位(记作f8.2)。它的含义是:该变量数 字长度共8个字符,其中小数点占1个字符, 小数点以前的数值占5个字符,小数点以后 的数值占2个字符)。 字

12、符变量(string)的默认长度是8个字符 (记作a8),如果输入姓名、地址等文字内容, 必须选用字符变量。方法:单击相应变量的 numeric,出现,单击。 2021-5-12 28 2021-5-12 29 数据长度(width)和小数点位数 (decimals) 通过单击“ ”“ ”选 择,也可在变量类型(type)中设置。 日期变量(date)的设置 单击相应变量 的numeric,出现,单击。 2021-5-12 30 变量标签(labels) 在光标处直接输入中文或 英文标签。如果变量名能够说明该变量的内涵, 可不必设置变量标签。 变量取值标签(values) 不是必须设置项目。

13、设置“性别”的变量值标签:1为男性;2为女 性。方法:单击相应变量的values,出现,单 击。 缺失值(missing values) 不是必须设置项目。 数值变量的默认缺失值为“.”。本例hbsag(乙 肝表面抗原)的未检用“2”表示“”,故设“2” 为缺失值。方法:单击相应变量的missing,出 现,单击。 列宽(column) 用于调整数据表中各列的宽 度。默认为8个字符宽。 2021-5-12 31 2021-5-12 32 数据表中数据排列方向(align) 数值变量 (numeric)的默认为右对齐(right),字符变 量(string)的默认为左对齐(left)(图1.2)

14、。 测量类型(measure) 对于数值变量默认为 scale(数量),字符变量默认为nominal(名义, 如姓名)。对于等级资料(如疗效的4个等级用 数值1,2,3,4表示)可以定义为ordinal(等 级) ,也可默认用scale。 本例的性别分别用数值1和2表示男性、女性。这 时的1和2已经没有数值大小的含义,故可以定义 为字符变量,测量类型为nominal。但为了操作 方便和某些统计分析,还是经常把它定义为数值 变量,默认测量类型为scale。 单击变量窗口左下方的data view按钮,使当前 窗口转为数据窗口。 2021-5-12 33 2021-5-12 34 2021-5-1

15、2 35 按变量输入数据(按列输入) 将光标移到该变 量与第一个观察单位交叉处的单元格,单击鼠 标,被定位的单元格边框加黑显示;输入变量 的第一个值,回车或按向下移动光标键“”, 黑框单元格定位于观测量序号为2的单元格, 输入第二个数据。 按观察单位(按行输入)输入数据 将光标移 动要输入的观察单位,单击鼠标,将该观察单 位标记,输入变量的第一个值,按“tab” 或 “”键,输入第二个数据。 按单元格输入数据 将光标移动到想要输入的 单元格,单击鼠标,输入变量值,按回车键。 也可按此法修改变量值。 2021-5-12 36 2021-5-12 37 将数据窗中的数据以文件形式保存到指定磁盘 的

16、目录中。 保存数据文件可以使用“file”菜单项中的save (保存)和save as(另存为)。保存有两种: 直接保存为spss for windows 的数据文件,扩展 名为“.sav”(默认) 保存为其他格式的数据文件,以便其他软件可以使 用,如excel(*.xls) 和dbaseiii(.dbf)。 2021-5-12 38 从spss for windows对话框中调用: spss 启动后,对话框默认选择项为 “open an existing data source”,文件栏 中最多可保留以前打开的9个文件(默 认)。 从菜单中调用:单击file,展开下拉菜单。 菜单的下半部为以

17、前打开的文件。 单击open file图标,按路径选择要打开的 文件。 spss 可直接调用excel数据文件(第1行 是变量名)。 2021-5-12 39 数据文件的编辑 数据文件的整理 数据文件的转换 数据文件的合并 2021-5-12 40 (一)变量的插入和删除 (二)观察单位的插入和删除 (三)数据的 剪切(cut) 复制(copy) 粘贴(paste) (四)恢复删除或修改前的数据 2021-5-12 41 删除一个变量 插入一个变量(variable) 练习:将例1.1数据文件中的变量num 删除后,再插入该变量,重新输入。 2021-5-12 42 删除一个变量 把光标移至待

18、删除的变量 名处,单击鼠标,按键盘上delete键 (或从菜单上选择edit cut)。 2021-5-12 43 插入一个变量(variable) 在数据窗口, 把光标定位于新变量要占据的那一列的 任意行上,单击鼠标;单击“插入变量” (insert variable)图标。结果在光标位 置的左边插入一个变量名为“var0000n” 的变量,其中n是系统定义的变量序号, 原来占据此位的变量右移;可在变量窗 口对插入的变量重新命名并定义其属性。 2021-5-12 44 插入一个观察单位(case) 删除一个观察单位 把光标移至待删除的 观察单位序号处,单击鼠标,按键盘上 delete键(或从

19、菜单上选择edit cut)。 练习:将例1.1数据文件中的第2个病例删 除后,再插入病例,重新输入。 2021-5-12 45 练习:如例1.1数据文件中的date_in变量 值全部输入完毕后,发现第1个观察单位 的“09/29/2004”漏输,使后面的变量值 都上移一行,怎么办? 2021-5-12 46 将变量date_in当前的第1个观察单位及 以后的变量值标记;从菜单选择edit cut;将光标定位于第2个观察单位处, 从菜单选择editpaste;将 “09/29/2004”输入到第1个观察单位处。 2021-5-12 47 如对本次的修改与删除不满意,想恢复操 作前的状态,可从菜

20、单选择edit undo, 也可单击“撤消”或“恢复”快捷图标。 2021-5-12 48 排序(sort cases) 练习:将例1.1中的数据按“性别”和“年 龄”从小到大排序,观察到什么? 2021-5-12 49 方法:从菜单选择data sort cases,打开sort cases对话框,将变量“性别”和“年龄”分别选 入sort by 栏,默认升序排列(ascending),单击 ok按钮。 2021-5-12 50 练习:将例1.1数据文件中“男性”,同 时“年龄”在65岁以下的观察单位选择 出来。观察到什么? 2021-5-12 51 方法:从菜单选择data select

21、cases, 打开select对话框,选择if condition is satisfied,单击 if 按钮,在条件栏中输入 sex = 1 | : or ; = : not。数字和 符号可从对话框中直接选择。如果从键盘选入,应 处于英文输入状态,以减少出错的可能。 2021-5-12 53 2021-5-12 54 2021-5-12 55 用赋值方法生成新变量(compute) 对变量值重新划分(recode) 复选题编码与substr函数的使用 2021-5-12 56 练习2 根据例1.1数据文件中的“身高”和 “体重”,计算体重指数,然后赋值给 新变量“bmi” 。体重指数的计算公

22、式如 下(注意公式中身高的单位为m): 体重指数(bmi)体重(kg) / 身高(m)2 2021-5-12 57 练习 将图2-9数据文件中的体重指数bmi 变量值重新编码:0:24;1:24; 并赋值给新变量“肥胖”。 2021-5-12 58 从菜单选择transform recodeinto different variables,打开recode into different variables 对话框,将“bmi”选 入numeric variable栏,在output variable 栏输入新变量肥胖 ,单击change 按钮, 单击old and new values按钮。

23、2021-5-12 59 2021-5-12 60 练习:图中的变量case和e代表10位癌症患者 化疗后的不良反应。不良反应共有5种,分别用 字符1,2,3,4,5表示。如第1位患者无不良 反应,用字符0表示;第2位患者同时有1,2, 3项不良反应,用字符123表示,依此类推。字 符变量e的变量值便于数据录入,但不便于统计 分析,因此需要用substr函数将字符变量e 分解为数值变量e1,e2,e3,e4,e5,分别代 表5种不良反应,用数值0表示无,1表示有。 2021-5-12 61 2021-5-12 62 2021-5-12 63 2021-5-12 64 2021-5-12 65

24、(一)增加观察单位(add cases) (二)增加变量(add variables) 2021-5-12 66 从外部数据文件中增加变量(variable) 到当前数据文件中,称为横向合并。横向 合并不仅要求两个需要合并的数据文件必 须有一个共同的变量,如病人编号(变量 名和数据类型都相同),称为关键变量, 还要求两个文件中关键变量的部分变量值 是相等的,如病人编号是相同的。 2021-5-12 67 练习:将数据文件a.sav和b.sav合并为c.sav。 2021-5-12 68 打开数据文件a.sav,作为工作文件 (working data file )。 从菜单选择:datamer

25、ge files add cases。选定数据文件b.sav为外部文件, 单击“打开” ,单击“ok” ,将合并 后的新工作文件(new working data file)另存为数据文件c.sav。 2021-5-12 69 2021-5-12 70 从外部数据文件中增加变量(variable) 到当前数据文件中,称为横向合并。横 向合并不仅要求两个需要合并的数据文 件必须有一个共同的变量,如病人编号 (变量名和数据类型都相同),称为关 键变量,还要求两个文件中关键变量的 部分变量值是相等的,如病人编号是相 同的。 2021-5-12 71 2021-5-12 72 分别对数据文件c.sav

26、和d.sav按关键变量“病 人编号”升序排列(datasort cases)。 打开数据文件c.sav,作为工作文件(working data file )。 从菜单选择:datamerge files add variables。选定数据文件d.sav为外部文件, 单击“打开”;单击match cases on key variables in sorted files(在已排序的数据文件 中匹配关键变量值相等的观察单位),激活它 下面的三个选项,本例选择both files provide cases,将“病人编号”选入key variables栏 (图2.22);单击“ok” ,将合并后

27、的新工作 文件另存为数据文件e.sav。 2021-5-12 73 2021-5-12 74 frequencies descriptives means case summaries 窗口转换 输出结果的保存及打印 2021-5-12 75 frequencies、descriptives、means和 case summaries这4个命令都可以计算均 数、标准差、标准误等主要指标。 如果只计算上述3个主要指标,选用 descriptives命令较为方便; 如果需计算中位数、百分位数和绘制频数 分布图,应选用frequencies命令; 如果需分组计算均数、中位数、几何均数、 标准差、标准

28、误等指标,应选用means命 令(必须有分组变量); 如果计算几何均数,选用case summaries命令较为方便。 2021-5-12 76 (1)计算均数、标准差、标准误 (2)计算中位数、四分位数、p2.5 和p97.5和p95 (3)绘制频数分布图 (4)计算参考值范围 表 3.1 某农村地区 1999 年 14 岁女孩的身高资料 142.3 148.8 142.7 144.4 144.7 145.1 143.3 154.2 152.3 142.7 156.6 137.9 143.9 141.2 139.3 145.8 142.2 137.9 141.2 150.6 142.7 15

29、1.3 142.4 141.5 141.9 147.9 125.9 139.9 148.9 154.9 145.7 140.8 139.6 148.8 147.8 146.7 132.7 149.7 154.0 158.2 138.2 149.8 151.1 140.1 140.5 143.4 152.9 147.5 147.7 162.6 141.6 143.6 144.0 150.6 138.9 150.8 147.9 136.9 146.5 130.6 142.5 149.0 145.4 139.5 148.9 144.5 141.8 148.1 145.4 134.6 130.5 14

30、5.2 146.2 146.4 142.4 137.1 141.4 144.4 129.4 142.8 132.1 141.8 143.3 143.8 134.7 147.1 140.9 137.4 142.5 146.6 135.5 146.8 156.3 150.0 147.3 142.9 141.4 134.7 138.5 146.6 134.5 135.1 141.9 142.1 138.1 134.9 146.7 138.5 139.6 139.2 148.8 150.3 140.7 143.5 140.2 143.6 138.7 138.9 143.5 139.9 134.4 13

31、3.1 145.9 139.2 137.4 142.3 160.9 137.7 142.9 126.8 2021-5-12 77 从菜单选择analyzedescriptive statistics frequencies,打开frequencies对话框,将变量 身高选入variables栏。 单击statistics按钮,打开statistics对话框,选择: 2021-5-12 78 2021-5-12 79 单击charts按钮,打开charts对话框,选择: histograms:直方图(对分类资料,可选用 条图bar charts和圆图pie charts)。 with norma

32、l curve:加载正态曲线。本例未 选。 2021-5-12 80 s st ta at ti is st ti ic cs s 身高 130 0 143.220 .564 142.750 6.430 129.703 139.275 142.750 147.150 154.515 157.760 valid missing n mean std. error of mean median std. deviation 2.5 25 50 75 95 97.5 percentiles 2021-5-12 81 身高 162156150144138132126 人数 25 20 15 10 5

33、0 std. dev = 6.43 mean = 143 n = 130.00 图3.3 某农村地区1999年14岁女孩的身高频数分布图 2021-5-12 82 均数为143.2(cm)、标准差为6.43(cm)、标 准误为0.56(cm); 中位数为142.8(cm);p25和p75分别为139.3 (cm)、147.2(cm);p2.5和p97.5分别为129.7 (cm)、157.8(cm);p95为154.5(cm); 频数分布图近似正态分布。 小结:该地14岁女孩的身高频数分布近似正态分 布,身高均数为143.2(cm)、标准差为6.43 (cm),95%的参考值范围为: (143

34、.21.966.43,即130.6155.8)cm。 2021-5-12 83 计算身高的最小值、最大值、均数和标准差。 从菜单选择analyzedescriptive statistics descriptives,打开descriptives对话框,将变 量身高选入variables栏; 单击options按钮,打开options对话框(打钩 的是默认项目) 单击continue按钮返回,单击ok按钮。 2021-5-12 84 2021-5-12 85 最小值和最大值分别为125.9和162.6厘 米,均数和标准差分别为143.2和6.43厘 米。 d de es sc cr ri ip

35、 pt ti iv ve e s st ta at ti is st ti ic cs s 130125.9162.6 143.2206.430 130 身高 valid n (listwise) nminimum maximummean std. deviation 2021-5-12 86 例:某种传染病的潜伏期(天)如下。求 平均潜伏期m和潜伏期的第95百分位数 p95 表3.4 某种传染病的潜伏期(天) 潜伏期(天) 4 8 12 16 20 人数 26 48 25 6 3 2021-5-12 87 用变量 f 进行加权。从菜单选择:dataweight cases,打开weight

36、cases对话框。单击ok按 钮。加权后,虽然数据窗的数据表面上没有改变, 但程序已经记住:有26个观察值为6,48个观察 值为10,25个观察值为14,等。 2021-5-12 88 从菜单选择analyzedescriptive statistics frequencies,打开frequencies对话框,将变量 x选入variables栏。 单击statistics按钮,打开statistics对话框,选择: 2021-5-12 89 该种传染病潜伏期的中位数为10.4天, 95%的病人潜伏期在18.5天以下。 statisticsstatistics x 108 0 10.44a 18.53b valid missing n median 95percentiles calculated from grouped data.a. percentiles are calculated from grouped data.b. 2021-5-12 90 求以下四组资料的均数和标准差。 表 3.6 四组资料的肝重占体重比值(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论