版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《SPSS统计方法体系与案例实验进阶》本书将统计学方法原理条件、实验操作示范和案例应用分析需要一体化贯通起来,这样更有利于初学者对于统计学方法的复习巩固、辩证区分、规范使用,消除生搬硬套或乱选误用的现象。本书兼顾统计学方法的复习回顾、软件操作流程的演示和输出结果的详细阐述,确定框架结构,形成脉络体系,从而帮助教师在教学过程中发挥“我做你看、我带你做、你做我看”的作用,引导学生模仿观察、分解练习、完整试做、反馈纠错,从方法与软件、理论与实践结合的角度,成为提高授课、自学或答疑效果的友好帮手。内容特色学习目标:1、掌握SPSS数据文件的建立和管理2、掌握SPSS数据文件的结构、定义、保存重点:1、SPSS数据文件的建立和管理2、SPSS数据文件的结构、定义、保存第1章SPSS数据文件的建立
第1章SPSS数据编码、录入与保存一、SPSS软件简介“统计产品和服务解决方案”StatisticalProductandServiceSolutions,原先叫作“社会科学统计软件包”StatisticalProgramforSocialSciences,缩写SPSS.1968年斯坦福大学研究生最早编制了这个软件,2009年被IBM收购,已成为全球三大数据分析软件之一.SPSS软件依据菜单窗口式点击操作和对话框参数设置来驱动窗口界面,展示丰富的数据管理、结果分析功能,它以表格和图形形式得到输出结果,界面清晰、形象直观、易学易用.应用者只要熟悉统计理论方法适用条件和原理,掌握电脑Windows操作系统技能,就可以为科研活动中的数据操作分析服务.二、SPSS17.0界面与菜单(1)SPSS启动:双击(或单击)程序的桌面快捷方式图标启动.通过“开始”菜单的“程序”运行方式启动.(2)SPSS17.0中文版主界面第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存(3)SPSS17.0主菜单:★文件(File):文件新建、打开、保存、打印等.★编辑(Edit):文本内容的选择、拷贝、剪贴、寻找和替换等.★视图(View):主界面中工具视图的开关.★数据(Data):变量定义;个案的选择、排序、标识;变量加权、汇总;文件的合并、拆分、转置;正交设计等.★转换(Transform):变量的数值计算、赋值处理、缺失值替代等.★分析(Analyze):常用统计分析方法,如描述性分析、假设检验、方差分析、相关性分析、回归分析、聚类与判别分析、因子分析与对应分析、生存分析等.★图形(Graphs):散点图、饼图、条形图、直方图、箱图等.第1章SPSS数据编码、录入与保存(4)变量视图:定义、显示变量和编辑变量特征,平面二维表格,顶部为变量特征,左则是变量序号.定义内容:变量名称,类型,宽度,小数,标签,值,缺失,列,对齐,度量标准.(5)输出窗口:第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存三、数据编码(1)SPSS工作步骤:★SPSS数据的准备如资料分析、定义变量并制定编码方案、录入和保存数据文件.★数据的加工整理如数据审核、校对、筛选、分组、纠错及新变量生成.★数据的统计分析根据实际分析需要,选择适当方法并将其操作实现,如菜单选择和参数界面设置.★数据结果的解读和呈现解释统计分析结果以及统计学意义,结合实际而制定表达结论.第1章SPSS数据编码、录入与保存(2)数据文件建立
新建数据文件①定义变量②录入数据③保存数据.外部调用已建立数据文件.☆单击“变量视图”切换到变量定义界面.按行展示变量,按列展示变量名、变量类型、变量长度、小数位数、变量标签、变量值标签、缺失值、变量宽度、对齐方式和数据量度.变量之间可以新插入、删除或者移动位置.☆单击“数据视图”切换到数据录入界面,按照值标签编码值逐行录入个案数据.个案数据可以查找、筛选、删除.第1章SPSS数据编码、录入与保存(3)变量的编码方案根据问题实际意义定义变量并建立数据库.变量个数应表示出所有信息.变量名不宜太长,要便于识别查找.问卷篇幅太长则适用于“字母+数字序号”的变量名称.数据编码是指将原始数据资料(如问卷、试验结果等)问题转化为软件识别变量,完成变量个数、变量名称、变量类型及变量赋值方法的设置过程.常见情况:☆一般字符型问题:答案是唯一的字符型数据,如姓名、籍贯等.字符型;字符直接录入.☆一般数值型问题:答案是唯一的数值型数据,如身高、体重等.数值型;数值直接录入.第1章SPSS数据编码、录入与保存☆唯一选项数值型问题:答案是多选一的数值型数据.如定序资料(学习成绩|优、良、中、差)选一个;定类资料(专业|预防医学、临床医学、麻醉学、口腔医学)选一个.数值型;选项编码录入.☆限定多选项型问题:答案是由多个选项中限定数量选择多个数据.如选修课程中(数学史、古典文学、哲学、摄影)选两门.变量个数即选项个数;数值型;选项编码录入.☆任意多选项型问题:答案是由多个选项中任意选定若干个数据.如晚餐食物中(猪头肉、番茄沙拉、馒头、西瓜、稀粥)选若干种.变量个数所有选项个数;数值型;二值编码录入.☆日期型(Date):答案是日期型数据,选定格式并按此格式录入.如1990年6月12日选择yy/mm/dd,须按此格式输入90/06/12.第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存建立或打开数据库:由调查问卷、实验数据或报表资料可以新建一个数据文件;也可以打开已有数据文件(*.sav)或其它类型(*.xls等)的数据文件.新建文件,包括变量定义和数据输入环节:首先根据编码方案定义变量,依次对名称、类型、宽度、小数点位数、值标签、缺失值定义和设置;其次按照编码方案依次录入个案变量赋值.进入SPSS主界面,单击左下角“变量视图(VariableView)”.第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存☆变量名称(Name)以字母、汉字或@开头,包括汉字、字母或下划线.☆变量类型(Type)一般默认为数值型,其次为字符型或日期型.☆变量标签(Label)用于解释变量含义,设置以后则以标签名直观显示.☆值标签(Values)选项离散值编码及含义,设置以后则以标签名显示.☆宽度(Width)一般默认,字符型变量值容许输入最大字符数,超出则无法输入.☆小数(Decimals)变量值小数位数,一般默认为2,超出则以四舍五入后显示.☆缺失(Missing)一般默认,或者设置为与变量赋值差异大的规定值,如-1、99999.一旦设定则须按该值录入,软件识别该值为缺失而不参与统计分析.☆列宽(Columns)一般默认,用于显示每列变量的宽度.☆对齐(Align)一般默认,用于显示每列变量值的对齐方式:居左,居右和居中.☆测量(Measure)一般默认,定量、定序和定类.第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存在SPSS主菜单“视图(View)”,“值标签(ValueLabels)”开关功能菜单,对应查看.第1章SPSS数据编码、录入与保存结果输出窗口又叫查看器,随着执行命令而自动打开,用于显示统计分析结果.左边为输出结果导航目录,右边为输出执行命令及图表结果.第1章SPSS数据编码、录入与保存【实例1】[问题叙述]掌握变量定义、数据编码、录入数据和保存数据文件的SPSS操作实现.新型农村合作医疗调查问卷(共1000份),随机抽取1份并摘录部分题目.将调查问卷信息转化并录入数据库,在今后统计分析中备用.1.姓名:王俊
.2.性别(单选):√a.男b.女3.学历(单选):a.初中及以下b.高中及中专√c.大专d.本科及以上4.参加新农合至今约
8年.5.是否有常发病(单选):√a.是b.否;6.常发病为哪些(多选):
√a.呼吸系统b.消化系统√c.内分泌系统d.泌尿系统e.其他7.对新农合的总体满意度(单选):a.很高b.高√c.一般d.差e.很差第1章SPSS数据编码、录入与保存[操作步骤]表1新农合基本信息调查编码方案表题号“变量视图”“数据视图”变量名称数据编码变量类型答好一份变量录入1姓名按实际姓名录入字符型王俊王俊2性别1-男2-女数值型男√13学历1-初中及以下2-高中及中专3-大专4-本科及以上数值型大专√34参加新农合年数按实际录入数值型
885是否有常发病1-是0-否数值型√16呼吸系统疾病1-有0-无数值型√1第1章SPSS数据编码、录入与保存6消化系统疾病1-有0-无数值型未选06分泌系统疾病1-有0-无数值型√16泌尿系统疾病1-有0-无数值型未选06其他疾病1-有0-无数值型未选07新农合满意度10-很高8-高6-一般4-差0-很差数值型一般√6界面选择:SPSS主界面→变量视图.第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存单击“数据视图”,进入数据编辑界面.默认文件保存类型为(.sav),保存为“NO1建数据库(新农合问卷).sav”.第1章SPSS数据编码、录入与保存【实例2】[问题叙述]已知病例资料,请定义变量及编码方案,旨在形成数据库并为今后分析备用.请定义变量、变量类型、制定编码方案、录入数据并保存数据库.编号籍贯(填写)字符型性别(选项)数值型年龄(填写)数值型血型(选项)数值型职业(选项)数值型糖尿病史(填写)数值型总胆固醇(填写)数值型疗效(选项)数值型1山东男58B工人无5.33有效2广西男69O商人无4.63好转3山东男58B工人无5.33有效4湖北女42A商人无6.12显效5天津男43O农民有4.54好转第1章SPSS数据编码、录入与保存表3变量定义及编码名称编码类型籍贯按实际录入字符型性别1-男、2-女数值型年龄按实际录入数值型血型1-A、2-B、3-O、4-AB数值型糖尿病史1-有、0-无数值型总胆固醇按实际录入数值型疗效1-无效、2-好转、3-有效、4-显效数值型[操作步骤]打开SPSS软件,切换到“变量视图”;根据变量定义及编码方案将原始资料转化为数据库.第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存第1章SPSS数据编码、录入与保存【练习1】[问题叙述]农村社区卫生服务调查问卷(共500份),从中随机抽取1份并摘录部分题目.建立数据库,保存为实验1-2.sav.农村社区卫生服务需求、利用及满意度现况调查表(回收一份问卷)一、基本信息:1.您所在县城:
诸城市
2.您的体重(kg):74
3.您的年龄:35
4.您的性别(单选):(1)√男(2)女5.您的文化程度(单选):(1)初中及以下(2)高中/中专(3)√大专(4)本科及以上6.您每年家庭收入约为
60000
元,您个人每年收入约为
30000
元7.您目前的婚姻状况(单选):(1)未婚(2)√已婚(3)丧偶(4)离婚第1章SPSS数据编码、录入与保存二、专业信息:8.目前家里最需要医生提供的服务(单选):(1)老年人护理知识和服务(2)√慢性病防治知识和服务(3)妇女儿童保健知识和服务(4)看病和健康方面知识和服务(5)其他9.您是否需要下列服务(单选):(1)当有需要时,医生马上上门服务(2)√医生能与我家建立联系,定期给予健康建议,提供想要的服务(3)其他10.您对照顾长期卧床老人和产妇方面意向:如开展专门的照顾老人的服务,能否接受:(1)√能(2)不能多少护理费用能接受
800
元/月.如开展专门的照顾坐月子妇女的服务,能否接受:(1)√能(2)不能多少护理费用能接受
元/月.第1章SPSS数据编码、录入与保存11.全科医疗机构开展了哪些服务内容(多选)?(1)家庭病床(2)√户籍制保健(3)√简易门诊(4)√社区护理(5)呼叫服务(6)√热线电话咨询(7)其他12.近三年来,您平均每年的医疗费用大概有
2000
元,可以报销
元.13.您对村卫生室的服务满意吗(单选)?(1)很满意(2)√满意(3)一般(4)不满意(5)很不满意14.您对乡镇卫生院的服务满意吗(单选)?(1)很满意(2)满意(3)√一般(4)不满意(5)很不满意[操作步骤](略)第1章SPSS数据编码、录入与保存【练习2】[问题叙述]根据某医院结石患者手术指标数据建立数据库,保存为实验1-2.sav.编号性别肾周积液结石表面积手术时间灌注量肾部位结石侧肾盂压力1女有69.081157400上段105.322男有43.18454500上段110.633女有112.26564900上段170.854男有91.89903500上段120.645男有27.48805000上段130.656女有141.30657000上段140.587男有91.85784700上段132.64……………………第1章SPSS数据编码、录入与保存【练习3】[问题叙述]根据农户调查问卷(共500份),从中随机抽取1份如下农户基本经营状况调查问卷
1.家庭人口状况
总人口其中男性女性劳动力就学人口65岁以上劳动力人口532311家庭户性质:①本地户②外来户
(迁入年份:1988)
2.就业类型:①纯农户②非农户③农兼非④非兼农⑤未就业
第1章SPSS数据编码、录入与保存3.纯农就业者情况
经营范围经营项目安排生产难题做法农产品去向产品出售渠道1.种植业2.养殖业3.林业4.其他1.自家需要2.凭习惯3.随大流4.合同订单5.去年市场行情6.当年市场行情7.政府命令8.其它1.找当地农技人员2.自己找资料学习摸索3.请教有经验的农民4.听天由命5.电视、杂志等媒体6.其他1.自己消费2.小部分出售3.大部分出售4.全部出售1.按合同交货2.卖给加工企业3.卖给商贩4.委托出售5.自己零售6.批发市场7.其他第1章SPSS数据编码、录入与保存4.兼业者从事非农产业情况家里有1人参加非农劳动,是否壮劳力?①是②否业务范围:①工业②建筑业③运输④仓储⑤餐饮业⑥社会服务业⑦其他工作年数
5年,(按整数算,超过半年算一年)投入时间大约占全年工作时间的%
70%收入大约占全年总收入的%
90%
5.是否拥有下列生产工具及设施(如有则划√)
耕牛拖拉机抽水机收割机大棚汽车其它大农具√√√√自家还是合伙购买或租用?1231如有还须选择:自家购买=1,合伙=2,租用=3
第1章SPSS数据编码、录入与保存6.是否拥有下列消费品及生活设施(如有则划√)
彩电电冰箱洗衣机电话手机电脑拨号上网宽带上网轿车摩托车√√√√√√操作要求:(1)根据问卷建立数据库,确定变量个数、变量名称、变量类型、编码方案(2)录入数据并注意缺失值,保存为“1建数据库(调查农户问卷).sav”
第1章SPSS数据编码、录入与保存“数据(Data)”和“转换(Transform)”
2.1数据(Data)菜单的预处理合并文件、排序个案、分类汇总、加权个案.一、合并文件合并文件就是将两个以上文件合并为一个数据文件,包括添加个案和添加变量.☆添加个案,也称纵向合并.常用于变量属性及数目一致情况下,合并多个数据文件中的所有个案.如果录入数据工作量大,不妨先统一做好空白数据文件(定义变量、编码方案),然后传给多个人分批录入个案、保存文件,再由“添加个案”实现逐个文件合并.☆添加变量,也称横向合并.第1章SPSS数据编码、录入与保存学习目标:1、掌握数据文件的合并、排序等常见操作2、掌握变量计算、分类汇总、加权个案等常见操作重点:1、文件合并、排序2、重新编码为不同变量、分类汇总、加权个案第2章SPSS的数据预处理二、排序个案排序个案是将已经录好的数据文件,按一个或多个主次变量进行个案排序.多个变量排序是按所选变量先后依次排序,首先按照主排序变量排序,然后对主排序变量中相同数据再按照第二排序变量排序,直至排序结束.排序还有助于发现缺失值、异常值、极端值,粗略了解数据离散程度.排序会将整个文件中所有个案按照某个变量排序;排序且保存以后数据库将重新排列,如有标识变量(个案编号:如姓名、户名或学号),还可据此重新排序而恢复,否则保存以后就把原来更新覆盖了.第2章SPSS的数据预处理三、分类汇总分类汇总是指对数据文件按照某个变量分类、汇总计算(均值、中位数等).如将专业或性别作为分类变量,汇总成绩均值、身高中位数或体重标准差.多个分类变量也可以同时纳入其中、按照所有可能的交叉类别进行汇总.如将专业和性别作为分类变量,归总计算不同专业+不同性别学习成绩均值.四、加权个案加权个案常用于计数资料的分析.该操作就是相当于告诉软件,当前变量是个经过计数汇总以后的频数变量.今后交叉表或生存分析资料,若输入具有某种特征的人数,则须将其加权处理.一旦对变量加权,若不取消则在此后分析中加权仍然生效;“变量加权以后,软件认定这是个频数变量、计数资料”.第2章SPSS的数据预处理菜单选择:主菜单“数据(Data)”→“加权个案(WeightCases)”.选中“加权个案(Weightcasesby)”按钮,将变量选入”频数变量(FrequencyVariable)”框,点击“确定(OK)”.第2章SPSS的数据预处理【实例1】[问题叙述]某医院2012年11月和12月泌尿科室测量的各15例病人各项基本情况及体征指标.表2-12012年11月15例病人指标数据病人编号分组年龄年龄组性别身高体重收缩压舒张压心率心电图1260311746517.09.06812133121645413.010.07913224121615315.08.07604134111686816.010.06005226111778018.010.07016165321607018.010.0701……………………………第2章SPSS的数据预处理(1)分别建立两个数据文件;合并并另存为“实例2-1.sav”.(2)“实例2-1.sav”按照“分组”升序和“年龄”降序排序,另存为“实例2-1-3.sav”.(3)“实例2-1.sav”以变量“年龄组”为分组变量,按年龄组汇总计算身高、体重、年龄的均值以及收缩压、舒张压、心率的中位数,另存为“实例2-1-4.sav”.[实验目的]理解“数据(Data)”预处理常见命令的作用,掌握数据合并、排序、分类汇总等处理命令的操作实现方法.[操作步骤](1)首先建立两个及以上的数据文件.菜单选择:主菜单“文件(Files)”→“打开(Open)”→“数据(Data)”打开当前的数据文件;主菜单“数据(Data)”→“合并文件(MergeFile)”→“添加个案(AddCases)”.第2章SPSS的数据预处理第2章SPSS的数据预处理第2章SPSS的数据预处理其中“新的活动数据集中的变量”列出两个数据文件中的同名变量,合并以前须满足变量同名且须同类型,否则即使变量同名也无法实现合并.“(*)”、“(+)”表明变量来源,(*)指当前的活动文件,(+)指待合并的文件,系统默认不同名变量具有不同属性.点击“确定(OK)”按钮.另存为数据文件“实例2-1.sav”,如果点击保存则第一个文件就覆盖替代了.(2)菜单选择:主菜单“数据(Data)”→“排序个案(SortCases)”.第2章SPSS的数据预处理图2-4个案排序界面第2章SPSS的数据预处理界面设置:将选变量“分组”进入“排序依据(Sortby)”框,并选“升序(Ascending)”;再选变量“年龄”进入“排序依据(Sortby)”框,并选“降序(Descending)”最后点击“确定(OK)”按钮.表2-3按分组(升序)和年龄(降序)复合排序结果第2章SPSS的数据预处理(3)菜单选择:主菜单“数据(Data)”→“分类汇总(Aggregate)”.第2章SPSS的数据预处理界面设置:将变量“年龄组”选入“分组变量(Breakvariables)”框,将变量“身高”、“体重”、“年龄”、“收缩压”、“舒张压”及“心率”选入“变量摘要”框;点击“函数(Function)”按钮,设置汇总变量的计算函数,每个汇总变量每次只能选择一种函数,系统默认为均值函数.设置“身高”、“体重”及“年龄”的汇总函数为默认,设置“收缩压”、“舒张压”及“心率”的汇总函数为中值,点击“继续(Continue)”按钮;在“保存(Save)”区域,数据集名称为“实例2-1-4”,点击“确定(OK)”按钮.第2章SPSS的数据预处理第2章SPSS的数据预处理2.2转换(Transform)菜单的预处理转换菜单倾向于对数据文件中单个变量进行处理.常用预处理命令:计算变量、重新编码为相同变量、重新编码为不同变量、替换缺失值.一、计算变量(ComputeVariables)计算变量是利用数学表达式或函数产生新变量,并对新变量赋值.1.改变原始数据的分布形态.很多统计方法对数据分布类型有要求,通过计算可对原有的分布类型进行转换,如某个指数函数形式变化的变量,由对数函数y=ln(x)转换为线性函数.类似Excel软件,SPSS软件提供了许多函数,用户需要时可以查用设置.第2章SPSS的数据预处理(1)左上角“目标变量”矩形框中键入目标变量,即新变量.(2)右上角“数字表达式”下矩形框中,设置表达式.(3)左下方矩形框中选择原始变量,单击向右箭头按钮选入,设置表达式.(4)中间计算器有数字、加减乘除乘方和各种关系符号等,设置表达式.公式中须注意单位换算、英文运算符为半角形式.(5)右边中部“函数组”包含18组函数,如算术函数、同积函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数等.2.产生新的变量.计算变量将对所有个案同步执行,新变量及赋值相应出现在数据文件中.第2章SPSS的数据预处理二、变量重新编码(RecodeintoVariables)问题答案可能是正向的,如12345,也可能是反向的,如54321.因此不同问题答案与实际赋值方向不同,须转换为同一方向;或有些连续变量希望输出频数分布表,需要分组,利用变量重新编码实现.两种情况:点值~点值之间的转换、区间范围~点值之间的转换.如满意度赋值“1,2,3,4,5”逆向编码为“5,4,3,2,1”;如成绩“<60”编码为(不及格)“1”、“60~80”编码为(中等)“2”、“81~90”编码为(良好)“3”、“91~100”编码为(优秀)“4”.保存方式有两种:重新编码为“相同变量(RecodeintoSameVariables)”及重新编码为“不同变量(RecodeintoDifferentVariables)”.第2章SPSS的数据预处理此过程将对变量所有个案给出新的编码数值.重新编码为相同变量是将原来数值直接替换覆盖为新的数值,变量名不变;重新编码为不同变量是保留原变量并由新旧数值对应关系,命名为新变量.三、替换缺失值(ReplaceMissingValues)原始数据缺失或错误不可避免,统计分析时会自动过滤缺失数据的个案.替换缺失值就是将缺失数据以某种方式补充完整,但是并不常用.菜单选择:主菜单“转换“(Transform)”→“替换缺失值(ReplaceMissingValues)”.选择有缺失值的变量到“新变量(NewVariables)”框,默认“序列均值(Seriesmean)”(4种替换方法)替换缺失值,在原数据文件中产生已补缺数值的新变量,变量名后默认加“
1”,点击“确定(OK)”按钮.第2章SPSS的数据预处理第2章SPSS的数据预处理四、个案编秩在某些统计分析进程中(比如秩和检验)须对变量按秩进行分析.操作步骤:选择菜单【转换】→【个案排秩…】,出现“个案排秩”对话框.选择对话框左边源变量“结石表面积”进入右边“变量”矩形框中.变量:设定要排秩的变量.新生成的秩变量的名称以原变量名称前加字母“R”的形式出现在原文件中.若选择分组变量,系统将按此变量的不同组别分别进行排秩.例如把“性别”调入排序标准矩形框,那么将会分别按男性和女性,对“结石表面积”排秩.第2章SPSS的数据预处理第2章SPSS的数据预处理【实例2】[问题叙述]自行设计网络成瘾问卷共10题,李克特等级赋值1-5分,共调查学生20名.题目T1T2T3T4T5T6T7T8T9T10011111111111022221311122031122111121041122111121054211333123062222133232072232111144083311211111091112111123……………………………第2章SPSS的数据预处理(1)打分累积网络成瘾总得分,生成一个新变量“网络成瘾得分”.(2)规定评判标准:0~14为1级,正常使用;15~24为2级,使用过度;25~39为3级,成瘾倾向;40~50为4级,成瘾.生成“网络成瘾得分”变量,重新编码生成“网络成瘾等级”变量,自动得到网络成瘾等级,另存为文件“实例2-2.sav”.[实验目的]理解“转换(Transform)”预处理命令,掌握计算变量、变量重新编码及替换缺失值等处理命令的操作实现方法.[操作步骤]
菜单选择:主菜单“转换(Transform)”→“计算变量(ComputerVariable)”.第2章SPSS的数据预处理第2章SPSS的数据预处理界面设置:在“目标变量(TargetVariable)”框输入生成新变量名称,输入“网络成瘾得分”;在“数字表达式(NumericExpression)”框中定义数学表达式,可以通过键盘或计算板输入,也可利用系统函数将变量选入计算.10个变量T1~T10相加;点击“确定(OK)”按钮.表2-6变量计算结果(2)菜单选择:“转换(Transform)”→“重新编码为不同变量”.第2章SPSS的数据预处理第2章SPSS的数据预处理界面设置:选变量“网络成瘾得分”进入“数字变量→输出变量”框,在”输出变量”区域的“名称”处输入“网络成瘾等级”,点击“更改”按钮;点击“旧值和新值”按钮.“旧值”选“范围”输入0,“到”输入49.9999;“新值”选“值”输入1,点击“添加”;(1)”旧值”选“范围,从最低到值”框输入14;“新值”选“值”框输入1,点击“添加”;(2)”旧值”选“范围”框输入15,“到”输入24;“新值”选“值”输入2,点击“添加”;(3)”旧值”选“范围”输入25,“到”输入39;“新值”选“值”输入3,点击“添加”;(4)”旧值”选“范围,从值到最高”输入40;“新值”选“值”输入4,点击“添加”;点击“继续”按钮,点击”确定”按钮.最后另存为文件名“实例2-2.sav”.重新编码过程中,范围包含边界值并组成闭区间,根据实际要灵活设置.第2章SPSS的数据预处理第2章SPSS的数据预处理表2-7重新编码为不同变量结果第2章SPSS的数据预处理【练习1】[问题叙述]从某医院查体中各随机抽取糖尿病患者与正常人各15名.编号性别年龄心率身高(cm)体重(kg)1男7788165652女5665173663女5178165884男8080151685男6276166646男4776183887男6280162728女6881173699女577617568………………编号性别年龄心率身高(cm)体重(kg)16女50701625517男52751839018女63781626019男75801738820男62761657221女49801514922男53811666823女57761556424女74-16565………………第2章SPSS的数据预处理(1)数据文件“实验2-1-1.sav”和“实验2-1-2.sav”,合并并另存为“实验2-1.sav”.(2)按“性别”升序和“年龄”降序对个案进行排序.(3)按“性别”分组对年龄、身高、体重汇总,计算年龄、身高及体重均值,心率中位数.(4)计算体重指数(体重指数=体重/身高2,单位kg/m2),按照公式生成“体重指数”变量.(5)对变量“心率”缺失值,按序列均值补缺.(6)按变量“年龄”分组,≤50为1组、51~60为2组、61~70为3组、≥71为4组,生成变量“年龄组”,另存为“实验2-1-3.sav”.第2章SPSS的数据预处理数据资料有计量资料和计数资料两种类型.数据资料描述性分析是基础,主要包括频数(频率)分布表、分布图直观分析、指标特征描述分析,便于认识数据资料基本特征,以及进一步推断分析.一、核心知识1、数据资料(1)分类资料特点是以不同类别选项表示.★定类资料:等级最低,仅给出互不相容的类别并标注名称.这些类别可用文字表示,也可用数值编码表示;事物按属性分类或分组.数值本身无实质差异性,仅是区分不同类别的一种标记符号;类别虽有属性类别之分,但无大小程度之别.运算特点:“=,≠”.第2章SPSS的数据预处理学习目标:1、掌握频数分析、统计图2、掌握描述统计量的计算3、掌握交叉分组的频数分析重点:1、频数分析、统计图2、常见描述统计量的计算3、交叉分组的频数分析第3章数据资料的描述性分析二项分类如性别男女、病人生存与死亡;多项无序分类,如血型分为A、B、AB、O;例:户口、民族、职业、专业、婚姻状况等.未婚=1、已婚=2、离婚=3、丧偶=4;血型为O型,A型,B型和AB型.★定序资料:数据表现为“类别”但有序.事物按等级或程度顺序计量,类别取值反映排列次序;既有属性类别之分、也有大小程度之别.但是每个相邻数值间的距离并非程度差异的真实反映.运算特点:=,≠,>,<.例:疗效分为显效、有效、好转和无效,糖尿病分为-、+、++、+++.例:满意度(非常不满意=1,不满意=2,中立=3,满意=4,非常满意=5);考试等级优、良、中、及格、不及格;成绩名次(第1,第2,第3,…)第3章数据资料的描述性分析(2)定量资料又称数值资料,是以具体数值与特定计量单位的连续型数据,也可以是无单位计数尺度数据,例如血清胆固醇含量3.0~6.5mmol/L为区间内连续变化实数,脉搏或红细胞计数为一系列的离散点值.★定距资料:数值大小反映排列次序,无绝对意义上的0点.数学运算特点:=,≠,>,<,+,-.例:温度,年历,智商,海拔等.如25与20度之间相差5度,15度与10度差5度;但是不能说30度比15度热一倍!★定比资料:等级最高,数值大小反映排列次序和倍数.相邻取值之间是等距的;有绝对0点.数学运算特点:=,≠,>,<,+,-,×,÷.例:年龄,身高,体重,收入等.第3章数据资料的描述性分析2、描述分析(1)数值资料描述性统计.集中趋势指标有均数、中位数、四分位数、百分位数及众数等;离散趋势指标有方差、标准差、极差、四分位间距及变异系数等.第3章数据资料的描述性分析近似正态分布资料可用均数±标准差描述特征;偏态分布资料可用中位数±四分位数间距描述特征.数据个数较少时,直接观察原始数据就能了解所有信息;数据量如果超出直接处理和记忆,可将原始数据分组汇总为计数资料分析.(2)计数资料常用构成比、率和相对比描述特征,通过绘图直观演示.第3章数据资料的描述性分析对于两个分组或分类的计数资料,还可通过分类交叉表进行描述性分析.二、实验目的1.理解均数、中位数、众数及四分位数的含义,掌握集中趋势指标操作方法;2.理解方差、标准差、极差及四分位间距的含义,掌握离散趋势指标操作方法;3.理解构成比、率和相对比的含义,掌握相对数计算和统计图绘制的操作方法.4.理解交叉表的含义,掌握行列分类交叉表的操作方法.三、案例分析【实例1】[问题叙述]已知56例成年男性测定血清胆固醇水平资料,单位mmol/L.第3章数据资料的描述性分析3.214.035.246.273.546.525.425.015.125.253.212.543.332.363.683.473.513.554.324.524.024.306.016.236.276.354.274.324.525.246.273.546.525.425.425.015.254.023.216.414.306.013.473.513.553.556.325.124.324.525.423.514.324.524.524.02(1)计算集中趋势和离散趋势指标:计算算术均数、中位数、四分位数、众数、方差、标准差、极差、四分位间距和变异系数.了解数据分布的偏度和峰度.(2)数据资料统计分组为6组:[0,3)、[3,4)、[4,5)、[5,6)、[6,7)、[7,+∞),分组计算频数、构成比,绘制饼图、直方图.(3)绘制箱线图和茎叶图(简单了解).第3章数据资料的描述性分析
[操作步骤]建立数值变量“血清胆固醇”,录入数据.(1)点击主菜单“分析”,点击“描述统计”,点击“交叉表”.选择变量“血清胆固醇”进入“变量”框;点击“统计量”.选“均值”、“中位数”、“众数”、“方差”、“标准差”、“极差”等;点击“继续”,点击“确定”.第3章数据资料的描述性分析血清胆固醇N有效56缺失0均值4.6014中值4.4200众数4.52标准差1.11240方差1.237偏度.184全距4.16百分位数253.5500504.4200755.4200(2)点击主菜单“转换”,点击“重新编码为不同变量”.将变量“血清胆固醇”选入“数字变量”,点击输出变量”框,在“输出变量”区域的“名称”处输入“分组”,点击“更改”,完成输出变量名称的定义.第3章数据资料的描述性分析第3章数据资料的描述性分析第3章数据资料的描述性分析“旧值”选“范围”输入0,“到”输入2.9999;“新值”选“值”输入1,点击“添加”;“旧值”选“范围”输入3,“到”输入3.9999;“新值”选“值”输入2,点击“添加”;“旧值”选“范围”输入4,“到”输入4.9999;“新值”选“值”输入3,点击“添加”;“旧值”选“范围”输入5,“到”输入5.9999;“新值”选“值”输入4,点击“添加”;“旧值”选“范围”输入6,“到”输入6.9999;“新值”选“值”输入5,点击“添加”;“旧值”选“范围,从值到最高输入7;“新值”选“值”输入6,点击“添加”;点击“继续”,返回,点击“确定”.对变量“成绩段”,值标签设置编码:1=“[0,50)”、2=“[50,60)”、3=“[60,70)”、4=“[70,80)”、5=“[80,90)”、6=“[90,100]”.第3章数据资料的描述性分析第3章数据资料的描述性分析点击主菜单“分析”,点击“描述统计”,点击“频率”.选择变量“分组”,点击“继续”;点击“确定”.第3章数据资料的描述性分析表2频数及构成比分组频数百分比有效百分比累积百分比有效[0,3)23.63.63.6[3,4)1526.826.830.4[4,5)1628.628.658.9[5,6)1221.421.480.4[6,7)1119.619.6100.0合计56100.0100.0经分析,落在[0,3)、[3,4)、[4,5)、[5,6)、[6,7)、[7,+∞)区间范围中的各组频数分别为2、15、16、12、11,共56例.各组构成百分比为3.6%、26.8%、28.6%、21.4%、19.6.第3章数据资料的描述性分析点击“图表”,点击绘制饼图或直方图(带正态曲线).第3章数据资料的描述性分析定类资料由饼图或条形图表示.血清胆固醇属于定序资料,直方图描述也很合适.(3)绘制箱线图和茎叶图(仅作了解).点击主菜单“分析”,点击“描述统计”,点击“探索”.将血清胆固醇选入右边的因变量列表,点击“绘制”按钮.第3章数据资料的描述性分析第3章数据资料的描述性分析“箱图”中默认点选“按因子水平分组”,“描述性”中点选“茎叶图”第3章数据资料的描述性分析【实例2】[问题叙述]由数据库获得性别与职业、糖尿病与疗效的分类交叉表描述性分析,即汇总交叉类别之间的频数、行类别的百分比和列类别的百分比.见NO3建数据库(病历复杂资料简表).sav.编号籍贯(填空)字符型性别(选择)数值型年龄(选择)数值型血型(选择)数值型职业(选择)数值型糖尿病史(选择)数值型总胆固醇(选择)数值型疗效(选择)数值型1山东男58B工人无5.33有效2广西男69O商人无4.63好转3山东男58B工人无5.33有效4湖北女42A商人无6.12显效5天津男43O农民有4.54好转第3章数据资料的描述性分析[操作步骤]
点击主菜单“分析”,点击“描述统计”,点击“交叉表”.选择变量“性别”进入行列表框;选择变量“职业”进入行列表框.第3章数据资料的描述性分析点击“单元格”.第3章数据资料的描述性分析点击计数中的“观察值”、点击百分比中的“行”、“列”,点击“继续”.性别*职业交叉制表职业合计工人农民商人性别男计数2041741性别中的%48.8%9.8%41.5%100.0%职业中的%66.7%33.3%81.0%65.1%女计数108422性别中的%45.5%36.4%18.2%100.0%职业中的%33.3%66.7%19.0%34.9%第3章数据资料的描述性分析(2)点击主菜单“分析”,点击“描述统计”,点击“交叉表”.选择变量“糖尿病史”进入行;选择变量“疗效评定”进入列,点击“单元格”.第3章数据资料的描述性分析点击计数中的“观察值”、点击百分比中的“行”、“列”、“总数”,点击“继续”.疗效评定合计无效好转有效显效糖尿病史无计数81720449糖尿病史中的%16.3%34.7%40.8%8.2%100.0%疗效评定中的%100.0%81.0%100.0%28.6%77.8%总数的%12.7%27.0%31.7%6.3%77.8%有计数0401014糖尿病史中的%.0%28.6%.0%71.4%100.0%疗效评定中的%.0%19.0%.0%71.4%22.2%总数的%.0%6.3%.0%15.9%22.2%第3章数据资料的描述性分析【练习1】[问题叙述]已知某校某班级60名学生医药数理统计课的期末成绩.836780718162737557869664894791896683847972746196826994817057838578549979647784997692797294865381936985637866778180698376求该班级的平均成绩、标准差、极差、中位数、四分位数间距;设置分数段为6段,[0,50)、[50,60)、[60,70)、[70,80)、[80,90)、[90,100].按分数段统计人数,计算各分数段构成比,绘制直方图.第3章数据资料的描述性分析建立数值变量“学生成绩”,录入并建立数据库.菜单选择:点击主菜单“转换”,点击“重新编码为不同变量”.将变量“学习成绩”选入“数字变量”,点击“输出变量”框,在“输出变量”区域的“名称”处输入“成绩段”,点击“更改”,完成输出变量名称的定义.点击“旧值和新值”.“旧值”选“范围”输入0,“到”输入49.9999;”新值”选“值”输入1,点击“添加”;“旧值”选“范围”输入50,“到”输入59.9999;”新值”选“值”输入2,点击“添加”;“旧值”选“范围”输入60,“到”输入69.9999;”新值”选“值”输入3,点击“添加”;“旧值”选“范围”输入70,“到”输入79.9999;”新值”选“值”输入4,点击“添加”;“旧值”选“范围”输入80,“到”输入89.9999;”新值”选“值”输入5,点击“添加”;“旧值”选“范围”输入90,“到”输入100;”新值”选“值”输入6,点击“添加”;第3章数据资料的描述性分析点击“继续”,返回,点击”确定”.第3章数据资料的描述性分析第3章数据资料的描述性分析对变量“成绩段”,值标签设置编码:第3章数据资料的描述性分析
(2)主菜单“分析”→“描述统计”→“频率”.点击主菜单“分析”,点击“描述统计”,点击“频率”.选择变量“学习成绩”进入“变量”框;点击“统计量”按钮,得统计量设置界面:选“标准差”、“范围”、“均值”、“中位数”、“四分位数”,点击“继续”.返回,点击取消“显示频率表格”,点击“确定”.第3章数据资料的描述性分析
[结果分析]N有效60缺失0均值77.23中值79.00标准差11.934全距52百分位数2569.005079.007584.7560名学生学习成绩的均值为77.23,中位数为79.00,标准差为11.934,极差为52,四分位间距为84.75-69.00=15.75.第3章数据资料的描述性分析主菜单“分析”→“描述统计”→“频率”.变量“学习成绩”选入“变量”框.单击“图表”按钮,选择“直方图”,选“带正态曲线”,点击“继续”;点击“确定”.第3章数据资料的描述性分析主菜单“分析”→“描述统计”→“频率”;变量“成绩段”选入“变量”框.第3章数据资料的描述性分析单击“图表”按钮,选择“条形图”,点击“继续”;点击“确定”.
[结果分析]成绩段频数百分比有效百分比累积百分比有效[0,50)11.71.71.7[50,60)46.76.78.3[60,70)1118.318.326.7[70,80)1626.726.753.3[80,90)1931.731.785.0[90,100]915.015.0100.0合计60100.0100.0第3章数据资料的描述性分析各组段的频数分别为1、4、11、16、19、9;各组段构成百分比分别为1.7%、6.7%、18.3%、26.7%、31.7%、15.0%.按学习成绩绘制直方图、按成绩段绘制饼图:第3章数据资料的描述性分析【练习2】[问题叙述]根据资料作如下描述性分析:(1)计算结石表面积、结石侧肾盂压力的均数和标准差;(2)计算手术时间、灌注量的中位数和四分位间距;(3)绘制性别、肾部位、肾周积液(有无)的频数及构成比分布表和饼图.编号性别肾周积液结石表面积手术时间灌注量肾部位结石侧肾盂压力1女有69.081157400上段105.322男有43.18454500上段110.633女有112.26564900上段170.854男有91.89903500上段120.645男有27.48805000上段130.656女有141.30657000上段140.58第3章数据资料的描述性分析【练习3】[问题叙述]调查表中已知学生的学习情况、午餐地点,性别中对学习情况进行交叉频数和百分比分析、午餐地点中对性别进行交叉频数和百分比分析.注:数据库文件见“NO3交叉表分析(性别学习午餐).sav”.性别*学习情况交叉制表学习情况合计优秀良好中等较差性别男计数616249124296性别中的%20.6%20.9%16.6%41.9%100.0%女计数3520811249404性别中的%8.7%51.5%27.7%12.1%100.0%合计计数96270161173700性别中的%13.7%38.6%23.0%24.7%100.0%第3章数据资料的描述性分析性别*午餐地点交叉制表午餐地点合计宿舍餐厅大服性别男计数7617149296午餐地点中的%60.3%37.5%41.5%42.3%女计数5028569404午餐地点中的%39.7%62.5%58.5%57.7%合计计数126456118700午餐地点中的%100.0%100.0%100.0%100.0%第3章数据资料的描述性分析学习目标:1、掌握单样本t检验、独立样本t检验、配对样本t检验3、掌握单因素方差分析及其两两比较重点:1、样本t检验、独立样本t检验、配对样本t检验2、单因素方差分析及其两两比较第4章总体均值的参数假设检验一、核心知识统计推断规则:
给定显著性水平
(0.01、0.05),根据抽样分布(N(0,1)、t分布)查表得临界值和拒绝域;服从该分布的统计量值与临界值比较大小;作出推断,双侧检验:|统计量|≥临界值,落入拒绝域,拒绝H0.P值的意义:H0成立情况下,超出统计量值的概率(尾部面积);第4章总体均值的参数假设检验若P≤
,拒绝原假设H0;P值越小则拒绝理由越充分.若P>,不拒绝原假设H0;P值越大则不拒绝理由越充分.“假设→确定统计量、求值→查表确定P值→与显著性水平
比较→结论分析”.1、t检验知识样本数据属于数值资料类型,可以通过已知的样本信息,对总体均值与常数、或总体均值之间差异性比较推断,大致有三种:1.1单样本t检验单个总体均数未知,通过观察位置总体中一组样本值,对总体均数是否等于某个常数做出判断,称为单样本t检验.通过样本数据检验总体均值与已知总体均值(常数)差异是否有统计学意义.第4章总体均值的参数假设检验原假设H0:总体均值与某常数相等;(1)数值型,且若已知总体正态分布,总体方差未知,对样本容量没有限制;(2)总体非正态分布,总体方差未知时,大样本也可以适用.1.2两个独立样本t检验完全随机设计:在两个独立总体中随机抽取样本,或将同质受试对象随机分配到不同处理组,观察实验效应(指标),由此推断两组总体差异是否有统计学意义.两组样本容量不必相同,组中数据随机排列、无顺序可言.两个总体均值均未知,通过独立样本组,对两个总体均数是否相等做出判断,用两个独立样本t检验.通过两个独立样本数据检验两个独立总体均值差异是否有统计学意义.第4章总体均值的参数假设检验原假设H0:两个总体均值相等.须满足条件:(1)资料类型为数值型,所在总体服从正态分布;(2)两个样本所在总体方差未知(齐性?非齐性?);(3)两个样本相互独立.两步实施:(1)先检验两个总体方差的齐性.(2)再根据两个总体方差是否齐性,决定检验统计量和自由度.第4章总体均值的参数假设检验1.3两个配对样本t检验配对设计:将条件相同或相近的受试对象配成对子,再将每对中的两个受试对象随机分配到不同处理组.可以节约样本,又排除受试对象非处理因素(混杂因素)影响,尽量突显处理因素作用,配对设计可增强组间的均衡性,从而提高了处理因素的实验效能.(1)同质受试对象配成对子分别接受两种不同处理;(2)同一受试对象接受处理前后.配对比较:两组样本容量相同、一一对应、不能打乱对子内的排列顺序.第4章总体均值的参数假设检验“对子数据”的差值序列为直接计算依据,而原始数据是间接计算依据.两个总体均数均未知,通过两组相关样本,对两个总体均值是否相等做出判断,用配对样本t检验.旨在通过样本数据检验两个配对总体均值差异是否有统计学意义.原假设H0:两个总体均值之差为0.须满足条件:(1)资料类型为数值型,且两个样本所在总体服从正态分布;(2)两个样本所在总体的方差未知;(3)两个样本为配对样本.第4章总体均值的参数假设检验2、方差分析知识分析完全随机设计的多个独立总体均数差异是否有统计学意义.处理结果称为效应,影响处理结果的条件称为因素.因素所处的不同状态(三个及以上)称为该因素的水平.由各水平样本效应情况来推断各水平总体效应之间的差异,确定该因素对处理结果的影响是否有统计学意义.原假设H0:多总体均值相等.基本原理:全部观察值间总变异(总离均差平方和)分解成组间变异和组内变异,总的自由度也相应分解成组间自由度和组内自由度;组间变异体现随机误差和处理因素的作用,组内变异表示随机误差的影响;继续算出各部分的均方,构造F检验统计量,比较处理因素在各组间有无差异.第4章总体均值的参数假设检验须满足条件:(1)各组样本随机独立;(2)各组样本来自正态总体;(3)相互比较的各组样本总体方差相等.拒绝原假设(总体均数全部相等)时,一般要进行两两比较:几个实验组与对照组比较时可用Dunnett法;实验次数较少时可用LSD法;多个均数间两两比较进行探索性研究;试验次数不多时可用S-N-K法;各组试验数相等时可用Tukey或Bonferroni法(实验组数<5);各组试验数不等时可用Scheffe法.第4章总体均值的参数假设检验注意:两两比较方法有多种,它们之间各有优缺点且没有绝对替代性,有些情况下甚至不须严格选择,得出结论之间也有略微差别;大家可以查书但不必重点关注.在各组不满足方差齐性条件时,软件给出了两两比较近似方法.二、实验目的1.掌握单组总体均值与常数差异是否有统计学意义的t检验操作方法;2.掌握两组独立总体均值差异是否有统计学意义的t检验操作方法;3.掌握两组配对总体均值差异是否有统计学意义的t检验操作方法;4.掌握多组总体均值差异是否有统计学意义的方差分析操作方法.第4章总体均值的参数假设检验三、案例分析【实例1】[问题叙述]厂家宣称某种药剂的平均有效期是21.5天,现在从生产线上随机抽样检测药剂共6只,有效期分别为:19、18、22、20、16、25.请由此样本推断,现在生产线上的药剂有效期是否与厂家宣称有差别?菜单选择:主菜单“分析”→“比较均值”→“单样本T检验”.界面设置:选择变量“药剂有效期”进入“检验变量”框;将常数21.5输入“检验值”框,点击“确定”.[操作步骤]一个(或多个)检验变量,变量类型为数值型;一个已知总体均值(常数).定义数值型变量“药剂有效期”,将所有数据录入;已知总体均值为21.5.第4章总体均值的参数假设检验第4章总体均值的参数假设检验[结果分析]
单个样本统计量N均值标准差均值的标准误药剂有效期620.00003.162281.29099单个样本检验检验值=21.5tdfSig.(双侧)均值差值差分的95%置信区间下限上限药剂有效期-1.1625.298-1.50000-4.81861.8186第4章总体均值的参数假设检验经分析,6只药剂有效期样本均值为20.0000,标准差为1.29099.在单样本t检验中,统计量t值为-1.162,对应的概率值P=0.298,远大于显著性水平
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论