




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SPSS统计分析基础教程(第2版)第一章SPSS概述第一节SPSS的发展及特点SPSS的发展SPSS最早的全称是StatisticalPackagefortheSocialSciences,即社会科学统计程序包,是世界公认的最优秀的统计分析软件包之一。1968年,美国斯坦福大学的三位研究生开发了最早的统计分析软件SPSS,并于1975年在芝加哥成立了SPSS公司。SPSS原是为大中型计算机开发的,面向企事业单位用户。
80年代初,微机开始普及以后,它率先推出了微机版本(统称为SPSS/PC版),占领了微机市场,大大地扩大了自己的用户量。
90年代,Microsoft推出操作系统Windows后,SPSS迅速向Windows移植(统称为SPSSforWindows版)。2000年正式将英文全称更改为
StatisticalProductandServiceSolutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。
2009年4月9日在美国的芝加哥SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(PredictiveAnalyticsSoftware)PASW,包括四部分:*PASWStatistics(SPSSStatistics):统计分析
*PASWModeler(Clementine):数据挖掘
*DataCollectionfamily(Dimensions):数据收集
*PASWCollaborationandDeploymentServices(PredictiveEnterpriseServices):企业应用服务
2009年7月28日,IBM以12亿美元现金收购统计分析软件公司SPSS。具体的收购方式为,IBM以每股50美元的价格收购SPSS,该交易全部以现金形式支付。
SPSS在2009年10月2日召开特别股东大会投票表决通过了有关该公司出售给IBM的交易。
IBM成功收购SPSS后,其名称又发生了改变,总称为IBMSPSS,包括四个部分:*IBMSPSSStatistics(SPSSStatistics):统计分析(ISS)
*IBMSPSSModeler(Clementine):数据挖掘(ISM)
*IBMSPSSDataCollectionfamily(Dimensions):数据收集
*IBMSPSSCollaborationandDeploymentServices(PredictiveEnterpriseServices):企业应用服务
一、功能强大(1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位的统计学算法,为各种研究提供了相应的统计学方法。(2)提供了各种数据准备与数据整理技术。(3)自由灵活的表格功能。(4)各种常用的统计学图形。二、SPSS的实验环境要求(1)系统运行环境SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。(2)辅助软件环境三、SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口。
四、SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜单中的StatisticsCoach命令,选择所需要的统计指导。SPSS附加模块功能SPSSAdvanced一般线性模型、混合线性模型、对数线性模型、生存分析等SPSSCategories对应分析、感知图、Proxscal等SPSSComplexSample多阶段复杂抽样技术等SPSSConjoint正交设计、联合分析等,适用于市场研究SPSSExactTest精确P值计算、随机抽样P值计算等SPSSMaps在地图上展示数据等SPSSMissingValueAnalysis缺失数据的报告与填补等SPSSRegressionLogistic回归、非线性回归、Probit回归等SPSSTables交互式创建各种表格(如堆积表、嵌套表、分层表等)SPSSTrendsArima模型、指数平滑、自回归等五、SPSS的运行方式SPSS提供了3种基本运行方式:完全窗口菜单方式,程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。1.1.2spss的安装一、启动Windows后,把SPSS系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。二、双击Setup.exe文件,安装程序向导将给出每一步操作的提示。在出现[Welcome(欢迎)]窗口后,选择[Next]进入下一步。三、安装程序显示[SoftwareLicenseAgreement]对话框时,选择[Yes]接受显示的协议条款。1.2spss操作入门1.2.1spss软件的启动与退出单击Windows的[开始]按钮,在[程序]菜单项[SPSSforWindows]中找到[SPSS20.0forWindows]并单击。1.2.2SPSS的5个窗口(1)数据编辑窗口(SPSSDataEditor)Spss处理数据的工作全在此窗口进行。(2)结果管理窗口(SPSSOutputviewer)此窗口用于存放分析结果。左边是目录区,右边是内容区。(3)草稿结果窗口(SPSSDraftViewer)草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。(4)语法编辑窗口(SPSSSyntaxEditor)(5)脚本窗口(SPSSScriptEditor)1.2.3SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件,然后选择菜单FileOpenfile。然后,利用菜单AnalyzeDescriptiveStatisticsFrequencies,二、程序方式在Syntax编辑窗口中键入以下程序:Getfile=‘c:\programfiles\spss\employeedata.sav’.Frequenciesvariables=jobcat/order=analysis。只需要选择菜单RunAll,运行该程序也一样会出现相同的分析结果。三、Include命令方式当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个Syntax文件的内容;或者发现所需要的程序语句其实是几个Syntax文件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产一个新的Syntax文件外,还可以利用Include命令。Include‘c:\sytaxsample.sps’.四、spssProductionFaccility方式在Windows的程序菜单中,spss菜单组除了有“spssforwindows”项之外,还有一个“spssproductionfacility”。(1)单击Syntax框下的“Add”按钮,到C盘根目录下打开“syntaxsample”。(2)单击Syntax框下的“Edit”按钮,对程序进行编辑。(3)单击右下角的“uesrprompts”按钮,添加对程序的交互分析界面。(4)单击“Browse”按钮制定结果保存路径,单击“exportoptions”按钮还可以制定结果保存格式。1.2.4spss的四种输出结果1、表格格式2、文本格式3、标准图与交互图4、结果的保存和导出第2章数据录入与数据获取本章主要解决两个问题:第一个问题,根据问题类型的不同,将会从开放题、单选题和多选题的录入方式为例进行介绍。第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数据,以及如何用ODBC接口读取数据库文件。什么是消费者信心指数消费者信心(ConsumerConfidenceorConsumerSentiment)是指消费者根据国家或地区的经济发展形势,对就业、收入、物价、利率等问题的综合判断后得出的一种看法和预期消费者信心指数(ConsumerSentimentIndex,CSI)的概念和方法是由美国密歇根大学调查研究中心的乔治卡通纳(GeorgeKatona)在上世纪40年代后期提出的。消费者的看法、态度和预期这些心理的直接感受决定了他们的消费支出计划。对消费者心理及其变动的测度就是对消费总量变动测度的一个补充。根据消费者调查结果可以计算消费者情绪指数(ConsumerSentimentIndex),又称“消费者信心”。@文彤老师282025年3月19日消费者信心指数背后的经济学原理居民在决策家庭的开销,特别是购买诸如住宅、汽车等耐用商品时,是经过深思熟虑才决定的。不仅是以目前的经济条件为基础,同时结合了对未来收入、就业、物价、利率变动等因素的判断和预期六十多年的时间已经充分验证了上述理论在解释宏观经济现状时的有效性与合理性2025年3月19日@文彤老师29密歇根大学消费者信心指数的价值已得到实际证明是预测宏观经济走向的精确指标
消费者总体信心可预测GDP增长趋势(平均领先3个季度,相关系数0.9)
消费者就业信心可预测实际失业率(平均领先3个季度,相关系数0.8)
消费者的物价预期可预测实际通胀率(平均领先1个季度,相关系数0.9)
消费者购车信心可预测实际汽车销量(平均领先2个季度,相关系数0.73)
密歇根大学消费者信心指数对美、欧股市以及美国政府的经济政策有直接影响
已列入美国商务部发布的主要综合指标,并被各大媒体广泛引用
前美国联邦储备委员会主席格林斯潘就曾表示,他非常重视消费者信心指数在美国及全球各大消费品生产商中广泛使用,用于预测销量及利润
全球各国的消费者信心指数研究方式大致相同,其理论基础均源于密歇根大学的研究方法,指数有效性在各国已得到广泛验证
中国消费者信心调研遵循了美国密歇根大学消费者信心调研的方法学,并根据中国国情进行了修正和深化,是密歇根大学消费者信心调研的中国版2025年3月19日@文彤老师30中国消费者信心调研(ChinaConsumerSentimentSurvey,CCSS)每月进行的、反映中国消费市场状况及消费者对家庭经济及宏观经济信心的独立第三方调研目前属于全球最大的德交-泛欧-纽交集团旗下产品中国消费者信心调研的研究方法是在美国密歇根大学社会研究院消费者信心调查课题组负责人RichardCurtin博士的协助与指导下完成的月度总信心指数现状指数预期指数当前家庭经济状况耐用品消费未来1年家庭经济预期未来1年宏观经济预期未来5年宏观经济预期行业分类指数耐用品购买房地产证券投资汽车消费消费者物价感受及预期消费者利率预期……中国消费者信心调研(CCSS)包括以下方面:2025年3月19日@文彤老师31中国消费者信心调研的研究方法发布频率每月一次数据采集方式CATI(电脑辅助电话访问),随机抽样,第一手调研样本选择18-64岁中国城市居民,家庭开支或投资决策者抽取中国经济最发达的30个城市代表中国1/7的人口与1/3的GDP访谈时间长度10~15分钟问卷问题数量不少于30题样本量每月不少于1,000样本2025年3月19日@文彤老师32中国消费者信心指数研究问卷S0受访者所在城市:100北京200上海300广州S1请问您贵姓是?___S2记录被访者性别:1男性2女性S3请问您的十足年龄是?___S4请问您的学历是?1初中/技校或以下2高中/中专3大专4本科5硕士或以上2025年3月19日@文彤老师33中国消费者信心指数研究问卷C0请问您的家庭目前有下列还贷支出吗?C0_1房贷1有2无99拒答C0_2车贷1有2无99拒答C0_3其他一般消费还贷1有2无99拒答
A3首先,请问与一年前相比,您的家庭现在的经济状况怎么样呢?是变好、基本不变还是变差?
1明显好转2略有好转3基本不变
4略有变差5明显变差9说不清/拒答
A3a为什么您这样说呢?(最多限选两项)___0中性原因 90不知道/拒答10改善:收入相关 110恶化:收入相关20改善:就业状况相关 120恶化:就业状况相关30改善:投资相关 130恶化:投资相关40改善:家庭开支相关 140恶化:家庭开支相关50改善:政策/宏观经济 150恶化:政策/宏观经济相关2025年3月19日@文彤老师342.1.1统计软件中数据的录入格式(1)不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。(2)每一个观测量指标或影响因素只能占据一列的位置,即同一指标的数量观测值都应当录入到同一个变量中去。2.1数据格式概述即:一个观测占一行,一个变量占一列在录入数据时,归纳为以下三步:第一步:定义变量名;第一步:指定每个变量的各种属性;第一步:录入数据。变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2变量属性介绍一、变量的储存类型SPSS中,变量有三种的基本类型:数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型:数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。日期型用户自定义型字符型:字符型数据的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。日期型:日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上,SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。关于日期型格式的几点说明:“m”在年与日(字母y与d)之间表示月份;在时与秒(字母h与s)之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式,不一定在输入时就使用指定的格式。可以输入用“/”或“—”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为指定的格式,显示在单元各种。二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。(1)定类尺度(NominalMeasurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比较各类之间的大小,所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。(2)定序尺度(OrdinalMeasurement):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。(3)定矩尺度(IntervalMeasurement):定矩尺度是对事物类别或次序之间间距的测度。特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定居变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。(4)定比尺度(ScaleMeasurement):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。特点:定必变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的特点,因此它可以进行加、减、乘、除运算,而定居变量值可进行加减运算。三、变量名与变量标签值Label:定义变量名标签Value:定义变量值标签四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失值为零。2.2数据的直接录入2.1.1操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条DataView表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。VariableView表用来定义和修改变量的名称、类型及其他属性,如图所示。如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。在VariableView表中,每一行描述一个变量,依次是:Name:变量名。变量名必须以字母、汉字及@开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。Type:变量类型。变量类型有8种,最常用的是Numeric数值型变量。其它常用的类型有:String字符型,Date日期型,Comma逗号型(隔3位数加一个逗号)等。Width:变量所占的宽度。Decimals:小数点后位数。Label:变量标签。关于变量涵义的详细说明。Values:变量值标签。关于变量各个取值的涵义说明。Missing:缺失值的处理方式。Columns:变量在DateView中所显示的列宽(默认列宽为8)。Align:数据对齐格式(默认为右对齐)。Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件:SPSSDOS版本产生的数据文件*.sys;Excel报表程序产生的数据文件*.xls;DBASE数据库格式文件*.dbf;SAS统计软件产生的数据文件。2.2.2开放题和简单单选题的录入一、在spss中定义变量录入数据的第一步是定义变量属性,随后才能进行数据录入。二、开放题的录入三、单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.3多选题的录入一、多重二分法(MultipleDichotomyMethod)所谓多重二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。二、多重分类法(MultipleCategoryMethod)多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。三、多选题录入在spss中的实现2.3外部数据的获取SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利用文本导向读入文本数据以及利用数据库OBDC接口读入数据。2.3.1电子表格数据如何导入spss中SPSS中可以直接读入许多常用格式的数据文件,选择菜单FileOpenData或直接单击快捷键工具栏上的快捷按钮,系统就会弹出OpenFile对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。2.3.2文本数据如何导入spss中第一步:首先,在OpenFile文件框中选中文件,单击“打开”,系统会自动启动文本倒入向导对话框。第二步:选择“NO”并单击“下一步”按钮。用某种字符区分固定宽度第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。第四步第五步第六步第七步2.4数据的保存2.4.1存为spss格式2.4.2存为其他数据格式第3章数据管理3.1变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。
计算新变量:就是用Compute过程。
变量转换:包括Recode、VisualBander、Count、RankCase、AutomaticRecode这五个过程。
专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。
RunPendingTransforming:用于执行编程中被挂起的数据整理操作。计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续变量进行分段3.1.1计算新变量计算新变量的功能就是在原有spss数据文件的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足SPSS条件表达式的记录,计算出一个新结果,并将结果存入一个用户指定的变量中。一、常用基本概念(1)spss算术表达式
spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。(2)spss函数
spss提供了多达70多种函数,分为八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。(3)spss条件表达式通过spss的算术表达式和函数可以对所有记录计算一个结果,如果仅希望对部分记录进行计算,则应当利用spss的条件表达式指定对那些记录进行计算。二、compute过程的分析实例例3.1统计英语成绩在60分以上的学生的数学和语文的平均成绩。例3.2计算工人工资的所得税。学生自己练习。3.1.2对变量值进行分组合并一、对连续变量进行分组在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。Recode过程和VisualBander过程都可以完成这一任务,但前者给为简单和常用。例3.3
当学生英语成绩小于60时取值为“不及格”,大于等于60且小于70为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”,将grade的等级“不及格”转换为“NOPASS”。3.1.3连续变量的可视化分段VISUALBander用于将连续变量进行分段,该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。例3.4对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分以下为第一组,60分以上的按照等间距的方式分为4组。3.1.4将字符变量转换为数值变量用automaticrecode将字符变量转换为数值变量。3.1.5变量的编秩所谓编秩,就是对记录按照某个变量值大小来排序。Rankcase过程就是用来排序的一个专用过程。例:根据性别分组计算数学成绩的秩次。3.1.6Transform菜单中的其它功能(1)count过程如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。先在TargetVariable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到NumericVariables框中,再单击DefineValues按纽,打开ValuetoCount对话框。Value:输入某个值为清点对象;System-missing:以系统的缺失值为清点对象;System-orusermissing:以系统或用户指定的缺失值为清点对象;Range:指定数值的计数区域:其中包括:()through()在框内指定下限和上限lowestthrough():在框内只指定上限;()highestthrough:在框内只指定下限。(2)randomNumberSeed过程:用于设定伪随机函数的随机种子。3.2文件级别的数据管理(一)数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。(1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。(2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。(3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数据字典直接引入当前数据文件。(4)数重构过导向:用于进行数据转置,或者对重复测量数据表进行长型、宽型记录间的转换。(5)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。(6)正交设计过程:实际上是联合分析模块的一部分,用于生成实施联合分析所需要的设计。(7)其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录导向。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权3.2.1记录排序一、排序的两种方法:(1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sortAscending”和“SortDescending”。(2)对于多变量排序,则需要使用SortCases过程来进行。二、多变量排序需要注意的三点:(1)在多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。(2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。(3)排序以后,原来记录数据的排列次序将被打乱。3.2.2记录拆分SplitFile分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。3.2.3记录筛选SelectCases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。Allcase:选择所有数据;Ifconditionissatisfied:按指定条件选择数据。RandomSampleofcases:对观察值进行随机抽样。Usefiltervariable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。Basedontimeorcaserange:顺序抽样。单击Range按纽,打开SelectCase:Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。3.2.4加权记录WeightCases:设定某变量为频数变量。3.2.5数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。一、汇总的概念二、进行分类汇总的方法1、打开“data”菜单,选择“Aggregate”,展开aggregatedata”对话框。2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(BreakVariable[s])框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(AggregateVariable[s])框中,即要求这些变量的值进行分类汇总。4、“name&label”(名称与标签):单击此按钮可以修改组合后所生成新变量名称以及标签:可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。5、“Function”(函数)选择此项可以确定汇总变量的描述内容;系统默认函数为平均数。3.3文件级别的数据管理(二)3.3.1数据字典的定义与应用在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。一、变量属性定义导向:DefineVariableProperties具体说来,可以列出所选变量的所有值;分辨没有值标签的值,并且提供自动给出值标签的功能;可以将另一个变量的属性拷贝到所选变量,也可以将所选变量的属性拷贝到其他变量。二、复制数据文件属性导向CopyDataProperties过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中,还可以进行自行定义,只选择某些变量,或者某些属性进行拷贝,这无疑大大提高了连续性项目对原有资源的利用程度。3.3.2查找重复记录IdentifyingDuplicateCases:用于查找重复记录。运行结束后,结果窗口会给出本次操作的信息汇总:3.3.3数据文件的重新排列与转置一、数据的长型与宽型格式:长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。由于重复测量模型可以使用不同的统计模型加以分析,因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。二、长型格式转换为宽型格式:Restructure。选择DataRestructure,系统就会弹出下图导向。三、数据转置Transpose:用于对数进行行列转置,数据文件的转置就是将数据编辑窗口中数据的行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中。Variable(s):放入将要行列转置的变量名。在数据文件中,未放入栏中的变量会遗失。字符串变量不能转换,如强迫转换,变量值转变为系统缺失值。Namevariable:变量命名栏,在左侧源变量栏中选择一个变量,放入namevariable栏,技改变量的数据作为转置后的变量名。3.3.4多个数据文件的合并纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。纵向合并必须遵循两个条件:第一,两个合并的spss数据文件,其内容合并是有实际意义的。第二,为方便spss数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。Unpairedvariable:不匹配变量栏。指变量名相同而变量定义不同的变量,或变量名不同的变量。Variableinnewworkingdata:新工作数据变量栏。Indicatecasesourceasvariable:指示记录来源的变量选项/二、数据文件的横向合并横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。横向合并遵循三个条件:第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升序排列。第三,为方便SPSS文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。ExcludedVariables:拒绝变量名。外部文件与当前数据的同变量,拒绝加到新工作区中。NewWorkingData:新工作数据变量栏。MatchCaseonKeyVariableinsort:排序文件中按关键变量匹配记录选项。Bothfilesprovidecase:由外部文件和当前数据量两者提供记录。Externalfileiskeyedtable:外部文件为关键表,以当前数据为基准,外部文件匹配当前数据的关键变量值,如匹配成功,外部文件的新变量值加入到当前数据的新变量中,匹配不成功则不加入。WorkingDataFileiskeyedtable:当前数据为关键表。KeyVariables:关键变量栏,在拒绝变量选择某变量作为关键变量。Indicatecasesourceasvariable:指示记录来源的变量选项。第五章spss编程操作入门
内容:
1.进入程序编辑窗口界面2.熟用Paste按钮3.编程进行对话框无法完成的工作4.简单编程命令介绍(变量标签定义、Compute、Count、Recode)5.结构化语句(条件语句、循环语句)6.综合练习进入程序编辑窗口界面
①创建一个新程序File——new——syntax②打开一个旧程序
File——open——syntax程序文件的扩展名为*.sps注:syntax窗口的菜单和SPSS窗口的菜单功能基本一致,区别在于RUN菜单。RUNALL——运行全部程序RUNSELECTION——运行所选择的部分程序熟用Paste按钮在所有对话框选择完毕后,不选择OK,而使用Paste
例如:打开xuelin编程进行对话框无法完成的工作例4.1打开cars.savP50
操作后的语句:COUNTG1=yearcylinderweight(Lowestthru76)yearcylinderweight(Lowestthru4)yearcylinderweight(3000thruHighest).EXECUTE.修改为正确的格式:COUNTG1=year(Lowestthru76)cylinder(Lowestthru4)weight(3000thruHighest).EXECUTE.注:编程基本小知识:①每句命令完成后,以点号结束,否则程序不被执行。②全部命令编辑完成后,以Execute.结束,否则程序不被执行.③学会使用help——commandsyntaxreference自学编程。简单编程命令介绍1、变量标签定义Variablelabelsvarname‘label’.Eg:variablelabelsx1‘语文’
x2‘数学’
x3‘英语’.2、Compute(用于给变量赋值)Computetargetvariable=expressionEx:请建立成绩文件,要求包含变量X1语文/X2数学/X3英语/X4总分/X5均值其中x1服从均值为75标准差为5的正态分布,x2服从50~100的均匀分布,x3服从均值为70标准差为5的正态分布程序:Setseed5502090(可写,也可不写)inputprogram.loop#i=1to200.computex1=rv.normal(75,5).Computex2=rv.uniform(50,100).Computex3=rv.normal(70,5).Computex4=sum(x1,x2,x3).Computex5=mean(x1,x2,x3).variablelabelsx1'语文'x2'数学'x3'英语'x4'总分'x5'均值'.endcase.endloop.endfile.endinputprogram.execute.3、Count(用于标示某个值或某些值在某个变量的取值中是否出现)CountVarname=varlist(valuelist)KeywordsforvaluelistLo/Hi/Thru
Ex:要求,在成绩文件中,统计各位同学不及格门数,以及每位同学有几门功课处于70到80之间。Counttarget1=x1tox3(lothru60).Counttarget2=x1tox3(70through80).Counttarget3=x1tox3(60throughhi).练习答案inputprogram.loop#i=1to200.computex1=rv.normal(75,5).Computex2=rv.uniform(50,100).Computex3=rv.normal(70,5).Computex4=sum(x1,x2,x3).Computex5=mean(x1,x2,x3).variablelabelsx1'语文'x2'数学'x3'英语'x4'总分'x5'均值'.Counttarget1=x1tox3(lothru60).Counttarget2=x1tox3(70through80).Counttarget3=x1tox3(60throughhi).endcase.endloop.endfile.endinputprogram.execute.4、Recode(用于从原变量值按照某种一一对应的关系生成新变量值)Recodevariable(valuelist)intotargetvariableEx:recodex(1through2=10)(else=20)intox1.(相当于条件)Ex:stringx7(a1)(字符型)(a1表示宽度)
Computex7="女".recodex7("女"=1)intoxx.练习Ex:打开pkc.sav文件,将sex变量进行重新编码,定义为新变量sex1,其中sex为1,sex1为女,sex为2,sex1为男。GETFILE='E:\study\大三上个学期\spss\案例数据\pkc.sav'.stringsex1(a3).recodesex(1='女')(else='男')intosex1.Execute.分支语句(条件语句)
①IF语句SPSS程序格式:IF逻辑表达式目标表达式逻辑表达式用于给出判断条件目标比达式表示如果满足逻辑表达式后该如何操作。练习示例1:打开案例数据brain1.sav,要求将年龄小于20,性别为1(男)的病人归为第一组(group=1).GETFILE='F:\Jane\案例数据\brain1.sav'.ifage<20&sex=1group=1.Execute.示例2:打开案例数据brain1.sav,要求将年龄小于等于40岁的女性病人归为组2.GETFILE='H:\案例数据\brain1.sav'.ifagele40group=2.execute.或者用recode语句来做试试!recodeage(lothru40=2)intogroup.练习1:将血小板大于等于100的取值为1。GETFILE='H:\案例数据\brain1.sav'.ifpltge100group=1.execute.用recode来试试看,也可以的!recodeplt(100thruhi=1)intogroup.练习2:打开brain1.sav,创造一个新的字符型变量sex1,当sex取值为1时,sex1取值为f,当sex取值为2时,sex1取值为m.GETFILE='H:\案例数据\brain1.sav'.stringsex1(a1).(a1宽度)computesex1='f'.ifsex=2sex1='m'.execute.
②DOIF语句如果需要多重分支,有多个条件限制时,需要用到DOIF语句SPSS程序格式:DoIF逻辑表达式目标表达式Else.
目标表达式EndIF示例1:见书(P52)GETFILE='F:\Jane\案例数据\brain1.sav'.DOIF(age<20).COMPUTEageclass=1.ELSEIF(age<30).COMPUTEageclass=2.ELSEIF(age<50).COMPUTEageclass=3.ELSE.COMPUTEageclass=4.ENDIF.EXECUTE.试一下用recode语句!!你一定行的。GETFILE='E:\study\大三上个学期\spss\案例数据\brain1.sav'.recodeage(lowestthru20=1)(20thru30=2)(30thru50=3)(else=4)intox.EXECUTE.示例2:编程完成书P31例题练习3:自己完成P33例题二、循环语句在介绍循环语句时,着重介绍Loop/EndLoop语句.该语句主要用于建立数据集和数据变换操作。SPSS程序格式:Loop控制变量名=起始值to终止值[BY步长]运算语句EndLoop示例1:见书P53。理解每句程序的含义。SETSEED55020.(将伪随机数种子设为5502090)(解释下)INPUTPROGRAM.(开始数据录入程序阶段)LOOP#LOP=1TO50.(一共循环50次,变量lop不写入文件)COMPUTEA=NORMAL(1).(新变量A服从标准正态分布)ENDCASE.(结束一条记录的定义)ENDLOOP.(结束循环)ENDFILE.(结束数据文件)ENDINPUTPROGRAM.(结束数据录入程序)EXECUTE.(开始执行以上程序)DOIF(A>=0).COMPUTEB=A.(如果A>=0,则新变量b=a)ELSE.COMPUTEB=A*2.(否则,b=a*2)ENDIF.EXECUTE.(开始执行以上程序)LIST.(在结果窗口中输出数据列表)实例GETFILE='E:\study\大三上个学期\spss\案例数据\brain1.sav'.SETmxloops=10.Loop.Computex1=x+1.Endloop.EXECUTE.或者:Loop#lop=1to10.开始循环,要求循环10次Computex=x+1.
将变量累加1Endloop.
示例2:产生1~200的连续自然数Inputprogram.Loop#i=1to200.
Computex=#i.
endcase.
Endloop.
Endfile.
Endinputprogram.
Execute.宏的基本格式定义DEFINE!M_SAMPLE()'ABC'*任何有效的SPSS程序段.!ENDDEFINE.
IFVARX=1VARY=!M_SAMPLE.EXECUTE.2025年3月19日@文彤老师158宏参数DEFINEM_COMP(INVAR1=!CHAREND('/')).RECODE!INVAR1(1THRU5=COPY)(ELSE=9)INTO!CONCAT('T',!INVAR1).EXEC.!ENDDEFINE.
M_COMPINVAR1=A3.2025年3月19日@文彤老师159OMS系统即输出管理系统(OutputManagementSystem)提供了结果输出和数据文件的自动交互功能可以将输出结果存储为SPSS数据格式(SAV)、XML格式、HTML格式、TXT格式、PDF格式等可以指定输出结果中的表格、文本、图形2025年3月19日@文彤老师160OMS控制面板2025年3月19日@文彤老师161分析实例DATASETDECLAREfreq.sav.OMS/SELECTTABLES/IFCOMMANDS=['Frequencies']SUBTYPES=['Frequencies']/DESTINATIONFORMAT=SAVNUMBERED=TableNumber_OUTFILE='freq.sav'.OMSEND.2025年3月19日@文彤老师162分析实例2025年3月19日@文彤老师163综合练习练习1:要求产生有100条记录的新数据集。要求:随机变量A服从均值为5,标准差为10的正态分布的,当该变量大于5时,改为新变量B,若该变量小于等于5时,则B等于A的平方。(要求固定随机种子)。(可以通过编程指南查找怎样产生这样一个正态分布)。练习2
请建立共50人的成绩文件,要求包含变量X1语文/X2数学/X3英语/X4总分/X5均值,要求x1服从均值为75,标准差为5的正态分布随机序列,x2为服从50~100之间的均匀分布随机序列,x3服从均值为70,标准差为5的正态分布序列,x4为三科总成绩,x5为三科的平均成绩。(参考教材53页例题)( 前面例子)第四讲实战案例@文彤老师CCSS项目中数据异常值的
自动核查与报告项目需求CCSS每月的数据均由电脑辅助电话访问系统(CATI)收集而来,该系统的WINCATI软件自带数据核查功能,但由于数据采集完毕后还需要进行开放题的重编码、废卷清理等工作,为保证数据质量,在数据提交分析之前重新按照问卷设定要求进行查错是必备步骤2025年3月19日@文彤老师168数据核查的主要工作内容
配额检查:对于有配额限制的项目,需要检查项目设计中所规定的配额要求是否被满足。数值检查――封闭题:具体选项有限,数值中不应当出现选项以外的取值,如变量A3-A16只能取值为1、2、3、4、9。数值检查――数值开放题:相应的连续变量应在有效范围内取值,如变量S3年龄的取值应当在18-65之间。数值检查――多选题:如果采用多重分类法记录数据,则同一个选项代码不应当在不同列中重复出现。例如A3A_1和A3A_2两变量就不应当取相同数值,否则就意味着同一个选项出现了重复选择。逻辑查错:出于质量控制的要求,问卷中对数值题目的取值进行了逻辑控制,例如A3、A4、A8不应当同时选择9,否则按废卷处理。2025年3月19日@文彤老师169数据核查的技术路线内容分解:将各种查错工作归类为若干个基本独立的种类,实际上,上文我们就在完成这项工作。查错实现:对每个分解出的类别给出适当的错误识别规则定义,并采用适当的技术手段来实现。结果反馈:采用适当的技术手段作为查错结果的输出接口,从而使得查错的结果能够清楚并格式统一的反馈给用户。2025年3月19日@文彤老师170查错实现方式使用数据验证模块实现使用函数功能实现查错实现:在SPSS中提供了上百种函数,我们完全可以利用一些特殊的函数来对该个案的某个变量值是否违反查错规则做出逻辑判断,而当逻辑判断结果为真时,即意味着该个案的这一变量值可能存在错误。结果反馈:可以考虑按照上述逻辑判断结果形成有特定含义的字符串,每一种错误都用相应的字符串表示,该字符串可以直接输出到结果窗口中,也可以生成一个或数个专用的指示变量,当出现相应错误时,就将所对应的字符串加入到错误指示变量中去。这里我们显然推荐后者,因为这样做的话,查错完成后只需要检查错误指示变量,就可以得知相应案例的错误。2025年3月19日@文彤老师171数值检查--封闭题
封闭题由于只有若干个特定取值,因此只需要判断相应取值是否有效即可,这可以使用IF、RECORD等命令来实现,但最方便的方式为使用专门的ANY函数:IFA3~=1&A3~=2&A3~=3&A3~=4&A3~=5&A3~=9ERROR=1.RECODEA3(1=0)(2=0)(3=0)(4=0)(5=0)(9=0)(ELSE=1)INTOERROR.COMPERROR=1-ANY(A3,1,2,3,4,5,9).2025年3月19日@文彤老师172数值检查--开放题1.任意取值的连续变量取值范围查错:此类变量一般会存在一个合理的上界和下界,超过此范围之外的就可以作为可疑数据加以核对。以变量S3为例,可以采用如下三种方式来查错。IFS3<18|S3>65ERROR=1.RECODES3(18THRU65=0)(ELSE=1)INTOERROR.COMPERROR=1-RANGE(S3,18,65)2025年3月19日@文彤老师173数值检查--开放题2.取值方式有限制的连续变量:此类变量除了上界和下界之外,该变量只能取整数,或者某些特别的小数,这时可以使用下面的函数来实现查错功能。为整数:IFRND(VAR)~=VARERROR=1.为特定的小数(如只能是*.3):IFMOD(RND(VAR*10))~=3ERROR=1.为某个数的倍数(如3的倍数):IFMOD(VAR,3)~=0ERROR=1.2025年3月19日@文彤老师174多选题查错1.多重二分法:一般规定某种取值表示该题项被选中,其余取值均代表未被选中。因此可以检查上述题项所对应的变量是否均为相同的取值情形,以多选题C0为例,程序如下。*同时检查.IFNOT(ANY(C0_1,1,2,99)&ANY(C0_2,1,2,99)&ANY(C0_3,1,2,99))ERROR=1.*分别检查.IFANY(C0_1,1,2,99)ERROR=1.IFANY(C0_2,1,2,99)ERROR=2.IFANY(C0_3,1,2,99)ERROR=3.2025年3月19日@文彤老师175多选题查错2.多重分类法:除进行类似于上面的取值范围检查外,多重分类法还有可能出现的错误是对选项进行了重复选择。这种情况常常出现于对“其他”选项进行重编码后,没有检查编码是否已经选中就将其加入了数据集所致。CCSS数据的A3A题目就是采用多重分类法加以记录,虽然A3A的题目设定允许重复选择的情形出现,但我们也可以借用该题目演示一下相应的查错方式如下。IFMISSING(A3A_1)=0&(A3A_1=A3A_2)ERROR=1.2025年3月19日@文彤老师176逻辑关系查错逻辑错误又可被分为严格逻辑错误和可疑逻辑错误两种,前者有明确的错误界限,后者则没有,有可能的确是正确数值。但这两种逻辑错误在核查方法上是没有区别的。
逻辑关系的查错方式是利用已知的逻辑关系,直接编制相应的程序,主要使用IF和COMP实现,例如对CCSS问卷中A3、A4、A8不应当同时选择9这一逻辑设定,可直接按如下方式设定。IFA3=9&A4=9&A8=9ERROR=1.2025年3月19日@文彤老师177查错结果的报告1.简单标识变量:只给出一个查错结果变量,用1或者某个数值表示该个案数据有错,但变量太多时,按此查找具体的错误显然非常费时。2.单独重编码:比如共有12个查错条件组合,则为每个组合分别给出ERR1~12这些变量,分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 10.2 二倍角的三角函数 原卷版
- 2025年度风险投资退出机制协议书
- 二零二五年度房屋租赁合同中乙方安全事故处理细则
- 2025年度租赁房屋合同转让与租户紧急事件处理及应急预案合同
- 扎实基础土木工程师试题
- 二零二五年度劳动解除协议书:建筑行业工人退工补偿及社会保障协议
- 二零二五年度二手车贷款购车风险评估委托协议
- 二零二五年度情人协议书:情侣情感保障与生活责任承担合同
- 二零二五年度幼儿园课后托管免责事项及责任界定协议
- 二零二五年度文化创意产业个人股权转让合同
- 2025湖南新华书店集团校园招聘85人高频重点提升(共500题)附带答案详解
- 人教版五年级数学下册全册教案含教学反思
- 2020-2025年中国洗护发产品市场运行态势及行业发展前景预测报告
- 《渡槽安全评价导则》
- 2025年园林绿化工(高级)考试题库及答案
- 有效沟通技巧课件
- 2024春四年级上下册音乐测试专项测试题及答案
- 多发伤骨折护理查房
- 中建二测考试题库及答案
- 沙特阿拉伯2030年愿景
- 2023年软件评测师《基础知识》考试题库(浓缩500题)
评论
0/150
提交评论