版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS统计分析基础教程(第2版)第一章 SPSS概述第一节 SPSS的发展及特点SPSS的发展SPSS最早的全称是Statistical Package for the Social Sciences,即社会科学统计程序包,是世界公认的最优秀的统计分析软件包之一。1968年,美国斯坦福大学的三位研究生开发了最早的统计分析软件SPSS,并于1975年在芝加哥成立了SPSS公司。 SPSS原是为大中型计算机开发的,面向企事业单位用户。 80年代初,微机开始普及以后,它率先推出了微机版本(统称为SPSS/PC版),占领了微机市场,大大地扩大了自己的用户量。 90年代,Microsoft推出操作系统
2、Windows后,SPSS迅速向Windows移植(统称为SPSSfor Windows版)。 2000年正式将英文全称更改为 Statistical Product and Service Solutions, 意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。 2009年4月9日 在美国的芝加哥SPSS公司宣布重新包装旗下的SPSS产品线,定位为预测统计分析软件(Predictive Analytics Software)PASW,包括四部分: * PASW Statistics ( SPSS Statistics):统计分析* PASW Modeler ( Cle
3、mentine) :数据挖掘* Data Collection family ( Dimensions):数据收集* PASW Collaboration and Deployment Services ( Predictive Enterprise Services):企业应用服务 2009年7月28日,IBM以12亿美元现金收购统计分析软件公司SPSS。具体的收购方式为,IBM以每股50美元的价格收购SPSS,该交易全部以现金形式支付。 SPSS在2009年10月2日召开特别股东大会投票表决通过了有关该公司出售给IBM的交易。 IBM成功收购SPSS后,其名称又发生了改变,总称为 IBM
4、SPSS,包括四个部分: * IBM SPSS Statistics ( SPSS Statistics):统计分析 (ISS) * IBM SPSS Modeler ( Clementine) :数据挖掘 (ISM) * IBM SPSS Data Collection family ( Dimensions):数据收集 * IBM SPSS Collaboration and Deployment Services ( Predictive Enterprise Services):企业应用服务 一、功能强大(1)囊括了各种成熟的统计方法与模型,为统计分析用户提供了全方位的统计学算法,为各
5、种研究提供了相应的统计学方法。(2)提供了各种数据准备与数据整理技术。(3)自由灵活的表格功能。(4)各种常用的统计学图形。二、SPSS的实验环境要求(1)系统运行环境SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系统的用户界面模式。(2)辅助软件环境三、SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口。 四、SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜单中的Statistics Coach命令,选择所需要的统计指导。 SPSS附加模块功能SPSS Advanced一般线性模型、混合线性模型、对数线性模型、生存分析等
6、SPSS Categories对应分析、感知图、Proxscal等SPSS Complex Sample多阶段复杂抽样技术等SPSS Conjoint正交设计、联合分析等,适用于市场研究SPSS Exact Test精确P值计算、随机抽样P值计算等SPSS Maps在地图上展示数据等SPSS Missing Value Analysis缺失数据的报告与填补等SPSS RegressionLogistic回归、非线性回归、Probit回归等SPSS Tables交互式创建各种表格(如堆积表、嵌套表、分层表等)SPSS TrendsArima模型、指数平滑、自回归等五、SPSS的运行方式SPSS提
7、供了3种基本运行方式:完全窗口菜单方式,程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自己的SPSS命令程序,通过语句直接运行。 SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类变量及统计方法是对话框的主要任务。 1.1.2 spss的安装一、启动Windows 后,把SPSS 系统安装软盘(或光盘)插入软驱(或光驱),并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Set
8、up.exe 文件,安装程序向导将给出每一步操作的提示。在出现 e(欢迎)窗口后,选择Next进入下一步。三、安装程序显示Software License Agreement对话框时,选择Yes接受显示的协议条款。1.2 spss操作入门1.2.1 spss软件的启动与退出单击Windows 的开始按钮,在程序菜单项SPSS for Windows中找到SPSS 20.0 for Windows并单击。1.2.2 SPSS的5个窗口(1)数据编辑窗口(SPSS Data Editor)Spss处理数据的工作全在此窗口进行。(2)结果管理窗口(SPSS Output viewer)此窗口用于存放
9、分析结果。左边是目录区,右边是内容区。(3)草稿结果窗口(SPSS Draft Viewer)草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字编辑软件打开。(4)语法编辑窗口(SPSS Syntax Editor)(5)脚本窗口(SPSS Script Editor)1.2.3 SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件,然后选择菜单File Open file。然后,利用菜单Analyze Descriptive Statistics Frequencies, 二、程序方式在Syntax编辑窗口中键入以
10、下程序:Get file=c:program filesspssemployee data.sav.Frequencies variables = jobcat/order = analysis。只需要选择菜单Run All,运行该程序也一样会出现相同的分析结果。三、Include命令方式当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个Syntax文件的内容;或者发现所需要的程序语句其实是几个Syntax文件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产一个新的Syntax文件外,还可以利用Include命令。Include c:sytaxsample.
11、sps.四、spss Production Faccility 方式在Windows的程序菜单中,spss菜单组除了有“spss for windows”项之外,还有一个“spss production facility”。(1)单击Syntax框下的“Add”按钮,到C盘根目录下打开“syntaxsample”。(2)单击Syntax框下的“Edit”按钮,对程序进行编辑。(3)单击右下角的“uesr prompts”按钮,添加对程序的交互分析界面。(4)单击“Browse”按钮制定结果保存路径,单击“export options”按钮还可以制定结果保存格式。1.2.4 spss的四种输出结
12、果1、表格格式2、文本格式3、标准图与交互图4、结果的保存和导出第2章 数据录入与数据获取本章主要解决两个问题:第一个问题,根据问题类型的不同,将会从开放题、单选题和多选题的录入方式为例进行介绍。第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数据,以及如何用ODBC接口读取数据库文件。什么是消费者信心指数消费者信心 (Consumer Confidence or Consumer Sentiment) 是指消费者根据国家或地区的经济发展形势,对就业、收入、物价、利率等问题的综合判断后得出的一种看法和预期消费者信心指数(Consumer Sentiment Index, C
13、SI) 的概念和方法是由美国密歇根大学调查研究中心的乔治 卡通纳(George Katona) 在上世纪40年代后期提出的。消费者的看法、态度和预期这些心理的直接感受决定了他们的消费支出计划。对消费者心理及其变动的测度就是对消费总量变动测度的一个补充。根据消费者调查结果可以计算消费者情绪指数(Consumer Sentiment Index),又称“消费者信心”。文彤老师282022年8月12日消费者信心指数背后的经济学原理居民在决策家庭的开销,特别是购买诸如住宅、汽车等耐用商品时,是经过深思熟虑才决定的。不仅是以目前的经济条件为基础,同时结合了对未来收入、就业、物价、利率变动等因素的判断和预
14、期六十多年的时间已经充分验证了上述理论在解释宏观经济现状时的有效性与合理性2022年8月12日文彤老师29密歇根大学消费者信心指数的价值已得到实际证明是预测宏观经济走向的精确指标 消费者总体信心可预测GDP增长趋势 (平均领先3个季度,相关系数0.9) 消费者就业信心可预测实际失业率 (平均领先3个季度,相关系数0.8) 消费者的物价预期可预测实际通胀率 (平均领先1个季度,相关系数0.9) 消费者购车信心可预测实际汽车销量 (平均领先2个季度,相关系数0.73) 密歇根大学消费者信心指数对美、欧股市以及美国政府的经济政策有直接影响 已列入美国商务部发布的主要综合指标,并被各大媒体广泛引用 前
15、美国联邦储备委员会主席格林斯潘就曾表示,他非常重视消费者信心指数在美国及全球各大消费品生产商中广泛使用,用于预测销量及利润 全球各国的消费者信心指数研究方式大致相同,其理论基础均源于密歇根大学的研究方法,指数有效性在各国已得到广泛验证 中国消费者信心调研遵循了美国密歇根大学消费者信心调研的方法学,并根据中国国情进行了修正和深化,是密歇根大学消费者信心调研的中国版2022年8月12日文彤老师30中国消费者信心调研(China Consumer Sentiment Survey, CCSS)每月进行的、反映中国消费市场状况及消费者对家庭经济及宏观经济信心的独立第三方调研目前属于全球最大的德交-泛欧
16、-纽交集团旗下产品中国消费者信心调研的研究方法是在美国密歇根大学社会研究院消费者信心调查课题组负责人Richard Curtin博士的协助与指导下完成的月度总信心指数现状指数预期指数当前家庭经济状况耐用品消费未来1年家庭经济预期未来1年宏观经济预期未来5年宏观经济预期行业分类指数耐用品购买房地产证券投资汽车消费消费者物价感受及预期消费者利率预期中国消费者信心调研(CCSS)包括以下方面:2022年8月12日文彤老师31中国消费者信心调研的研究方法发布频率每月一次数据采集方式CATI (电脑辅助电话访问),随机抽样,第一手调研样本选择18-64岁中国城市居民,家庭开支或投资决策者抽取中国经济最发
17、达的30个城市代表中国1/7的人口与1/3的GDP访谈时间长度1015 分钟问卷问题数量不少于30题样本量每月不少于1,000样本2022年8月12日文彤老师32中国消费者信心指数研究问卷S0 受访者所在城市:100 北京 200 上海 300 广州S1 请问您贵姓是?_S2 记录被访者性别:1 男性 2 女性S3 请问您的十足年龄是?_S4 请问您的学历是?1 初中/技校或以下 2 高中/中专 3 大专 4 本科 5 硕士或以上2022年8月12日文彤老师33中国消费者信心指数研究问卷C0 请问您的家庭目前有下列还贷支出吗?C0_1 房贷 1 有 2 无 99 拒答C0_2 车贷 1 有 2
18、 无 99 拒答C0_3 其他一般消费还贷 1 有 2 无 99 拒答A3 首先,请问与一年前相比,您的家庭现在的经济状况怎么样呢?是变好、基本不变还是变差?1 明显好转 2 略有好转 3 基本不变 4 略有变差 5 明显变差 9 说不清/拒答A3a 为什么您这样说呢?(最多限选两项)_0 中性原因90 不知道/拒答10 改善:收入相关110 恶化:收入相关20 改善:就业状况相关120 恶化:就业状况相关30 改善:投资相关130 恶化:投资相关40 改善:家庭开支相关140 恶化:家庭开支相关50 改善:政策/宏观经济150 恶化:政策/宏观经济相关2022年8月12日文彤老师342.1.
19、1 统计软件中数据的录入格式(1)不同观测对象的数据不能在同一记录中出现,即同一观测数据应当独占一行。(2)每一个观测量指标或影响因素只能占据一列的位置,即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述即:一个观测占一行,一个变量占一列在录入数据时,归纳为以下三步:第一步:定义变量名;第一步:指定每个变量的各种属性;第一步:录入数据。变量名不能与spss保留字相同,spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍一、变量的储存类型SPSS中,变量有三种的基本类型:数值型、字符型和日期型。标准
20、数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型:数值型的数据是0-9的阿拉伯数字和其他符号,如美元符号、逗号或圆点组成的。日期型用户自定义型字符型:字符型数据的默认显示宽度为8个字符位,系统不区分变量名中的大小写字母,并且不能进行数学运算。注意:在输入数据时不应输入引号,否则双引号将会作为字符型数据的一部分。日期型:日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多,SPSS以菜单方式列出日期型数据的显示格式以供用户选择。事实上,SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数。关于日期型格式的几点说明:“m”在年与日(字母y与d)之间
21、表示月份;在时与秒(字母h与s)之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式,不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为指定的格式,显示在单元各种。二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。(1)定类尺度(Nominal Measurement):定类尺度是对事物的类别或属性的一种测度,按照事物的某种属性对其进行分类或分组。特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能
22、比较各类之间的大小,所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型变量。使用定类变量对事物进行分类时,必须符合穷尽原则和互斥原则。(2)定序尺度(Ordinal Measurement):定序尺度是对事物之间的等级或顺序差别的一种测度,可比较优劣或排序。特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能排序,不能进行运算。(3)定矩尺度(Interval Measurement):定矩尺度是对事物类别或次序之间间距的测度。特点:不仅能将事物区分为
23、不同类型并进行排序,而且可能准确指出类别之间的差距是多少;定居变量通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值,所以计量结果可以进行加减运算。(4)定比尺度(Scale Measurement):定比尺度是能够测算两个测度值之间比值的一种计量尺度,它的测量结果同定距变量一样表现为数值。特点:定必变量是测量尺度的最高水平,它除了具有其他三种测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的特点,因此它可以进行加、减、乘、除运算,而定居变量值可进行加减运算。三、变量名与变量标签值Label:定义变量名标签Value:定义变量值标签四、缺失值Spss中缺失值有用户自定义缺失值和系统
24、缺失值两大类。在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失值为零。2.2 数据的直接录入2.1.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条Data View表可以直接输入观测数据值或存放数据,表的左端列边框显示观测个体的序号,最上端行边框显示变量名。 Variable View表用来定义和修改变量的名称、类型及其他属性,如图所示。如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的属性,直接输入数据,系统将默认变量Var00001,Var00002等。在Variable View表中,每一行描述一个变量,
25、依次是:Name:变量名。变量名必须以字母、汉字及开头,总长度不超过8个字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个字符不能是句号。Type:变量类型。变量类型有8 种,最常用的是Numeric数值型变量。其它常用的类型有:String字符型,Date日期型 ma逗号型(隔3位数加一个逗号)等。Width:变量所占的宽度。Decimals:小数点后位数。Label:变量标签。关于变量涵义的详细说明。Values:变量值标签。关于变量各个取值的涵义说明。Missing:缺失值的处理方式。Columns:变量在Date View 中所显示的列宽(默认列宽为8)。Align:数
26、据对齐格式(默认为右对齐)。Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种(默认为等间距尺度)。为了在统计分析过程中能有效的利用其它软件产生的数据,SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直接打开和保存下述类型的文件:SPSS DOS版本产生的数据文件*.sys;Excel 报表程序产生的数据文件*.xls;DBASE 数据库格式文件*.dbf;SAS统计软件产生的数据文件。2.2.2 开放题和简单单选题的录入一、在spss中定义变量录入数据的第一步是定义变量属性,随后才能进行数据录入。二、开放题的录入三、单选题的录入单选题的录入可以采用字符直
27、接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.3多选题的录入一、多重二分法(Multiple Dichotomy Method)所谓多重二分法,是在编码的时候,对应每一个选项都要定义一个变量,有几个选项就有几个变量,这些变量均为二分类,他们各自代表对一个选项的选择结果。二、多重分类法(Multiple Category Method)多重分类法,也是利用多个变量对一个多选题的答案进行定义,应该用多少个变量,由被访者实际可能给出的最多答案数而定。三、多选题录入在spss中的实现2.3 外部数据的获取SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利用文本导向读入文本
28、数据以及利用数据库OBDC接口读入数据。2.3.1 电子表格数据如何导入spss中SPSS中可以直接读入许多常用格式的数据文件,选择菜单File Open Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开的数据文件格式。2.3.2 文本数据如何导入spss中第一步:首先,在Open File 文件框中选中文件,单击“打开”,系统会自动启动文本倒入向导对话框。第二步:选择“NO”并单击“下一步”按钮。用某种字符区分固定宽度第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。第四步第五步
29、第六步第七步2.4 数据的保存2.4.1 存为spss格式2.4.2 存为其他数据格式第3章 数据管理3.1 变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中,包括新变量的生成、记录的排序、对变量进行计数等。计算新变量:就是用Compute过程。变量转换:包括Recode、Visual Bander、Count、Rank Case、Automatic Recode这五个过程。专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。Run Pending Transforming:用于执行编程中被挂起的数据整理操作。计算产生新变量变量值自动编码设定随机数种子创建代替
30、缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续变量进行分段3.1.1 计算新变量计算新变量的功能就是在原有spss数据文件的基础上,根据用户的要求,使用spss算术表达式及函数,对所有记录或满足SPSS条件表达式的记录,计算出一个新结果,并将结果存入一个用户指定的变量中。一、常用基本概念 (1)spss算术表达式 spss算术表达式是由常量、spss变量名、spss的算术运算符、圆括号等组成的式子。(2)spss函数 spss提供了多达70多种函数,分为八大类:算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。(3)sp
31、ss条件表达式 通过spss的算术表达式和函数可以对所有记录计算一个结果,如果仅希望对部分记录进行计算,则应当利用spss的条件表达式指定对那些记录进行计算。二、compute过程的分析实例例3.1 统计英语成绩在60分以上的学生的数学和语文的平均成绩。例3.2 计算工人工资的所得税。学生自己练习。3.1.2 对变量值进行分组合并一、对连续变量进行分组在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某种一一对应的关系生成新变量值,可以将新值赋给原变量。Recode过程和Visual Bander过程都可以完成这一任务,但前者给为简单和常用。例3.3 当学生英语成绩小于60时取值为“
32、不及格”,大于等于60且小于70为“及格”,大于等于70且小于80为“较好”,大于等于80为“优秀”。二、分类变量类别的合并Recode过程也常用于合并某个分类变量的几个水平为一个水平。将上例grade中优秀、良好和及格三个等级合并为一个等级“PASS”,将grade的等级“不及格”转换为“NOPASS”。3.1.3 连续变量的可视化分段VISUAL Bander 用于将连续变量进行分段,该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。例3.4 对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分以下为第一组,60分以上的按照等间距
33、的方式分为4组。3.1.4 将字符变量转换为数值变量用automatic recode将字符变量转换为数值变量。3.1.5 变量的编秩所谓编秩,就是对记录按照某个变量值大小来排序。Rank case过程就是用来排序的一个专用过程。例:根据性别分组计算数学成绩的秩次。3.1.6 Transform菜单中的其它功能(1)count过程 如果用户需要对满足某项条件的数据进行计数,可以使用Count命令。 先在Target Variable中指定一个变量(可以是已经存在的变量或新变量),并定义变量标签,然后指定要统计的变量加到Numeric Variables框中,再单击Define Values按纽
34、,打开Value to Count对话框。 Value:输入某个值为清点对象;System-missing:以系统的缺失值为清点对象;System-or user missing:以系统或用户指定的缺失值为清点对象;Range:指定数值的计数区域:其中包括: ( )through( )在框内指定下限和上限lowest through( ): 在框内只指定上限;( )highest through: 在框内只指定下限。(2)random Number Seed过程: 用于设定伪随机函数的随机种子。3.2 文件级别的数据管理(一)数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个
35、菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、观测量的编辑处理;对变量数据的变换;对观察量数据整理。(1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。(2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。(3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数据字典直接引入当前数据文件。 (4)数重构过导向:用于进行数据转置,或者对重复测量数据表进行长型、宽型记录间的转换。(5)文件合并过程:将几个数据文件合并为一个大的spss数据文件,含横向合并和纵向合并两种情况。(6)正交设
36、计过程:实际上是联合分析模块的一部分,用于生成实施联合分析所需要的设计。(7)其他过程:包括定义日期变量过程、数据汇总过程和查找重复记录导向。定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权3.2.1 记录排序一、排序的两种方法:(1)在数据表格的变量名处单击右键,弹出的右键菜单最后两项就是“sort Ascending”和“Sort Descending”。(2)对于多变量排序,则需要使用Sort Cases过程来进行。二、多变量排序需要注意的三点:(1)在
37、多重排序中,制定排序变量名是很关键的,先指定的变量在排序时必然优先于后制订的变量。(2)可以指定按某变量值升序排序的同时按另一变量值降序排序,或相反。(3)排序以后,原来记录数据的排列次序将被打乱。3.2.2 记录拆分Split File 分割文件的功能是把当前工作分割成两个或两个以上的组,随后的分析将对每个组进行。3.2.3 记录筛选Select Cases:当用户不需要分析全部的数据,而是按要求分析其中的一部分,使用该选择。All case:选择所有数据;If condition is satisfied: 按指定条件选择数据。Random Sample of cases:对观察值进行随机
38、抽样。 Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测单位不作分析。Based on time or case range:顺序抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义从第几个观察值开始抽到第几个观察值结束。3.2.4 加权记录Weight Cases:设定某变量为频数变量。3.2.5 数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的各变量求指定的描述统计量,结果可以存入新数据文件,也可以替换当前数据文件。一、汇总的
39、概念二、进行分类汇总的方法1、打开“data”菜单,选择“Aggregate”,展开aggregate data”对话框。2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variables)框中。3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量(Aggregate Variables)框中,即要求这些变量的值进行分类汇总。4、“name& label” (名称与标签):单击此按钮可以修改组合后所生成新变量名称以及标签:可以在name后面的矩形框中输入新变量名。在Label后面的矩形框中输入新变量标签。单击“continue”按钮继续。5、“F
40、unction”(函数) 选择此项可以确定汇总变量的描述内容;系统默认函数为平均数。3.3文件级别的数据管理(二)3.3.1 数据字典的定义与应用在大型的数据分析项目中,数据管理是非常重要的一个环节,为了保证工作质量,数据处理人员往往会事先定义好一个非常详细的数据格式,包括变量格式、变量标签、标签值、缺失值定义等,这被称为数据字典。一、变量属性定义导向:Define Variable Properties 具体说来,可以列出所选变量的所有值;分辨没有值标签的值,并且提供自动给出值标签的功能;可以将另一个变量的属性拷贝到所选变量,也可以将所选变量的属性拷贝到其他变量。二、复制数据文件属性导向Co
41、py Data Properties 过程用于将定义好的数据字典直接应用到当前文件中。操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中,还可以进行自行定义,只选择某些变量,或者某些属性进行拷贝,这无疑大大提高了连续性项目对原有资源的利用程度。3.3.2 查找重复记录Identifying Duplicate Cases:用于查找重复记录。运行结束后,结果窗口会给出本次操作的信息汇总:3.3.3 数据文件的重新排列与转置一、数据的长型与宽型格式:长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。由于重复测量模型可以使用不同的统计模型加以分析,因此根据模型的要求进行长型格式和宽
42、型格式之间的互转换是数据分析中经常要遇到的问题。二、长型格式转换为宽型格式:Restructure。选择Data Restructure,系统就会弹出下图导向。三、数据转置Transpose:用于对数进行行列转置,数据文件的转置就是将数据编辑窗口中数据的行列互换,即将记录转为变量,将变量转为记录后,重新显示在数据编辑窗口中。Variable(s):放入将要行列转置的变量名。在数据文件中,未放入栏中的变量会遗失。字符串变量不能转换,如强迫转换,变量值转变为系统缺失值。Name variable:变量命名栏,在左侧源变量栏中选择一个变量,放入name variable栏,技改变量的数据作为转置后的
43、变量名。3.3.4 多个数据文件的合并纵向连接:几个数据集中的数据相加,组成一个新的数据集,新数据集中的记录是原来几个数据集中记录数的总和。横向连接:指的是按照记录的次序,或者某个关键变量的数值,将不同数据集中的不同变量合并为一个数据集,新数据集中的变量数是所有原数据集中不重名变量的总和。一、数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列,按照各个变量名的含义,一一对应的进行首尾相接。纵向合并必须遵循两个条件:第一,两个合并的spss数据文件,其内容合并是有实际意义的。第二,为方便spss数据文件的合并,在不同的数据文件中,最好起相同的名字,变量类型和变量长度也要尽量相同。Unpai
44、red variable:不匹配变量栏。指变量名相同而变量定义不同的变量,或变量名不同的变量。Variable in new working data:新工作数据变量栏。Indicate case source as variable:指示记录来源的变量选项/二、数据文件的横向合并横向合并的实质是将两个数据文件的记录,按照记录对应,一一进行左右对接。横向合并遵循三个条件:第一,如果不是按照记录号对应的规律进行合并,则两个数据文件必须至少有一个变量名相同的公共变量,这个变量是两个数据文件横向合并的依据,成为关键变量。第二,如果是使用关键变量进行合并的对应,则两个数据文件都必须事先按关键变量进行升
45、序排列。第三,为方便SPSS文件的合并,在不同的数据文件中,数据含义不相同的列,变量名不应取相同的名称。Excluded Variables:拒绝变量名。外部文件与当前数据的同变量,拒绝加到新工作区中。New Working Data:新工作数据变量栏。Match Case on Key Variable in sort:排序文件中按关键变量匹配记录选项。Both files provide case:由外部文件和当前数据量两者提供记录。External file is keyed table:外部文件为关键表,以当前数据为基准,外部文件匹配当前数据的关键变量值,如匹配成功,外部文件的新变量值
46、加入到当前数据的新变量中,匹配不成功则不加入。Working Data File is keyed table:当前数据为关键表。Key Variables:关键变量栏,在拒绝变量选择某变量作为关键变量。Indicate case source as variable:指示记录来源的变量选项。第五章 spss 编程操作入门 内容:1.进入程序编辑窗口界面2.熟用Paste 按钮3.编程进行对话框无法完成的工作4.简单编程命令介绍(变量标签定义 、Compute、Count 、Recode)5.结构化语句 (条件语句 、循环语句 )6.综合练习进入程序编辑窗口界面创建一个新程序Filenewsy
47、ntax打开一个旧程序 Fileopensyntax程序文件的扩展名为*.sps注:syntax窗口的菜单和SPSS窗口的菜单功能基本一致,区别在于RUN菜单。RUN ALL运行全部程序 RUN SELECTION运行所选择的部分程序熟用Paste 按钮在所有对话框选择完毕后,不选择 OK,而使用Paste 例如:打开xuelin编程进行对话框无法完成的工作例4.1 打开cars.sav P50 操作后的语句:COUNT G1 = year cylinder weight (Lowest thru 76) year cylinder weight (Lowest thru 4) year cy
48、linder weight (3000 thru Highest) .EXECUTE .修改为正确的格式:COUNT G1 = year (Lowest thru 76) cylinder (Lowest thru 4) weight (3000 thru Highest) .EXECUTE .注:编程基本小知识:每句命令完成后,以点号结束,否则程序不被执行。全部命令编辑完成后,以Execute.结束,否则程序不被执行.学会使用helpcommand syntax reference自学编程。简单编程命令介绍 1、变量标签定义Variable labels varname label.Eg:
49、variable labels x1 语文 x2 数学 x3 英语.2、Compute(用于给变量赋值)Compute target variable=expressionEx: 请建立成绩文件,要求包含变量X1语文/X2数学/X3英语/X4总分/ X5均值其中x1服从均值为75标准差为5的正态分布,x2服从50100的均匀分布,x3服从均值为70标准差为5的正态分布 程序:Set seed 5502090(可写,也可不写)input program.loop #i=1 to pute x1=rv.normal (75, 5).Compute x2= rv.uniform (50,100).C
50、ompute x3=rv.normal(70, 5).Compute x4=sum(x1, x2,x3).Compute x5=mean(x1, x2,x3).variable labels x1 语文 x2 数学 x3 英语 x4 总分x5均值.end case.end loop.end file.end input program.execute.3、Count(用于标示某个值或某些值在某个变量的取值中是否出现)Count Varname=varlist (value list)Key words for value list Lo /Hi/Thru Ex: 要求,在成绩文件中,统计各位同
51、学不及格门数,以及每位同学有几门功课处于70到80之间。Count target1=x1 to x3 (lo thru 60).Count target2=x1 to x3 (70 through 80).Count target3=x1 to x3 (60 through hi).练习答案input program.loop #i=1 to pute x1=rv.normal (75, 5).Compute x2= rv.uniform (50,100).Compute x3=rv.normal(70, 5).Compute x4=sum(x1, x2,x3).Compute x5=mean
52、(x1, x2,x3).variable labels x1 语文 x2 数学 x3 英语 x4 总分x5均值.Count target1=x1 to x3 (lo thru 60).Count target2=x1 to x3 (70 through 80).Count target3=x1 to x3 (60 through hi).end case.end loop.end file.end input program.execute.4、Recode(用于从原变量值按照某种一一对应的关系生成新变量值)Recode variable (value list) into target va
53、riableEx: recode x (1 through 2=10) (else=20) into x1. (相当于条件)Ex :string x7(a1)(字符型)(a1表示宽度) Compute x7=女. recode x7 (女=1) into xx.练习Ex : 打开pkc.sav文件,将sex变量进行重新编码,定义为新变量sex1,其中sex为1,sex1为女, sex为2,sex1为男。GET FILE=E:study大三上个学期spss案例数据pkc.sav.string sex1(a3).recode sex(1=女)(else=男) into sex1.Execute.分
54、支语句(条件语句) 语句程序格式: 逻辑表达式目标表达式逻辑表达式用于给出判断条件目标比达式表示如果满足逻辑表达式后该如何操作。练习示例:打开案例数据brain1.sav,要求将年龄小于20,性别为1(男)的病人归为第一组(group=1).GET FILE=F:Jane案例数据brain1.sav.if age20 & sex=1 group=1.Execute.示例2:打开案例数据brain1.sav,要求将年龄小于等于40岁的女性病人归为组2.GET FILE=H:案例数据brain1.sav.if age le 40 group=2.execute.或者用recode 语句来做试试!r
55、ecode age (lo thru 40=2) into group.练习1:将血小板大于等于100的取值为1。GET FILE=H:案例数据brain1.sav.if plt ge 100 group=1.execute.用recode来试试看,也可以的!recode plt (100 thru hi=1) into group.练习2:打开brain1.sav,创造一个新的字符型变量sex1,当sex取值为1时,sex1取值为f, 当sex取值为2时,sex1取值为m.GET FILE=H:案例数据brain1.sav.string sex1 (a1).(a1宽度)compute sex
56、1=f.if sex=2 sex1=m.execute. 语句如果需要多重分支,有多个条件限制时,需要用到DO IF语句程序格式:IF逻辑表达式目标表达式.目标表达式示例:见书()GET FILE=F:Jane案例数据brain1.sav.DO IF (age20).COMPUTE ageclass=1.ELSE IF (age30).COMPUTE ageclass=2.ELSE IF (age=0). COMPUTE B=A. (如果A=0,则新变量b=a)ELSE.COMPUTE B=A*2.(否则,b=a*2)END IF.EXECUTE.(开始执行以上程序)LIST.(在结果窗口中输
57、出数据列表)实例GET FILE=E:study大三上个学期spss案例数据brain1.sav.SET mxloops=10. Loop.Compute x1=x+1.End loop. EXECUTE.或者:Loop #lop=1 to 10. 开始循环,要求循环10次Compute x=x+1. 将变量累加1End loop. 示例2:产生1200的连续自然数Input program.Loop #i=1 to 200.Compute x=#i.end case.End loop.End file.End input program.Execute.宏的基本格式定义DEFINE !M_S
58、AMPLE() ABC* 任何有效的SPSS程序段.!ENDDEFINE.IF VARX=1 VARY=!M_SAMPLE.EXECUTE.2022年8月12日文彤老师158宏参数DEFINE P ( INVAR1=!CHAREND(/) ).RECODE !INVAR1 (1 THRU 5 = COPY) (ELSE= 9) INTO !CONCAT(T,!INVAR1) .EXEC.!ENDDEFINE. P INVAR1=A3 .2022年8月12日文彤老师159OMS系统即输出管理系统(Output Management System)提供了结果输出和数据文件的自动交互功能可以将输出结
59、果存储为SPSS数据格式(SAV)、XML格式、HTML格式、TXT格式、PDF格式等可以指定输出结果中的表格、文本、图形2022年8月12日文彤老师160OMS控制面板2022年8月12日文彤老师161分析实例DATASET DECLARE freq.sav.OMS /SELECT TABLES /IF COMMANDS=Frequencies SUBTYPES=Frequencies /DESTINATION FORMAT=SAV NUMBERED=TableNumber_ OUTFILE=freq.sav.OMSEND.2022年8月12日文彤老师162分析实例2022年8月12日文彤老
60、师163综合练习练习1:要求产生有100条记录的新数据集。要求:随机变量A服从均值为5,标准差为10的正态分布的,当该变量大于5时,改为新变量B,若该变量小于等于5时,则B等于A的平方。(要求固定随机种子)。(可以通过编程指南查找怎样产生这样一个正态分布)。练习2 请建立共50人的成绩文件,要求包含变量X1语文/X2数学/X3英语/X4总分/ X5均值,要求x1服从均值为75,标准差为5的正态分布随机序列,x2为服从50100之间的均匀分布随机序列,x3服从均值为70,标准差为5的正态分布序列,x4为三科总成绩,x5为三科的平均成绩。(参考教材53页例题)(前面例子)第四讲 实战案例文彤老师C
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科技园区房产过户样本
- 城市绿化带道路注浆施工协议
- 智能化体育场馆建设施工合同
- 网络安全服务项目团队薪酬
- 互联网公司食堂管理办法
- 绿化种植合同范本解读
- 广告传媒招投标委托书样本
- 自建房屋建筑改建合同
- 农家乐租赁合同:美食烹饪
- 网球场电力供应供用电管理办法
- GB/T 24420-2009供应链风险管理指南
- 小学语文二年级晨诵(课堂PPT)
- 新高考高中生涯规划和选课选科课件
- 劳资专管员任命文件(样本)
- 林权纠纷调处专题讲座课件
- 住院患者静脉血栓栓塞症预防护理与管理专家共识解读
- 数据生命周期管理dam白皮书
- 作文的谋篇布局课件
- 五年级数学上册期中质量分析课件
- 建筑施工单位三级教育培训表格
- 北斗卫星导航系统(全套课件208P)
评论
0/150
提交评论