




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学实践 主讲:李晓军 E-mail: 第1 1章 数据分析概述与软件入门 1.1 SPSS软件概述 1.1.1 SPSS简介 SPSS(Statistics Package for Social Science )for Windows是一种运行在 Windows系统下的社会科学统计软件软件包。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等,具体 内容包括描述统计、列联分析,总体的均值比较、相关分析、回归模型 分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类, 每个类中还有多个专项统计方法。 一、功能强大 (1)囊括了各种成熟的统计方法与模型,为统计分析用户
2、提供了全 方位的统计学算法,为各种研究提供了相应的统计学方法。 (2)提供了各种数据准备与数据整理技术。 (3)自由灵活的表格功能。 (4)各种常用的统计学图形。 二、SPSS的实验环境要求 (1)系统运行环境 SPSS10.0以上版本软件包可以工作在两种模式下,单机模式和作为网络系 统的用户界面模式。 (2)辅助软件环境 三、SPSS的主要界面 SPSS的主要界面有数据编辑窗口和结果输出窗口。 四、SPSS的帮助系统 SPSS对一些基本模块中的统计提供了帮助,可以通过单击Help菜 单中的Statistics Coach命令,选择所需要的统计指导。 SPSS附加模块功能 SPSS Advan
3、ced 一般线性模型、混合线性模型、对数线性模型、 生存分析等 SPSS Categories对应分析、感知图、Proxscal等 SPSS Complex Sample多阶段复杂抽样技术等 SPSS Conjoint正交设计、联合分析等,适用于市场研究 SPSS Exact Test精确P值计算、随机抽样P值计算等 SPSS Maps在地图上展示数据等 SPSS Missing Value Analysis 缺失数据的报告与填补等 SPSS RegressionLogistic回归、非线性回归、Probit回归等 SPSS Tables 交互式创建各种表格(如堆积表、嵌套表、分层 表等) S
4、PSS TrendsArima模型、指数平滑、自回归等 五、五、SPSS的运行方式的运行方式 SPSS提供了3种基本运行方式:完全窗口菜单方式,程序运行方式、混合运行 方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发,编写自 己的SPSS命令程序,通过语句直接运行。 SPSS中使用的对话框主要有两类,一类是文件操作对话框,文件操作对话窗 口操作与Windows应用软件操作风格一致。另一类是统计分析对话框,统计分 析对话框可以分为主窗口和下级窗口,在该类对话框中,选择参与分析的各类 变量及统计方法是对话框的主要任务。 1.1.2 spss的安装 一、启动Windows 后,把SPSS
5、 系统安装软盘(或光盘)插入软驱(或光 驱),并找到SPSS的安装程序的可执行文件Setup.exe。 二、双击 Setup.exe 文件,安装程序向导将给出每一步操作的提示。在出 现Welcome(欢迎)窗口后,选择Next进入下一步。 三、安装程序显示Software License Agreement对话框时,选择Yes接受 显示的协议条款。 1.2 spss操作入门 1.2.1 spss软件的启动与退出 单击Windows 的开始按钮,在程序菜单项SPSS for Windows中找到SPSS 10.0 for Windows并单击。 1.2.2 SPSS的5个窗口 (1)数据编辑窗口
6、(SPSS Data Editor) Spss处理数据的工作 全在此窗口进行。 (2)结果管理窗口(SPSS Output viewer) 此窗口用于存放分析结果。左边是目录区,右边是内容区。 (3)草稿结果窗口(SPSS Draft Viewer) 草稿结果是结果的一种简化文本格式。实际上就是WORD所兼容 的rtf超文本格式,因此可以在没有安装SPSS的PC机上使用文字 编辑软件打开。 (4)语法编辑窗口(SPSS Syntax Editor) (5)脚本窗口(SPSS Script Editor) 1.2.3 SPSS的四种运行方式 一、菜单对话方式 首先打开SPSS软件,然后选择菜单F
7、ile Open file。 然后,利用菜单Analyze Descriptive Statistics Frequencies, Employment CategoryEmployment Category 36376.676.676.6 275.75.782.3 8417.717.7100.0 474100.0100.0 Clerical Custodial Manager Total Valid FrequencyPercentValid Percent Cumulative Percent 二、程序方式 在Syntax编辑窗口中键入以下程序: Get file=c:program fi
8、lesspssemployee data.sav. Frequencies variables = jobcat/order = analysis。 只需要选择菜单Run All,运行该程序也一样 会出现相同的分析结果。 三、Include命令方式 当编写Syntax程序时,如果发现将要编写的程序语句正好是另一个 Syntax文件的内容;或者发现所需要的程序语句其实是几个Syntax文 件的总和是,除了可以通过“Copy”、“Paste”的方法利用资源,生产 一个新的Syntax文件外,还可以利用Include命令。 Include c:sytaxsample.sps. 四、spss Prod
9、uction Faccility 方式 在Windows的程序菜单中,spss菜单组除了有“spss for windows”项之外, 还有一个“spss production facility”。 (1)单击Syntax框下的“Add”按钮,到C盘根目录下打开 “syntaxsample”。 (2)单击Syntax框下的“Edit”按钮,对程序进行编辑。 (3)单击右下角的“uesr prompts”按钮,添加对程序的 交互分析界面。 (4)单击“Browse”按钮制定 结果保存路径,单击“export options”按钮还可以制定结果保 存格式。 1.2.4 spss的四种输出结果 1、
10、表格格式 2、文本格式 3、标准图与交互图 4、结果的保存和导出 第2章 数据录入与数据获取 本章主要解决两个问题: 第一个问题,根据问题类型的不同,将会从开放题、单选题和多选题的 录入方式为例进行介绍。 第二个问题,重点介绍如何用SPSS直接读取Excel类型和文本格式的数 据,以及如何用ODBC接口读取数据库文件。 2.1.1 统计软件中数据的录入格式 (1)不同观测对象的数据不能在同一记录中出现,即同一 观测数据应当独占一行。 (2)每一个观测量指标或影响因素只能占据一列的位置, 即同一指标的数量观测值都应当录入到同一个变量中去。 2.1 数据格式概述数据格式概述 即:一个观测占一行,一
11、个变量占一列 在录入数据时,归纳为以下三步: 第一步:定义变量名; 第一步:指定每个变量的各种属性; 第一步:录入数据。 变量名不能与spss保留字相同,spss的保留字有ALL、 END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、 TO、WITH。 2.1.2 变量属性介绍变量属性介绍 一、变量的储存类型 SPSS中,变量有三种的基本类型:数值型、字符型和日期型。 标准 数值型 逗号 数值型 圆点 数值型 科学技术法 数值型 美元 数值型 用户自 定义型 数值型:数值型的数据是0-9的阿拉伯数字和其他符号, 如美元符号、逗号或圆点组成的。 字符型:字符型数据的默认显示宽度为8个
12、字符位,系统不区 分变量名中的大小写字母,并且不能进行数学运算。 注意:在输入数据时不应输入引号,否则双引号将会作为字 符型数据的一部分。 日期型:日期型数据是用来表示日期或时间的。日期型数据 的显示格式有很多,SPSS以菜单方式列出日期型数据的显 示格式以供用户选择。事实上,SPSS存储中的日期型变量 是该实践与1582年10月14日零点相差的秒数。 关于日期型格式的几点说明: “m”在年与日(字母y与d)之间表示月份;在时与秒(字母h与s)之间表示 “分”钟。 “mmm”表示要求书写英文月份单词的前三个字母组成的缩写。 “ddd”三个字母d表示要求用从元月一日算起的日数表示日期。 指定了日
13、期变量的格式,不一定在输入时就使用指定的格式。可以输入用 “/”或“”作分隔符的具体日期,回车后,系统将自动将输入的格式转化为 指定的格式,显示在单元各种。 二、变量的测量尺度 在SPSS中使用Measure属性对变量的测量尺度进行定义。 (1)定类尺度(Nominal Measurement):定类尺度是对事物的类别 或属性的一种测度,按照事物的某种属性对其进行分类或分组。 特点:其值仅代表了事物的类别和属性,即能测度类别差异,不能比 较各类之间的大小,所以各类之间没有顺序和等级。对定类尺度的变 量只能计算频数和频率。 在spss中,能适用定类尺度的数据可以是数值型,也可以是字符型 变量。使
14、用定类变量对事物进行分类时,必须符合穷尽原则和互斥 原则。 (2)定序尺度(Ordinal Measurement):定序尺度是对事物之间的 等级或顺序差别的一种测度,可比较优劣或排序。 特点:由于定序变量只能侧度类别之间的顺序,无法测出类别之间的 准确差值,即测量数值不代表绝对的数量大小,所以其测量结果只能 排序,不能进行运算。 (3)定矩尺度(Interval Measurement):定矩尺度是对事物类 别或次序之间间距的测度。 特点:不仅能将事物区分为不同类型并进行排序,而且可能准确指 出类别之间的差距是多少;定居变量通常以自然或物理单位为计量 尺度,因此测量结果往往表现为数值,所以计
15、量结果可以进行加减 运算。 (4)定比尺度(Scale Measurement):定比尺度是能够测算 两个测度值之间比值的一种计量尺度,它的测量结果同定距变 量一样表现为数值。 特点:定必变量是测量尺度的最高水平,它除了具有其他三种 测量尺度的全部特点外,还具有可计算两个侧度至之间笔直的 特点,因此它可以进行加、减、乘、除运算,而定居变量值可 进行加减运算。 三、变量名与变量标签值 Label:定义变量名标签 Value:定义变量值标签 四、缺失值四、缺失值 Spss中缺失值有用户自定义缺失值和系统缺失值两大类。 在SPSS中,对字符型变量,默认的缺失值为空格;对数值型变量,默认的缺失 值为零
16、。 2.2 数据的直接录入 2.1.1 操作界面说明 标尺栏 菜单栏工具栏数据输入区数据编辑区 窗口标签 标题栏 状态栏 当前数据栏 显示区滚动条 Data View表可以直 接输入观测数据值 或存放数据,表的 左端列边框显示观 测个体的序号,最 上端行边框显示变 量名。 Variable View表用来定义和修改变量的名称、类型及其他属性,如图所示。 如果输入变量名后回车,将给出变量的默认属性。如果不定义变量的 属性,直接输入数据,系统将默认变量Var00001,Var00002等。 在Variable View表中,每一行描述一个变量,依次是: Name:变量名。变量名必须以字母、汉字及开
17、头,总长度不超过8个 字符,共容纳4个汉字或8个英文字母,英文字母不区别大小写,最后一个 字符不能是句号。 Type:变量类型。变量类型有8 种,最常用的是Numeric数值型变量。 其它常用的类型有:String字符型,Date日期型,Comma逗号型(隔3位数 加一个逗号)等。 Width:变量所占的宽度。 Decimals:小数点后位数。 Label:变量标签。关于变量涵义的详细说明。 Values:变量值标签。关于变量各个取值的涵义说明。 Missing:缺失值的处理方式。 Columns:变量在Date View 中所显示的列宽(默认列宽为8)。 Align:数据对齐格式(默认为右对
18、齐)。 Measure:数据的测度方式。系统给出名义尺度、定序尺度和等间距尺 度三种(默认为等间距尺度)。 为了在统计分析过程中能有效的利用其它软件产生的数据, SPSS软件编辑窗口除可以使用*.sav扩展名数据文件,还可以直 接打开和保存下述类型的文件: SPSS DOS版本产生的数据文件*.sys; Excel 报表程序产生的数据文件*.xls; DBASE 数据库格式文件*.dbf; SAS统计软件产生的数据文件。 2.2.2 开放题和简单单选题的录入开放题和简单单选题的录入 一、在一、在spss中定义变量中定义变量 录入数据的第一步是定义变量属性,随后才能进行数据录入。 二、开放题的录
19、入二、开放题的录入 三、单选题的录入三、单选题的录入 单选题的录入可以采用字符直接录入、字符代码+值标签、 数值代码+值标签三种方式。 2.2.3多选题的录入 一、多重二分法(Multiple Dichotomy Method) 所谓多重二分法,是在编码的时候,对应每一个选项都要定义 一个变量,有几个选项就有几个变量,这些变量均为二分类, 他们各自代表对一个选项的选择结果。 二、多重分类法(Multiple Category Method) 多重分类法,也是利用多个变量对一个多选题的答案进行定义, 应该用多少个变量,由被访者实际可能给出的最多答案数而 定。 三、多选题录入在三、多选题录入在sp
20、ss中的实现中的实现 2.3 外部数据的获取 SPSS读入非SPSS类型的文件数据,有三种主要方式:直接打开,利 用文本导向读入文本数据以及利用数据库OBDC接口读入数据。 2.3.1 电子表格数据如何导入电子表格数据如何导入spss中中 SPSS中可以直接读入许多常用格式的数据文件,选择菜单File Open Data或直接单击快捷键工具栏上的 快捷按钮,系统就会弹出Open File 对话框,单击“文件类型”列表框,在里面能够看到可以直接打开 的数据文件格式。 2.3.2 文本数据如何导入文本数据如何导入spss中中 第一步:首先,在Open File 文件框中选中文件,单击“打开”,系统
21、会自 动启动文本倒入向导对话框。 第二步:选择“NO”并单击“下一步”按钮。 用某种字 符区分 固定宽度 第三步:分别选择“Delimited”和“yes”,然后单击“下一步”按钮。 第四步第四步 第五步第五步 第六步 第七步 2.4 数据的保存 2.4.1 存为spss格式 2.4.2 存为其他数据格式 第3章 数据管理 3.1 变量级别的数据管理 对变量进行操作的内容主要集中于Transform菜单中,包括新变量的 生成、记录的排序、对变量进行计数等。 计算新变量:就是用Compute过程。 变量转换:包括Recode、Visual Bander、Count、Rank Case、 Auto
22、matic Recode这五个过程。 专用过程:包括建立时间序列、缺失值代替和设定随机种子三个过程。 Run Pending Transforming:用于执行编程中被挂起的数据整理操作。 计算产生新变量 变量值自动编码 设定随机数种子 创建代替缺失值变量 创建时间序列变量 运行其它转换程序 变量值重新编码 创建计数变量 观测量排秩 连续变量进行分段 3.1.1 计算新变量 计算新变量的功能就是在原有spss数据文件的基础上,根据 用户的要求,使用spss算术表达式及函数,对所有记录或满 足SPSS条件表达式的记录,计算出一个新结果,并将结果 存入一个用户指定的变量中。 一、常用基本概念 (1
23、)spss算术表达式 spss算术表达式是由常量、spss变量 名、spss的算术运算符、圆括号等组成的式子。 (2)spss函数 spss提供了多达70多种函数,分为八大类: 算术函数、统计函数、分布函数、逻辑函数、字符串函数、 日期时间函数、缺失值函数和其它函数。 (3)spss条件表达式 通过spss的算术表达式和函数可以对 所有记录计算一个结果,如果仅希望对部分记录进行计算, 则应当利用spss的条件表达式指定对那些记录进行计算。 二、compute过程的分析实例 例3.1 统计英语成绩在60分以上的学生的数学和语文的平均 成绩。 例3.2 计算工人工资的所得税。 学生自己练习。 3.
24、1.2 对变量值进行分组合并对变量值进行分组合并 一、对连续变量进行分组一、对连续变量进行分组 在SPSS中可以将连续变量转换为离散(等级或定序)变量,按照某 种一一对应的关系生成新变量值,可以将新值赋给原变量。Recode 过程和Visual Bander过程都可以完成这一任务,但前者给为简单和 常用。 例3.3 当学生英语成绩小于60时取值为“不及格”,大于等 于60且小于70为“及格”,大于等于70且小于80为“较 好”,大于等于80为“优秀”。 二、分类变量类别的合并二、分类变量类别的合并 Recode过程也常用于合并某个分类变量的几个水平为一个水平。 将上例grade中优秀、良好和及
25、格三个等级合并为一个等级“PASS”, 将grade的等级“不及格”转换为“NOPASS”。 3.1.3 连续变量的可视化分段 VISUAL Bander 用于将连续变量进行分段,该过程使用百分位数、标准差范 围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式。 例3.4 对数学成绩进行分段,假设现在希望按变量math将学生分为5组,60分 以下为第一组,60分以上的按照等间距的方式分为4组。 3.1.4 将字符变量转换为数值变量 用automatic recode将字符变量转换为数值变量。 3.1.5 变量的编秩 所谓编秩,就是对记录按照某个变量值大小来排序。Rank case
26、过程就是用来排序的一个专用过程。 例:根据性别分组计算数学成绩的秩次。 3.1.6 Transform菜单中的其它功能 (1)count过程 如 果用户需要对满足 某项条件的数据进 行计数,可以使用 Count命令。 先在Target Variable中指定一个变量(可以是已经存在的变量或新变 量),并定义变量标签,然后指定要统计的变量加到Numeric Variables 框中,再单击Define Values按纽,打开Value to Count对话框。 Value:输入某个值为清点对象; System-missing:以系统的缺失值为清点对象; System-or user missin
27、g:以系统或用户指定的缺失值为清点对象; Range:指定数值的计数区域:其中包括: ( )through( )在框内指定下限和上限 lowest through( ): 在框内只指定上限; ( )highest through: 在框内只指定下限。 (2)random Number Seed过程:过程: 用于设定伪随机函数的随机种子。用于设定伪随机函数的随机种子。 3.2 文件级别的数据管理(一)文件级别的数据管理(一) 数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能。这个 菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括:对变量、 观测量的编辑处理;对变量数据的变
28、换;对观察量数据整理。 (1)简单命令:包括插入变量、插入记录和到达某条记录,他们的功能 实际上都可以用鼠标在数据表界面上直接完成,很少会使用菜单来调用。 (2)常用的简单过程:包括排序、拆分文件、选择记录和加权记录。 (3)变量与数据文件属性导向:用于定义数据字典,或者将于定义的数 据字典直接引入当前数据文件。 (4)数重构过导向:用于进行数据转置,或者对重复测量数据 表进行长型、宽型记录间的转换。 (5)文件合并过程:将几个数据文件合并为一个大的spss数据 文件,含横向合并和纵向合并两种情况。 (6)正交设计过程:实际上是联合分析模块的一部分,用于生 成实施联合分析所需要的设计。 (7)
29、其他过程:包括定义日期变量过程、数据汇总过程和查找 重复记录导向。 定义变量属性 定义变量日期 插入观测量 拷贝数据属性 插入一个变量 定位观测量 观测量排序 重构数据结构 分类或不分类汇总 正交设计 数据文件转置 合并数据文件 标识重复观测量 拆分数据文件 选择观测量 观测量加权 3.2.1 记录排序记录排序 一、排序的两种方法: (1)在数据表格的变量名处单击右键,弹出的右键菜单最后 两项就是“sort Ascending”和“Sort Descending”。 (2)对于多变量排序,则需要使用Sort Cases过程来进行。 二、多变量排序需要注意的三点: (1)在多重排序中,制定排序变
30、量名是很关键的,先指定的 变量在排序时必然优先于后制订的变量。 (2)可以指定按某变量值升序排序的同时按另一变量值降序 排序,或相反。 (3)排序以后,原来记录数据的排列次序将被打乱。 3.2.2 记录拆分记录拆分 Split File 分割文件的功能是把当前工作分割成两个或两个以 上的组,随后的分析将对每个组进行。 3.2.3 记录筛选 Select Cases:当用户不需要分析全部的数据,而是按要求 分析其中的一部分,使用该选择。 All case:选择所有数据; If condition is satisfied: 按 指定条件选择数据。 Random Sample of cases:
31、对观察值进行随机抽样。 Use filter variable:用指定变量作过滤。先选择一个变量,系统自动在数据管 理器中将该变量值为0的观测单位标上删除记号,系统对标有删除记号的观测 单位不作分析。 Based on time or case range:顺序 抽样。单击Range按纽,打开Select Case: Range对话框,用户自行定义 从第几个观察值开始抽到第几个观察 值结束。 3.2.4 加权记录 Weight Cases:设定某变量为频数变量。:设定某变量为频数变量。 3.2.5 数据汇总数据汇总 所谓分类汇总就是按指定的分类变量对观测值进行分组,对每组记录的 各变量求指定的
32、描述统计量,结果可以存入新数据文件,也可以替换当 前数据文件。 一、汇总的概念一、汇总的概念 二、进行分类二、进行分类 汇总的方法汇总的方法 1、打开“data” 菜单,选择 “Aggregate”, 展开aggregate data”对话框。 2、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变 量(Break Variables)框中。 3、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入 汇总变量(Aggregate Variables)框中,即要求这些变量的值进行分类汇总。 4、“name, 2 , 1(njkixij 一、单因素方差分析的步骤 (一)计算水平均值和
33、总体均值 二、关系强度的测量二、关系强度的测量 S 2 总 组间 SST SSSSA R 7.4.3 双因素方差分析 一、双因素方差分析及其类型 例:有四个品牌的彩电在五个地区销售,为分析彩电的品牌和销 售地区对销售量是否影响,对每个品牌在各地区的销售量取得以 下数据。试分析品牌和销售地区对彩电的销售量是否有影响。 不同品牌的彩电在各地区的销售量数据 二、无交互作用的双因素方差分析 (一)数据结构 ki r x x r j ij i,.,2 , 1 1 rj k x x k i ij j,.,2 , 1 1 kr x x k i r j ij 11 (二)分析步骤 调用此过程可完成多因素方差分
34、析。 操作过程中涉及广义线性模型的内容,故 在此从略。 多因素方差分析 7.4.1 单因素方差分析-spss 单因变量的单因素方差分析主要解决多于两个总体样本或变量间均值的 比较问题。是一种对多个(大于两个)总体样本的均值是否存在显著差 异的检验方法。其目的也是对不同的总体的数据的均值之间的差异是否 显著进行检验。 单因素方差分析的应用条件单因素方差分析的应用条件:在不同的水平(因素变量取不同值)下, 各总体应当服从方差相等的正态分布。 例4,某企业需要一种零件,现有三个不同的地区的企业生产的同种零件可供选择 ,为了比较这三个零件的强度是否相同,每个地区的企业抽出6件产品进行强度测 试,其值如
35、表所示。假设每个企业零件的强度值服从正态分布,试检验这三个地区 企业的零件强度是否存在显著差异。 解:首先建立假设 H0:三个地区的零件强度无 显著差异; H1:三个地区的零件强度有 显著差异。 具体操作过程如下: 1、单击Analyze Compare Means One-Way ANOVA,打开 One- Way ANOVA对话框。 2、从左框中选择因变量”零件强度”进入Dependent list框内,选择因 素变量”地区”进入Factor框内。点击OK就可以得到方差分析下表。 A AN NO OV VA A 百公斤 1125.4442562.7225.591.015 1509.6671
36、5100.644 2635.11117 Between Groups Within Groups Total Sum of SquaresdfMean SquareFSig. 由于F统计量值的P值明显小于显著性水平0.05,故拒绝假设H0,认为这三 个地区的零件强度有显著差异。 如果需要对各地区间的零件强度进行进一步的比较和分析,可以通过按钮 Option选项,contrast对照比较,Post Hoc多重比较去实现。 3、单击Option按纽,打开Option对话框如图所示:在Option选项中选择 输出项。主要有不同水平下样本方差的齐性检验,缺失值的处理方式及 均值的图形。 本例中选择Ho
37、mogeneity of variance test 进行不同水平间方差齐性的检验 以及Descriptive 基本统计描述。在Missing Value栏中选择系统默认项。 完成所有选择后返回主对话框,然后单击OK,就可以得到三个地区零件 强度分析表 。 D De es sc cr ri ip pt ti iv ve es s 百公斤 6102.8312.2545.00389.97115.6983116 6110.005.8992.408103.81116.19103118 690.8310.8154.41579.48102.1873102 18101.2212.4502.93595.031
38、07.4173118 A1 A2 A3 Total NMeanStd. DeviationStd. ErrorLower BoundUpper Bound 95% Confidence Interval for Mean MinimumMaximum T Te es st t o of f H Ho om mo og ge en ne ei it ty y o of f V Va ar ri ia an nc ce es s 百公斤 1.203215.328 Levene Statisticdf1df2Sig. 4、Contrasts按钮可以用来进一步分析随着控制变量水平的变化,观测值 变化的
39、总体趋势以及进一步比较任意指定水平间的均值差异是否显著。 单击Contrasts按钮,打开One-Way ANOVA:Contrasts对话框,见图 。 如果要对组间平方和进行趋势成分检验,选中Polynomial多项式复选项, 选中后激活Degree参数框,在Degree框中选择趋势检验多项式的阶数,有 最高次数可达5 次。系统将给出指定阶数和低于指定阶次各阶次的自由度、 F值和F检验的概率值。 在Contrast栏,指定需要对照比较两个水平的均值。 在Coefficients 框中输入一个系数,单击Add按纽,系数就进入到 Coefficients 框中。重复上述,依次输入各组均值的系数。
40、注意系数的和应 当等于0。如;图就是指第一个水平与第三个水平的均值差比较。 5、如果需要将水平间两两比较,可以单击Post Hoc 按纽,打开多重比较 对话框。 在该对话框中列出了二十种多重比较检验,涉及到许多的数理统计方法, 在实际中只选用其中常用的方法即可。 对话框下部的Significance level表示显著性水平,默认值是0.05,也可以根 据需要重新输入其它值。 如果满足在水平间方差相等的条件,常用LSD(least-significant difference 最小显著性差异法),表示用 t 检验完成各组均值间的配对比较。 当方差不等的情况下,可以选择Tamhanes T2,
41、用t检验进行各组均值间的 配对比较。 从表可以看出,地区2与地区3之间的差异是非常显著的,它们均值差的 检验的尾概率为0.005,明显小于显著性水平0.05。 Multiple ComparisonsMultiple Comparisons Dependent Variable: 百公斤 LSD -7.1675.792.235-19.515.18 12.0005.792.056-.3524.35 7.1675.792.235-5.1819.51 19.167*5.792.0056.8231.51 -12.0005.792.056-24.35.35 -19.167*5.792.005-31.51
42、-6.82 (J) 地区 A2 A3 A1 A3 A1 A2 (I) 地区 A1 A2 A3 Mean Difference (I-J)Std. ErrorSig.Lower BoundUpper Bound 95% Confidence Interval The mean difference is significant at the .05 level. *. 四种颜色饮料销售量样本数据 超市黄色无色粉色绿色 1 2 3 4 5 27.9 25.1 28.5 24.2 26.5 26.5 28.7 25.1 29.1 27.2 31.2 28.3 30.8 27.9 29.6 30.8
43、29.6 32.4 31.7 32.8 数据集12 =2=3=4color=1 sale 定义 变量 单因素方差分析 调用此过程可完成单因素方差分析 单因素方差分析 单因素方差分析的 基本过程可采纳系统的 默认方式。 各种 选项 多重 比较 F统计量=10.544的P值 =0.000 0.05。故拒绝原假设,接受备择假设, 即不同颜色的饮料的销售量有显著差异。 单因素方差分析 对四种颜色下各总体 的均值进行多重比较。 最小显著 性差异法 由于方差分析的前提是 各水平下的总体服从方差相 等的正态分布,因此须对方 差分析的前提进行检验。 输出不同水平下的描述性统计量 输出方差相等 性的检验结果 输
44、出各水平下均值的折线图。 计算中涉及的变 量含有缺失值时 暂时剔除观测 剔除所有含有缺失值的观测 检验统计量=0.255相伴P值=0.856 0.05故可以认为4种水平下各总体的方差无显著差异, 满足单因素方差分析中的方差相等性要求。 单因素方差分析 样本数据所显示的四种颜色饮料销售量的差异。 单因素方差分析 7.4 双因素方差(Univariate)分析过程 单因变量的双因素方差分析是对观察的现象(因变量)受两个因素或变 量的影响进行分析,检验不同水平组合之间对因变量的影响是否显著。 双因素方差分析应用条件:双因素方差分析应用条件:因变量和协变量必须是数值型变量,且因变 量来自或近似来自正态
45、总体。因素变量是分类变量,变量可以是数值型 或字符型的。各水平下的总体假设服从正态分布,而且假设各水平下的 方差是相等的。 双因素方差分析过程可以分析出每一个因素的作用;各因素之间的交互 作用;检验各总体间方差是否相等;还能够对因素的各水平间均值差异 进行比较等。 例5:右表是某商品S在不同地 区和不同时期的销售量表。已知 数据服从正态分布,则要检验地 区因素及时间因素对销售量的影 响是否显著。 由于销售量受地区和时间两个因素的影响,这是一个双因素方差分析的问题。 1、单击Analyze General linear Model Univariate,打开Univariate主 对话框。 2、
46、选择要分析的变量”销售量”进入Dependent Variable 框中,选 择因素变量”地区”和”时期”进入Fixed Factor框中。 3、单击Model按纽选择分析模型,得到Model对话框。如图所示:在 Specify框中,指定模型类型。 Custom选项为自定义模型,本例选择此项并激活下面的各项操作。 先从左边框中选择因素变量进入Model框中,然后选择效应类型。一般 不考虑交互作用时,选择主效应Main,考虑交互作用时,选择交互作用 Interaction。可以通过单击Build Term下面的小菜单完成,本例中选择主 效应。最后在Sum of Square 中选择分解平方和的方
47、法后返回在主对话 框。一般选取默认项Type。单击OK就可以得到相应的双因素方差分 析表 。 从表中数据可以看出, F值对应概率P值都 小于显著性水平0.05, 这说明地区和时期对 销售量的影响都是显 著的。 T Te es st ts s o of f B Be et tw we ee en n- -S Su ub bj je ec ct ts s E Ef ff fe ec ct ts s Dependent Variable: 商品S(千件) 289.717a836.21514.679.000 1015.06011015.060411.438.000 247.218461.80525.0
48、52.000 42.498410.6254.307.015 39.474162.467 1344.25025 329.19024 Source Corrected Model Intercept 地区 时期 Error Total Corrected Total Type III Sum of SquaresdfMean SquareFSig. R Squared = .880 (Adjusted R Squared = .820) a. 4、如果需要进行特定的两水平间的均 值比较,可单击Contrast比较按纽,打 开Contrast对话框如图。在Factor框中 显示所有在主对话框中选择的
49、因素变量, 括号中显示的是当前的比较方法,点击 选中因素变量,可以改变均值的比较方 法。 5、如果需要进行图形展示,可单击Plots按纽,打开图形对话框如图所 示。选择作均值轮廓图(Profile)的参数。 (1)在Factor框中选择因素变量进入横坐标Horizontal Axis框内,然后 单击add按纽,可以得到该因素不同水平的因变量均值的分布。 (2)如果要了解两个因素变量的交互作用,将一个因素变量送入横坐标 后,将另一个因素变量送入Separate Lines分线框中,然后单击add按纽。 就可以输出反映两个因素变量的交互图。本例中选择因素A为横坐标。 6、如需要将因素A各水平间均值
50、进行两两比较,单击Post Hoc按纽,打 开Post Hoc Multiple多重比较对话框如图所示。从Factor框中选择因素 变量进入Post Hoc Test for框中,然后选择多重比较方法。本例中各组 方差相等,选择LSD方法。 7、单击Save 按纽,打开保存对话框,如图所示。选择需要保存的变量。 8、单击Options按纽,打 开Univariate:Options 对话框,从中选择需 要输出的显著性水平, 默认值为0.05。 在进 行所有的选择后,单 击OK,就可以得到输 出结果。由多重比较 LSD表中得到不同地 区销售量的比较表。 Multiple ComparisonsM
51、ultiple Comparisons Dependent Variable: 商品S(千件) LSD -6.080*.9934.000-8.186-3.974 -4.580*.9934.000-6.686-2.474 2.500*.9934.023.3944.606 -.500.9934.622-2.6061.606 6.080*.9934.0003.9748.186 1.500.9934.151-.6063.606 8.580*.9934.0006.47410.686 5.580*.9934.0003.4747.686 4.580*.9934.0002.4746.686 -1.500.99
52、34.151-3.606.606 7.080*.9934.0004.9749.186 4.080*.9934.0011.9746.186 -2.500*.9934.023-4.606-.394 -8.580*.9934.000-10.686-6.474 -7.080*.9934.000-9.186-4.974 -3.000*.9934.008-5.106-.894 .500.9934.622-1.6062.606 -5.580*.9934.000-7.686-3.474 -4.080*.9934.001-6.186-1.974 3.000*.9934.008.8945.106 (J) 因素A
53、A2 A3 A4 A5 A1 A3 A4 A5 A1 A2 A4 A5 A1 A2 A3 A5 A1 A2 A3 A4 (I) 因素A A1 A2 A3 A4 A5 Mean Difference (I-J)Std. ErrorSig.Lower BoundUpper Bound 95% Confidence Interval Based on observed means. The mean difference is significant at the .05 level. *. 两个因素变量地区和时期的折线之间无交叉,因此两个因素 之间基本上没有交互作用。 Estimated Marg
54、inal Means of 商品S(千件) 因素A A5A4A3A2A1 Estimated Marginal Means 14 12 10 8 6 4 2 0 因素B B1 B2 B3 B4 B5 第8章 相关分析与回归模型的建立相关分析与回归模型的建立 与分析与分析 相关分析和回归分析是统计分析方法中最重要内容之一,是多元统计分 析方法的基础。相关分析和回归分析主要用于研究和分析变量之间的相 关关系,在变量之间寻求合适的函数关系式,特别是线性表达式。 本章主要内容:本章主要内容: 对变量之间的相关关系进行分析(Correlate)。其中包括简单相关分析 (Bivariate)和偏相关分析(
55、Partial)。 建立因变量和自变量之间回归模型(Regression),其中包括线性回归 分析(Linear)和曲线估计(Curve Estimation)。 数据条件数据条件:参与分析的变量数据是数值型变量或有序变量。 8.1 相关分析 在SPSS中,可以通过Analyze菜单进行相关分析(Correlate), Correlate菜单如图所示。 8.1.1 简单相关分析 两个变量之间的相关关系称简单相关关系。有两种方法可以反映简单相 关关系。一是通过散点图直观地显示变量之间关系,二是通过相关系数 准确地反映两变量的关系程度。 8.1.1.1 散点图 SPSS软件的绘图命令集中在Grap
56、hs菜单。下面通过例题来介绍具体操 作方法。 例1:数据库中的变量X表示山东省人均国内生产总值,Y表示山东省城 镇居民的消费额(资料来源:山东省2003年统计年鉴),现画出散点图 来观察两个变量的关联程度。 单击Graphs Scatter,打开 Scatter plot散点图对话框,如 图3.2所示。然后选择需要的散 点图,图中的四个选项依次是: Simple 简单散点图 Matrix 矩阵散点图 Overlay 重叠散点图 3-D 三维散点图 如果只考虑两个变量,可选择简单的散点图Simple,然后点 击Define,打开Simple Scatterplot对话框,如图所示。 人均国内生产
57、总值(元) 120001000080006000400020000 城镇居民(元) 8000 7000 6000 5000 4000 3000 2000 1000 0 8.1.1.2 简单相关分析操作 简单相关分析是指两个变量之间的相关分析,主要是指对两变量之间的 线性相关程度作出定量分析。仍然上题为例,说明居民收入与某商品的 销售量两变量的相关分析过程,具体操作如下: 1、打开数据库后,单击Analyze Correlate Bivariate 打开Bivariate 对话框,见图所示。 2、从左边的变量框中选择需要考察的两个变量进入 Variables 框内,从 Correlation C
58、oefficients 栏内选择相关系数的种类,有Pearson相关系数, Kendalls一致性系数和Spearman等级相关系数。从检验栏内选择检验 方式,有双尾检验和单尾检验两种。 3、单击Options按纽,选择输出项和缺失值的处理方式。本例中选择输 出基本统计描述。 4、单击OK,可以得到相关分析的结果。 D De es sc cr ri ip pt ti iv ve e S St ta at ti is st ti ic cs s 2780.6542502.321926 4061.8464092.730726 城镇居民消费额(元) 人均国内生产总值 (元) MeanStd. Dev
59、iationN CorrelationsCorrelations 1.996* .000 2626 .996*1 .000. 2626 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N 城镇居民消费额(元) 人均国内生产总值 (元) 城镇居民消 费额(元) 人均国内 生产总值 (元) Correlation is significant at the 0.01 level (2-tailed). *. 8.1.2 偏相关分析偏相关分析 简单相关关系只反映两个变量之间的关系,但如果因变量受到多个
60、因素 的影响时,因变量与某一自变量之间的简单相关关系显然受到其它相关 因素的影响,不能真实地反映二者之间的关系,所以需要考察在其它因 素的影响剔除后二者之间的相关程度,即偏相关分析。 例2:为了考察火柴销售 量的影响因素,选择煤 气户数、卷烟销量、蚊 香销量、打火石销量作 为影响因素,得数据表。 试求火柴销售量与煤气 户数的偏相关系数. 解:根据数据表建立数据文件,求解火柴销售量与煤气户数的偏相关系 数具体操作如下: 1、首先打开数据文件,单击Analyze Correlate Partial,打开 Partial Correlations对话框,见图所示。 2、从左边框内选择要考察的两个变量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 桥梁模板施工合同范本
- 劳务施工合同范例
- 儿童上学房租合同范例
- 农村资源租赁合同范例
- 卖衣服劳务合同范例
- 供销提成合同范例
- 反腐败合同范例
- 专业厂房装修施工合同范例
- 厨师技术入股权合同范例
- 原材料借用合同范例
- GB/T 772-2005高压绝缘子瓷件技术条件
- 2023年苏州卫生职业技术学院高职单招(语文)试题库含答案解析
- 拘留所教育课件02
- 中国音乐史课件
- 11471劳动争议处理(第4章)
- 小学语文人教三年级下册 赵州桥-
- 基因治疗课件最新版
- 幼儿园社会领域自我意识活动教案(3篇)
- 识别和获取法律法规管理制度
- 2022年老年人健康管理工作总结
- 《碳纤维片材加固混凝土结构技术规程》(2022年版)
评论
0/150
提交评论