vipSPSS与统计分析学习_第1页
vipSPSS与统计分析学习_第2页
vipSPSS与统计分析学习_第3页
vipSPSS与统计分析学习_第4页
vipSPSS与统计分析学习_第5页
已阅读5页,还剩182页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

vipSPSS与统计分析学习第1页/共187页内容概况2.初级统计4.补充内容描述统计参数检验方差分析非参检验(了解)相关与回归聚类分析判别分析主成分分析因子分析以下以问题为线索举例讲解1.SPSS基础3.高级统计(多元统计为主)第2页/共187页常见10类统计问题(以教育统计为例)1)一般性统计-频数、频率、均值、方差等;例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做统计,说明此地区上述指标情况,就要作出一般性统计。2)两总体间某类特征数据的差异显著性;例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。3)多总体间某类特征数据的差异显著性;例如:研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差异问题。4)一个or多个因素对结果影响的显著性;例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。5)两个特征变量数据的相关性大小;例如:个人受教育年限与个人收入关系密切程度。第3页/共187页6)一变量vs另一or多个变量间的近似函数关系;

例如:一个地区人均教育支出与人均GDP总值近似函数关系。7)某变量是否服从特定分布;例如:某校学生月生活费支出是否服从正态分布。8)如何将多个研究对象分类;例如:将我国31个省市按人均教育经费多少分为五大类。9)如何将多指标数据简化(降维);例如:影响小学辍学率的因素有很多,比如人均国内生产总值、人均教育经费、农民人均收入、当地文盲率等十几个因素,能否简化为几个综合因素(因子)。10)如何对研究对象综合排序。例如:衡量一个地区教育现代化水平有多个指标,而且这些指标量纲都不一样,现有几个地区,按教育现代化水平排序,如何进行?第4页/共187页SPSSVS统计问题解决方法问题数据类型定性数据定量数据服从or近似服从正态分布非正态分布(了解)1-一般性统计基本统计分析2-两总体差异卡方检验-列联表分析T检验、配对、两独立样本检验非参检验两独立、配对样本3-多总体差异卡方检验-列联表分析方差分析非参检验多独立、配对样本4-一个or多个对结果影响方差分析非参检验多独立、配对样本5-变量相关性卡方检验相关分析6-变量间函数关系回归分析7-变量是否服从特定分布非参检验单样本K-S检验8-分类聚类分析、判别分析9-数据降维因子分析、主成分分析10-综合排序第5页/共187页

a定类(CategoryScale):只能计次例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类

b定序(OrdinalScale):计次、排序

例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。

c定距(IntervalScale):计次、排序、加减最常见,如身高、体重等通常使用自然或物理单位作为计量尺度级别逐渐增高!预备知识1:度量尺度(Measure)统计学依据数据的度量尺度将数据划分为三大类:第6页/共187页定类数据-名义级定序数据-序次级定距数据-间距级定比数据定性数据定量数据定性(品质)数据-计算各组频数、频率处理方法定量(数量)数据-均值or其他复杂统计方法注:SPSS中只区分三种测量尺度,即定类、定序和定距,定比尺度的分析技术和定距一般不再做严格区分第7页/共187页数据编辑窗口中的一行称为一个个案或记录(Case),所有个案组成SPSS数据文件的内容。数据编辑窗口的一列称为一个变量(Variable),每个变量都有一个名字,称为变量名,它是访问和分析SPSS每个变量的唯一标志。SPSS数据文件的结构就是对每个变量及相关特征的描述。SPSS数据的组织方式案例:住房状况调查.sav预备知识2:SPSS基础第8页/共187页数据建立与存储建立直接录入(先定义数据结构,再录入数据),示例间接导入Excel格式注意要关闭源文件

示例1data1.xlstxt注意第2步中是否有表头

示例2data1.txt特别注意导入后数据类型的核对!存储格式(.sav,.xls)示例住房状况调查.sav第9页/共187页第1类问题-描述统计一般性统计-频数、频率、均值、方差等;例如:抽样调查某地区家庭义务教育支出,其中问卷调查项目有家庭人口、父母受教育年限、子女人数、上学人数、家庭人均收入、家庭人均支出、教育支出、少数民族比例。要对整个抽样做统计,说明此地区上述指标情况,就要作出一般性统计。第10页/共187页

描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Analyze/DescriptiveStatistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)及绘制统计图平均数、中位数、众数、方差、百分位、频数、峰度、偏度例:住房状况调查.sav,对不同性别进行频数分析Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)(下页例题)描述统计示例论文2详参:补充资料2-SPSS基本统计分析第11页/共187页SPSS中实现描述统计过程

研究问题

10个学生在某次数学、语文、化学考试中成绩如表3-6所示,试求学生在3门课程上的频数分布。12第12页/共187页表3-6 学生成绩姓名数学语文化学hxh99.0098.00100.00yaju88.0089.0045.00yu99.0080.0056.00shizg89.0078.0067.00hah94.0078.0078.00lisa90.0089.0087.00watet79.0087.0089.00jess75.0076.0097.00wish89.0056.0076.00iiakii80.0076.00100.0013Data3.sav第13页/共187页变异系数(补充)又称差异系数(coefficientofvariation,CV)CV=标准差/均值(可手工计算)应用:比较测量单位不同的事物的差异程度;比较测量单位相同,均数相差悬殊数据的差异程度判断班内学习分化的情况详细参见变异系数-教育统计学与SPSS(范晓玲)第14页/共187页练习数据“data0.sav”中存放了某公司职工数据,请完成下列问题:1)试对该公司员工“当前薪金”进行描述统计分析,即计算其平均值、中位数、众数、极差、最大值、最小值、标准差、方差。2)画出“当前薪金”的频数直方图,观察是否服从正态分布;第15页/共187页方法:均值检验例如:研究我国重点与非重点两类大学毕业生收入有无差异问题。在正态或近似正态分布的计量资料中,经常在使用统计描述过程分析后,还要进行组与组之间平均水平的比较。本节介绍的T检验方法,主要应用在两个样本间比较。如果需要比较两组以上样本均数的差别,这时就不能使用上述的T检验方法作两两间的比较。对于两组以上的均数比较,可以使用第下节中介绍的方差分析方法。第2类问题-两总体间某类特征数据的差异显著性第16页/共187页统计方法描述统计推断统计估计假设检验参数检验非参数检验第17页/共187页假设检验的基本思想1.事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立;2.采用逻辑上的反证法,依据统计上的小概率原理。第18页/共187页假设检验的步骤提出原假设(零假设)H0;确定适当的检验统计量;计算检验统计量的值发生的概率(P值);给定显著性水平(软件默认0.05);作出统计决策。P值<(如0.05),拒绝原假设P值>(如0.05),接受原假设务必熟记第19页/共187页单一样本T检验2.1两独立样本T检验2.2两配对样本T检验2.320Analyze-CompareMeans”可用于均值检验,其子菜单中“One-sampleTtest”用于单一样本T检验“Independent-samplesTtest”用于两独立样本T检验“Baired-samplesTtest”用于两配对样本T检验。第20页/共187页2.1单一样本T检验2.1.1统计学上的定义和计算公式

定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。21第21页/共187页

计算公式如下。单样本T检验的零假设为H0总体均值和指定检验值之间不存在显著差异。

即H0:

0采用T检验方法,按照下面公式计算T统计量:22第22页/共187页23第23页/共187页2.1.2SPSS中实现过程

研究问题分析某班级学生的某次考试数学成绩和全校的平均成绩75之间是否存在显著性差异(或是否可以认为本班成绩与全校平均成绩(75分)相同?)。数据存于data9.sav。24第24页/共187页

实现步骤图4-4“One-SampleTTest”设置框25第25页/共187页4.1.3结果和讨论26由于P=0.589>0.05,接受原假设,可以认为本班成绩与全校平均成绩不存在显著差异。第26页/共187页2.2两独立样本T检验2.2.1统计学上的定义和计算公式

定义:所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。27第27页/共187页

两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。样本来自的两个总体应该服从正态分布。28第28页/共187页

两独立样本T检验的零假设H0:两总体均值之间不存在显著差异

即H0:1

2

在具体的计算中需要通过两步来完成:第一,利用F检验判断两总体的方差是否相同;第二,根据第一步的结果,决定T统计量和自由度计算公式,进而对T检验的结论作出判断。29第29页/共187页1.判断两个总体的方差是否相同SPSS采用LeveneF方法检验两总体方差是否相同。30SPSS自动检验第30页/共187页2.根据第一步的结果,决定T统计量和自由度计算公式

(1)两总体方差未知且相同情况下,T统计量计算公式为31第31页/共187页

(2)两总体方差未知且不同情况下,T统计量计算公式为

T统计仍然服从T分布,但自由度采用修正的自由度,公式为32第32页/共187页

从两种情况下的T统计量计算公式可以看出,如果待检验的两样本均值差异较小,t值较小,则说明两个样本的均值不存在显著差异;相反,t值越大,说明两样本的均值存在显著差异。33第33页/共187页2.2.2SPSS中实现过程

研究问题对12名来自城市的学生与14名来自农村的学生进行心理素质测验,试分析城市学生与农村学生心理素质有无显著差别。34数据存于data10.sav,其中1—城市学生,2—农村学生;p—测验得分。第34页/共187页图4-6“Independent-SamplesTTest”对话框35

实现步骤第35页/共187页图4-7“DefineGroups”对话框36第36页/共187页2.2.3结果和讨论37方差齐性检验中,p=0.791>0.05,接受原假设,可以认为方差相等(具有齐性),可以做t检验。t检验结果,p=0.017<0.05,拒绝原假设,即城市学生与农村学生心理素质有显著差异,并且得分均值4.6917>农村3.4350,可见城市学生好于农村。如果方差检验不具有齐性,建议改用非参数检验第37页/共187页练习

研究问题分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。38表4-2 两所学校学生的高考数学成绩表学校数学清华998879595489795689北大992389705067788956请仿照独立样本T检验操作第38页/共187页2.3.1统计学上的定义和计算公式2.3两配对样本T检验

定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后的效果比较。前者推断两种效果有无差别,后者推断某种处理是否有效。39第39页/共187页

两配对样本T检验的前提要求如下。

两个样本应是配对的。在应用领域中,主要的配对资料包括:具有年龄、性别、体重、病况等非处理因素相同或相似者。首先两个样本的观察数目相同,其次两样本的观察值顺序不能随意改变。样本来自的两个总体应服从正态分布。40第40页/共187页

两配对样本T检验的零假设H0:两总体均值之间不存在显著差异。即H0:1-20首先求出每对观察值的差值,得到差值序列;然后对差值求均值;最后检验差值序列的均值,即平均差是否与零有显著差异。如果平均差和零有显著差异,则认为两总体均值间存在显著差异;否则,认为两总体均值间不存在显著差异。41第41页/共187页42第42页/共187页SPSS将自动计算T值,由于该统计量服从n−1个自由度的T分布,SPSS将根据T分布表给出t值对应的相伴概率值。如果相伴概率值小于或等于用户设想的显著性水平,则拒绝H0,认为两总体均值之间存在显著差异。相反,相伴概率大于显著性水平,则不拒绝H0,可以认为两总体均值之间不存在显著差异。43第43页/共187页2.3.2SPSS中实现过程

研究问题研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。数据如表4-3所示。44data11.sav第44页/共187页表4-3 培训前后的成绩变化人名数学1数学2化学1化学2hxh99.0098.00100.0090.00yaju88.0089.0045.0099.00yu79.0080.0056.0070.00shizg59.0078.0067.0078.00hah54.0078.0078.0088.00s89.0089.0087.0088.00watet79.0087.0089.0087.00jess56.0076.0097.0098.00wish89.0056.0076.0098.002_new199.0076.00100.0099.002_new223.0089.0089.0089.002_new389.0089.0089.0098.002_new470.0099.0089.0088.002_new550.0089.0098.0099.002_new667.0088.0078.0087.002_new778.0098.0078.0087.002_new889.0078.0089.0088.002_new956.0089.0068.0079.0045第45页/共187页

实现步骤图4-8“Pared-SamplesTTest”对话框46第46页/共187页2.3.3结果和讨论47表3中,双侧配对T检验结果,p=0.046<0.05,拒绝原假设,差异显著,即参加数学辅导班前后学习成绩有显著差异,由均值看出,参加辅导班后成绩有所提升。化学照办第47页/共187页练习试通过比较引用减肥茶前后数据,判断该减肥茶的效果。减肥茶数据.sav第48页/共187页第3类问题-多总体间某类特征数据的差异显著性方法:定性数据——交叉列联表分析;定量数据——方差分析例如:吸烟与肺癌关系研究具有博士学位、硕士学位和学士学位毕业生期望收入有无差异问题。第49页/共187页交叉分组下的频数分析目的了解不同变量在不同水平下的数据分布情况例:学习成绩与性别有关联吗?(两变量)例:职业、性别、爱逛商店有关联吗?(三变量)分析的主要步骤产生交叉列联表分析列联表中变量间的关系第50页/共187页交叉分组下的频数分析检验的零假设是:行和列变量之间彼此独立,不存在显著的相关关系。SPSS将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝零假设,认为行列变量之间彼此相关。第51页/共187页实例:某医院色觉就诊情况如下表:试分析色盲与性别有关联吗男女色盲1023正常1220设置三个变量:是否色盲、性别、人数注意层次,重要!示例色觉性别人数色盲男10色盲女23正常男12正常女20定性数据-列联表分析列联表.sav第52页/共187页实现步骤-设置权重变量!Data-Weightcases图3-38“WeightCases”对话框53注意:设置成功后,会在数据窗口右下角状态栏中显示“weighton”第53页/共187页图3-39在菜单中选择“Crosstabs”命令54第54页/共187页图3-40“Crosstabs”对话框55第55页/共187页结果和讨论(1)先输出如下个案处理摘要表。56第56页/共187页

(2)下面所示表格是“色盲”变量和“性别”变量的交叉列联表结果表格。57第57页/共187页(3)输出卡方统计结果表。58卡方检验中的Pearson卡方值0.376,对应的p值0.54>0.05,接受原假设,即认为色盲与性别没有显著的关系(可以认为二者是相互独立的)。第58页/共187页练习

研究问题探讨吸烟与肺癌的关系。59吸烟与否患肺癌未患肺癌吸烟5320不吸烟405第59页/共187页3.1相关概念

1、影响因素的分类:在所有的影响因素中根据是否可以人为控制可以分为两类,一类是人为可以控制的因素,称为控制因素或控制变量,如种子品种的选定,施肥量的多少;另一类因素是认为很难控制的因素,称为随机因素或随机变量,如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。2、控制变量的不同水平:控制变量的不同取值或水平,称为控制变量的不同水平。如甲品种、乙品种;10公斤化肥、20公斤化肥、30公斤化肥等。3、观测变量:受控制变量和随机变量影响的变量称为观测变量,如农作物的产量等。

方差分析就是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量以及对观测变量有显著影响的各个控制变量其不同水平以及各水平的交互搭配是如何影响观测变量的一种分析方法。定量数据-方差分析第60页/共187页3.2方差分析的原理

方差分析认为,如果控制变量的不同水平对观测变量产生了显著影响,那么它和随机变量共同作用必然使得观测变量值显著变动;反之,如果控制变量的不同水平没有对观测变量产生显著影响,那么观测变量值的变动就不明显,其变动可以归结为随机变量影响造成的。建立在观测变量各总体服从正态分布和同方差的假设之上,方差分析的问题就转化为在控制变量不同水平上的观测变量均值是否存在显著差异的推断问题了。综上所述,方差分析从对观测变量的方差分解入手,通过推断控制变量各水平下各观测变量的均值是否存在显著差异,分析控制变量是否给观测变量带来了显著影响,进而再对控制变量各个水平对观测变量影响的程度进行剖析。根据控制变量的个数可将方差分析分为单因素方差分析、多因素方差分析;根据观测变量的个数可将方差分析分为一元方差分析(单因变量方差分析)和多元方差分析(多因变量方差分析)。第61页/共187页3.3单因素方差分析的基本思想

1、定义:单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。例如:分析不同施肥量是否给农作物的产量产生显著影响;研究不同学历是否对工资收入产生显著影响等。2、观测变量方差的分解将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,分别表示为:其中,SST为观测变量的总离差平方和;SSA为组间离差平方和,是由控制变量不同水平造成的观测变量的变差;SSE为组内平方和,是由抽样误差引起的观测变量的变差。第62页/共187页其中:第63页/共187页3、比较观测变量总离差平方和各部分的比例在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由于控制变量引起的,可以主要由控制变量来解释,即控制变量给观测变量带来了显著影响。这里我们用F统计量来表示这种比例关系,如果控制变量的不同水平对观测变量造成了显著影响,那么观测变量总变差中控制变量所占的比例较大,则F值就比较大;反之,如果控制变量的不同水平对观测变量没有造成显著影响,那么观测变量总变差中控制变量所占的比例较小,则F值就比较小。第64页/共187页3.4单因素方差分析的基本步骤提出原假设:控制变量不同水平下观测变量各总体的均值无显著差异原假设成立,即H0:1234备择假设成立,即H1:i(i=1,2,3,4)不全相等计算检验统计量和概率P值给定显著性水平与p值做比较:如果p值小于显著性水平,则应该拒绝原假设,反之就不能拒绝原假设。第65页/共187页3.5单因素方差分析的基本操作步骤

在利用SPSS进行单因素方差分析时,应注意数据的组织形式。SPSS要求定义两个变量分别存放观测变量值和控制变量的水平值。基本操作步骤如下:1、选择菜单Analyze-Comparemeans-One-WayANOVA,出现窗口第66页/共187页2、将观测变量选择到DependentList框。3、将控制变量选择到Factor框。控制变量有几个不同的取值表示控制变量有几个水平。4、Option选项(非常重要)

Option选项用来对方差分析的前提条件进行检验。

Homogeneityofvariancetest选项实现方差齐性检验;(要选中)其零假设是各水平下观测变量总体方差无显著性差异5、PostHoc选项(当方差分析结果为存在显著差异时用)

PostHoc选项用来实现多重比较检验。在方差分析中,由于其前提所限,应用中多采用EqualVariancesAssumed框中的方法(尽量不用方差不等时的情况,不完善!)。常用LSD方法和S-N-K方法至此,SPSS便自动分解观测变量的方差,计算组间方差、组内方差、F统计量以及对应的概率p值,完成单因素方差分析的相关计算,并将结果显示到输出窗口中。第67页/共187页3.6单因素方差分析的应用举例

某企业在制订某商品的广告策略时,对不同广告形式的广告效果(销售额)进行了评估。这里以商品销售额为观测变量,广告形式为控制变量,通过单因素方差分析方法对广告形式对销售额的影响进行方差分析。广告与销售额.sav结果解释(下页):要求掌握!注意数据格式!第68页/共187页(1)单因素方差分析的前提检验结果,也就是Homogeneityofvariancetest69注:p=0.515>0.05,接受原假设,可以认为方差相等!因此可以进行方差分析第69页/共187页(2)方差分析表70P<0.001<0.05,拒绝原假设,即4种广告形式对销售额的影响有显著差异,到底是何差异?继续进行多重比较…操作演示第70页/共187页(3)多重比较-LSD法的结果71报纸和广播p=0.412>0.05),无显著差异;但与宣传品、体验间有显著差异以下类似;总体来看,宣传品与其余3中形式间存在显著差异,而且效果不如其他三种形式;其余3中形式间没有显著差异。从描述统计结果看,广播、报纸、体验的效果均优于宣传品,建议少采用该形式。第71页/共187页(4)多重比较-SNK法的结果72右半部分被分为2列,且体验、广播、报纸在一列,说明三者间差异不显著,而宣传品被单独划分一列,可见宣传品与其余3种形式差异显著。,从描述统计结果看法宣传品效果差于其他三种形式第72页/共187页练习为研究三种不同饲料对生猪体重增加(wyh)的影响,将生猪随机分成三组各喂养不同的饲料(sl),得到体重增加的数据存放在“生猪与饲料.sav”,试利用单因素方差分析考察不同饲料对生猪体重增加是否存在显著差异?如果存在显著差异,请通过多重比较探讨饲料间的优劣性。第73页/共187页练习3

西方国家有一种说法,认为精神病与月亮有关,月圆时,人盯着州亮看,看得太久,就会得精神病。中医也有一种说法,认为精神病与季节有关,特别是春季,人最容易得精神病。为了检验这两种说法是否有道理,对某地平均每日精神病发病人数统计如下:问:(1)季节对精神病是否有显著的影响?(α=0.05)(2)月亮对精神病是否有显著的影响?(α=0.05)data1.savdata2.sav第74页/共187页第4类问题-一个或多个因素对结果影响的显著性方法:多元方差分析(略)例如:不同性别、不同地区、不同家庭背景的学生接受高等教育情况有无差异;教学手段与课外科研活动是否对学生学习成绩有影响。可参考张文彤《高级篇》(第2章征服一般线性模型下,2.1Multivariate)第75页/共187页第5类问题-两个特征变量数据的相关性大小方法:

相关分析例如:个人受教育年限与个人收入关系密切程度。第76页/共187页相关关系概念变量间关系不能用函数关系精确表达一个变量的取值不能由另一个变量唯一确定(注:相关和回归的重要区别之一,相关关系用于变量间无明确因果关系,如年龄和血压)当变量x取某个值时,变量y的取值可能有几个各观测点分布在直线周围xy第77页/共187页相关关系的类型第78页/共187页散点图不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关第79页/共187页相关系数

r

的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系

-1r<0,为负相关

0<r1,为正相关

|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切第80页/共187页相关系数的显著性检验1. 检验两个变量之间是否存在线性相关关系采用R.A.Fisher提出的t检验检验的步骤为提出假设:H0:;H1:0计算检验的统计量:确定显著性水平,并作出决策若t>t,拒绝H0

若t<t,不能拒绝H0实际分析先画散点图即H0为两总体无显著的线性相关关系第81页/共187页Correlation第82页/共187页83第83页/共187页

为了判断r对ρ的代表性大小,需要对相关系数进行假设检验。(1)首先假设总体相关性为零,即H0为两总体无显著的线性相关关系。(2)其次,计算相应的统计量,并得到对应的相伴概率值。如果相伴概率值小于或等于指定的显著性水平,则拒绝H0,认为两总体存在显著的线性相关关系;如果相伴概率值大于指定的显著性水平,则不能拒绝H0,认为两总体不存在显著的线性相关关系。84第84页/共187页双变量关系强度测量的主要指标红色情况常用第85页/共187页Pearson简单相关系数用来衡量定距变量间的线性关系。如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。86第86页/共187页计算公式如下。Pearson简单相关系数计算公式为87第87页/共187页

对Pearson简单相关系数的统计检验是计算t统计量,公式为

t统计量服从n−2个自由度的t分布。88第88页/共187页例

研究问题某班级学生数学和化学的期末考试成绩如表6-1所示,现要研究该班学生的数学和化学成绩之间是否具有相关性。89第89页/共187页表6-1 学生的数学和化学成绩人名数学化学hxh99.0090.00yaju88.0099.00yu65.0070.00shizg89.0078.00hah94.0088.00smith90.0088.00watet79.0075.00jess95.0098.00wish95.0098.00laly80.0099.00John70.0089.00chen89.0098.00david85.0088.00caber50.0060.00marry87.0087.00joke87.0087.00jake86.0088.00herry76.0079.0090第90页/共187页图6-4在菜单中选择“Scatter/Dot”命令

散点图实现步骤91第91页/共187页图6-5“Scatter/Dot”对话框92第92页/共187页图6-6“SimpleScatterplot”对话框93第93页/共187页图6-7散点图

结果和讨论94显示基本呈线性相关关系,需进一步做相关分析第94页/共187页

相关分析实现步骤图6-1在菜单中选择“Bivariate”命令95第95页/共187页图6-2“BivariateCorrelations”对话框(一)96第96页/共187页图6-3“BivariateCorrelations:Options”对话框97第97页/共187页8.2.3结果和讨论98结果分析:1)从变量间线性相关性检验结果来看,p值<0.001,拒绝原假设,即可以认为数学与化学成绩间存在显著的线性相关关系;2)Pearson简单相关系数为0.742,可以认为二者之间具有较强的线性相关性第98页/共187页练习

某农场通过试验取得某农作物产量与春季降雨量的数据,如表6-3所示。探讨降雨量与产量的相关性。99产量降雨量150.0025.00230.0033.00300.0045.00450.00105.00480.00111.00500.00115.00550.00120.00580.00120.00600.00125.00600.00130.00第99页/共187页第6类问题-一变量vs另一(or多个)变量间的近似函数关系方法:回归分析(一元、多元、Logistic等;线性、非线性)注:回归分析探讨的变量间一般具有因果关系;相关分析则未必!第100页/共187页第101页/共187页第102页/共187页第103页/共187页第104页/共187页注意:原假设均认为系数等于0,故希望看到拒绝原假设!第105页/共187页第106页/共187页第107页/共187页第108页/共187页回归分析检验策略

此细节根据自己情况而定第109页/共187页9.2.4线性回归分析的基本操作(1)选择菜单Analyze-Regression-Linear,出现窗口:高校科研研究.sav第110页/共187页(2)选择被解释变量进入Dependent框。(3)选择一个或多个解释变量进入Independent(s)框。(4)在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量强行进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward表示向后筛选策略;Forward表示向前筛选策略。多元回归中才用到第111页/共187页(5)第三和第四步中确定的解释变量及变量筛选策略可放置在不同的块(Block)中。通常在回归分析中不止一组待进入方程的解释变量和相应的筛选策略,可以单击Next和Previous按钮设置多组解释变量和变量筛选策略并放置在不同的块中。(适用于探索性分析)(6)选择一个变量作为条件变量放到Selection

Variable框中,并单击Rule按钮给定一个判断条件。只有变量值满足判定条件的样本才参与线性回归分析。(7)在CaseLabels框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回归分析的输出图形中。了解第112页/共187页9.2.5线性回归分析的其他操作1、Statistics按钮,出现的窗口可供用户选择更多的输出统计量。了解第113页/共187页(1)Estimates:SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的容忍度。(2)ConfidenceIntervals:输出每个非标准化回归系数95%的置信区间。(3)Descriptive:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。第114页/共187页(4)Modelfit:SPSS默认输出项,输出判定系数、调整的判定系数、回归方程的标准误差、回归方程显著F检验的方程分析表。(5)Rsquaredchange:输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。(6)Partandpartialcorrelation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。第115页/共187页(7)Covariancematrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。(8)CollinearityDiagnostics:多重共线性分析,输出各个解释变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等。(9)在Residual框中:Durbin-waston表示输出DW检验值;CasewiseDiagnostic表示输出标准化残差绝对值大于等于3(SPSS默认值)的样本数据的相关信息,包括预测值、残差、杠杆值等。第116页/共187页2、Options选项,出现的窗口可供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式。(包含常数项的选项!)3、Plot选项,出现的窗口用于对残差序列的分析。自学第117页/共187页(1)窗口左边框中各变量名的含义是:DEPENDNT表示被解释变量,*ZPRED表示标准化预测值,*ZRESID表示标准化残差,*DRESID表示剔除残差,*ADJPRED表示调整的预测值,*SRESID表示学生化残差,*SDRESID表示剔除学生化残差。(2)绘制多对变量的散点图,可根据需要在scatter框中定义散点图的纵坐标和横坐标变量。(3)在StandardizedResidualPlots框中选择Histogram选项绘制标准化残差序列的直方图;选择Normalprobabilityplot绘制标准化残差序列的正态分布累计概率图。选择Produceallpartial

plots选项表示依次绘制被解释变量和各个解释变量的散点图。第118页/共187页4、Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。(1)PredictedValues框中:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。(2)Distance框中:保存均值或个体预测值95%(默认)置信区间的下限值和上限值。(3)Residual框中:保存非标准化残差、标准化残差等。(4)InfluenceStatistics框中:保存剔除第i个样本后统计量的变化量。5、WSL选项,采用加权最小二乘法替代普通最小二乘法估计回归参数,并指定一个变量作为权重变量。第119页/共187页

合成纤维的强度与其拉伸倍数有关,测得试验数据如表1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。120一元线性回归例题(建议掌握)序号拉伸倍数强度(kg/mm2)12.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1第120页/共187页求解先画散点图graphs/scatter基本呈线性相关关系,可以进一步考虑一元线性回归分析1第121页/共187页如果不对任何选项进行操作,仅进行自变量、因变量选入,则给出基本结果,如下第122页/共187页拟合优度:R2=0.972,说明拟合效果很好回归方程显著性检验:P值<0.001,拒绝原假设,即解释变量(自变量)与被解释变量(因变量)间具有显著的线性关系。回归系数显著性检验:自变量对应P值<0.001,拒绝原假设,即自变量变量与因变量间具有显著的线性关系。但常数项检验未通过,以下考虑改进模型(去掉常数项)第123页/共187页模型改进取消此选项第124页/共187页改进结果改进结果显示,决定系数明显增大(注:此指标越大越好,但并非为其是论,还有其他指标),回归方程显著检验通过,最终选择方程为Y=0.893x,可以进一步做预测,方法如下页第125页/共187页预测拉伸倍数为12.5时的强度(求点预测和区间预测)方法1:自行代入模型运算;方法2:软件计算,将自变量拉伸强度12.5,写入自变量的最后一行,如图:然后,在save中选择预测(点预测和区间预测),如下页图示第126页/共187页第127页/共187页预测结果预测结果在原始数据右侧显示,如图点预测值95%预测区间(10.13,12.18)此例结束第128页/共187页以高校科研研究数据为例,建立回归方程研究,以课题总数为被解释变量,解释变量为投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)。(1)解释变量采用强制进入策略(Enter),并做多重共线性检测。(2)解释变量采用向后筛选策略让SPSS自动完成解释变量的选择。(3)解释变量采用逐步筛选策略让SPSS自动完成解释变量的选择。多元线性回归举例(最好掌握)第129页/共187页多元略微复杂,本例仍采用最简操作(均采用默认选项),结果如下结果显示:拟合优度较高,回归方程显著性检验通过,但回归系数显著性检验中,仅投入人年数通过,因此推测可能存在多重共线性,应考虑多重共线性诊断和更换变量选择策略。第130页/共187页多重共线性诊断,statistics/colinearydia..第131页/共187页共线性主要判断方法,如右表本例诊断结果,可见共线性较为严重!考虑更新策略,如向后筛选或逐步筛选,继续做。第132页/共187页更改策略-向后筛选及结果实际上,相当于做了多次回归分析!直到满足条件的模型被找到为止!注:多元回归很难真正找到最优模型!第133页/共187页其他结果不再逐个分析;本结果最后显示,只保留了投入人年数一个变量!同时发现常数项检验仍未通过!可以考虑采用模型:y=0.492*x2-94.524也可以考虑,继续去掉常数项,自己完成。本例结束第134页/共187页1、为研究收入和支出的关系,收集1978-2002年我国的年人均可支配收入和年人均消费性支出数据,研究收入与支出之间是否具有较强的线性关系。练习年人均消费支出和教育.sav第135页/共187页以年人均支出和教育数据为例,建立回归方程研究年人均消费支出、恩格尔系数、在外就餐、教育支出、住房人均使用面积受年人均可支配收入的影响。练习年人均消费支出和教育.sav第136页/共187页曲线估计(建议掌握)曲线估计概述变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。第137页/共187页常见的本质线性模型有:1、二次曲线(Quadratic),方程为,变量变换后的方程为2、复合曲线(Compound),方程为,变量变换后的方程为3、增长曲线(Growth),方程为,变量变换后的方程为第138页/共187页4、对数曲线(Logarithmic),方程为,变量变换后的线性方程为5、三次曲线(Cubic),方程为,变量变换后的方程为6、S曲线(S),方程为,变量变换后的方程为7、指数曲线(Exponential),方程为,变量变换后的线性方程为第139页/共187页8、逆函数(Inverse),方程为变量变换后的方程为9、幂函数(Power),方程为变量变换后的方程为10、逻辑函数(Logistic),方程为变量变换后的线性方程为第140页/共187页第141页/共187页

SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R2等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。第142页/共187页曲线估计的基本操作可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:(1)选择菜单Analyze-Regression-CurveEstimation,出现窗口如下页所示。(2)把被解释变量选到Dependent框中。第143页/共187页第144页/共187页(3)曲线估计中的解释变量可以是相关因素变量也可是时间变量。如果解释变量为相关因素变量,则选择Variable选项,并把一个解释变量指定到Independent框;如果选择Time参数则表示解释变量为时间变量。(4)在Models中选择几种模型。(5)选择PlotModels选项绘制回归线;选择DisplayANOVAtable输出各个模型的方差分析表和各回归系数显著性检验结果。至此,完成了曲线估计的操作,SPSS将根据选择的模型自动进行曲线估计,并将结果显示到输出窗口中。第145页/共187页应用举例1、教育支出的相关因素分析为研究居民家庭教育支出和消费性支出之间的关系,收集到1978年至2002年全国人均消费性支出和教育支出的数据。首先绘制教育支出和消费性支出的散点图。观察散点图发现两变量之间呈非线性关系,可尝试选择二次、三次曲线、复合函数和幂函数模型,利用曲线估计进行本质线性模型分析。其中,教育支出为被解释变量,消费性支出为解释变量。年人均消费支出和教育.sav演示第146页/共187页2、分析和预测居民在外就餐的费用利用收集到1978年至2002年居民在外就餐消费的数据,对居民未来在外就餐的趋势进行分析和预测。首先绘制就餐费用的序列图,选择菜单Graphs-Sequence。得到的序列图表明自80年代以来居民在外就餐费用呈非线性增加,90年代中期以来增长速度明显加快,大致呈指数形式,可利用曲线估计进行分析。由于要进行预测,因此在曲线估计主窗口中要单击Save按钮,出现如下窗口:年人均消费支出和教育.sav第147页/共187页第148页/共187页SaveVariables框中:Predictedvalues表示保存预测值;Residual表示保存残差;Predictioninterval表示保存预测值默认95%置信区间的上限和下限值。Predictcases框中:只有当解释变量为时间时才可选该框中的选项。Predictfromestimationperiodthroughlastcase表示计算当前所有样本期内的预测值;Predictthrough表示计算指定样本期内的预测值,指定样本期在Observation框后输入。本例希望预测2003年和2004年的值,应在Observation框后输入27。软件提供模型有限,建议结合MATLAB使用第149页/共187页第7类问题-某变量是否服从特定分布方法:非参数检验-单样本K-S检验例如:某校学生月生活费支出是否服从正态分布。正态性检验方法:图形:直方图、PP图、QQ图非参数检验-单样本K-S检验第150页/共187页示例英语成绩.sav为某班部分同学英语考试成绩,试判断该班同学英语成绩是否服从正态分布?作图:直方图-graphs/histogram第151页/共187页PP图,结果显示,基本在直线上,可以认为服从正态分布;QQ图类似,不再赘述第152页/共187页检验-更加准确,提倡使用第153页/共187页原假设:该列数据所在总体分布与正态分布无显著差别(即服从正态分布)本例:p值为0.737>0.05,故可以认为该班同学英语成绩服从正态分布。第154页/共187页第8类问题-如何将多个研究对象分类方法:聚类分析与判别分析第155页/共187页聚类分析的应用:无处不在谁经常光顾商店,谁买什么东西,买多少?按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样)第156页/共187页为什么这样分类?(分类的好处)因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!第157页/共187页谁是银行信用卡的黄金客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!这样银行可以……制定更吸引的服务,留住客户!比如:一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!第158页/共187页例如:城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。例如:研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。第159页/共187页例如:某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。例如:考古学家使用判别分析对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。第160页/共187页聚类与判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。(无师学习)判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。(有师学习)判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。第161页/共187页关于聚类分析聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。聚类分析详解见参考书文件夹中张文彤《高级篇》P179第162页/共187页例1对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。应聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第163页/共187页第164页/共187页第165页/共187页聚类分析的基本思想:根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.相似样本或指标的集合称为类。问题:如何来选择样品(或指标)间相似的测度指标,如何将有相似性的类连接起来?第166页/共187页聚类分析类型及方法1、聚类分析的类型:对样本分类,称为Q型聚类分析(常见)对变量分类,称为R型聚类分析

Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。

R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。第167页/共187页2、聚类分析的方法:

系统聚类(层次聚类)(以此为例讲解)HierarchicalCluster非系统聚类(用到自学)(非层次聚类)Non-hierarchicalClusterK-均值法(K-means)(快速聚类法、逐步聚类法)有序样品的聚类分析法模糊聚类法等第168页/共187页聚类案例文件“应征人员测试.sav”为一组有关应征人员测试系统的48个样本数据,变量包括申请书形式、外貌、学术能力、讨人喜欢、自信程度等15项指标。要求依据上述数据,对应征人员进行分类,并给出所采用分类方法、结果的具体说明;另外给出分四类的分法。

第169页/共187页操作步骤第170页/共187页画出谱系图(树状图)第171页/共187页一般

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论