版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。第1页/共186页第一页,编辑于星期六:二十二点 二十一分。 相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 在回归分析中,变量y y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y y与变
2、量x x处于平等的地位,研究变量y y与变量x x的密切程度和研究变量x x与变量y y的密切程度是一样的。第2页/共186页第二页,编辑于星期六:二十二点 二十一分。 在回归分析中,因变量y y是随机变量,自变量x x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x x和变量y y都是随机变量。 相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。第3页/共186页第三页,编辑于星期六:二十二点 二十一分。 具体地说,
3、回归分析主要解决以下几方面的问题。 通过分析大量的样本数据,确定变量之间的数学关系式。 对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 第4页/共186页第四页,编辑于星期六:二十二点 二十一分。 作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(RegressionRegression)”名称的由来都要归功于英国统计学家F FGaltonGalton(1822182219111911)。 第5
4、页/共186页第五页,编辑于星期六:二十二点 二十一分。 在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。第6页/共186页第六页,编辑于星期六:二十二点 二十一分。7.2.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其
5、他多种事物(多个自变量)的影响。第7页/共186页第七页,编辑于星期六:二十二点 二十一分。第8页/共186页第八页,编辑于星期六:二十二点 二十一分。第9页/共186页第九页,编辑于星期六:二十二点 二十一分。第10页/共186页第十页,编辑于星期六:二十二点 二十一分。第11页/共186页第十一页,编辑于星期六:二十二点 二十一分。第12页/共186页第十二页,编辑于星期六:二十二点 二十一分。第13页/共186页第十三页,编辑于星期六:二十二点 二十一分。 在实际问题中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量y y总体的全部取值。也就是说,
6、总体回归方程事实上是未知的,需要利用样本的信息对其进行估计。显然,样本回归方程的函数形式应与总体回归方程的函数形式一致。 第14页/共186页第十四页,编辑于星期六:二十二点 二十一分。第15页/共186页第十五页,编辑于星期六:二十二点 二十一分。第16页/共186页第十六页,编辑于星期六:二十二点 二十一分。第17页/共186页第十七页,编辑于星期六:二十二点 二十一分。第18页/共186页第十八页,编辑于星期六:二十二点 二十一分。第19页/共186页第十九页,编辑于星期六:二十二点 二十一分。第20页/共186页第二十页,编辑于星期六:二十二点 二十一分。第21页/共186页第二十一页
7、,编辑于星期六:二十二点 二十一分。第22页/共186页第二十二页,编辑于星期六:二十二点 二十一分。第23页/共186页第二十三页,编辑于星期六:二十二点 二十一分。第24页/共186页第二十四页,编辑于星期六:二十二点 二十一分。第25页/共186页第二十五页,编辑于星期六:二十二点 二十一分。第26页/共186页第二十六页,编辑于星期六:二十二点 二十一分。第27页/共186页第二十七页,编辑于星期六:二十二点 二十一分。第28页/共186页第二十八页,编辑于星期六:二十二点 二十一分。 通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回
8、归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检验。 第29页/共186页第二十九页,编辑于星期六:二十二点 二十一分。 (1 1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。 第30页/共186页第三十页,编辑于星期六:二十二点 二十一分。 回归方程的拟合优度检验一般用判定系数R2R2实现。该指标是建立在对总离差平方和进行分解的基础之上。第31页/共186页第三十一页,编辑于星期六:二十二点 二十一分。 (2 2)回归方程的显著性检验(F F检验) 回归方程的显著
9、性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。回归方程的显著性检验一般采用F F检验,利用方差分析的方法进行。 第32页/共186页第三十二页,编辑于星期六:二十二点 二十一分。第33页/共186页第三十三页,编辑于星期六:二十二点 二十一分。 (3 3)回归系数的显著性检验(t t检验) 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。 之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个
10、回归系数进行考察。 第34页/共186页第三十四页,编辑于星期六:二十二点 二十一分。 回归参数显著性检验的基本步骤。 提出假设 计算回归系数的t t统计量值 根据给定的显著水平确定临界值,或者计算t t值所对应的p p值 作出判断第35页/共186页第三十五页,编辑于星期六:二十二点 二十一分。 研究问题 合成纤维的强度与其拉伸倍数有关,测得试验数据如表7-17-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。7.2.2 SPSS中实现过程中实现过程第36页/共186页第三十六页,编辑于星期六:二十二点 二十一分。序序 号号拉拉 伸伸 倍倍 数数强度(强度(kg/mm2)1
11、2.01.622.52.432.72.543.52.754.03.564.54.275.25.086.36.497.16.5108.07.3119.08.01210.08.1第37页/共186页第三十七页,编辑于星期六:二十二点 二十一分。 实现步骤第38页/共186页第三十八页,编辑于星期六:二十二点 二十一分。第39页/共186页第三十九页,编辑于星期六:二十二点 二十一分。第40页/共186页第四十页,编辑于星期六:二十二点 二十一分。第41页/共186页第四十一页,编辑于星期六:二十二点 二十一分。第42页/共186页第四十二页,编辑于星期六:二十二点 二十一分。第43页/共186页第
12、四十三页,编辑于星期六:二十二点 二十一分。 (1 1)输出结果文件中的第一个表格如下表所示。 7.2.3 结果和讨论结果和讨论第44页/共186页第四十四页,编辑于星期六:二十二点 二十一分。 (2 2)输出的结果文件中第二个表格如下表所示。第45页/共186页第四十五页,编辑于星期六:二十二点 二十一分。 (3 3)输出的结果文件中第三个表格如下表所示。 第46页/共186页第四十六页,编辑于星期六:二十二点 二十一分。 (4 4)输出的结果文件中第四个表格如下表所示。第47页/共186页第四十七页,编辑于星期六:二十二点 二十一分。7.3.1 统计学上的定义和计算公式统计学上的定义和计算
13、公式 定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。第48页/共186页第四十八页,编辑于星期六:二十二点 二十一分。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。第49页/共186页第四十九页,编辑于星期六:二十二点 二十一分。 研究在线性相关条件下,两个或两个以上自变量对一个
14、因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 第50页/共186页第五十页,编辑于星期六:二十二点 二十一分。第51页/共186页第五十一页,编辑于星期六:二十二点 二十一分。第52页/共186页第五十二页,编辑于星期六:二十二点 二十一分。第53页/共186页第五十三页,编辑于星期六:二十二点 二十一分。第54页/共186页第五十四页,编辑于星期六:二十二点 二十一分。第55页/共186页第五十五页,编辑于星期六:二十二点
15、 二十一分。第56页/共186页第五十六页,编辑于星期六:二十二点 二十一分。第57页/共186页第五十七页,编辑于星期六:二十二点 二十一分。 对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。 (1 1)拟合优度检验 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为第58页/共186页第五十八页,编辑于星期六:二十二点 二十一分。 (2 2)回归方程的显著性检验(F F检验) 多元线性回归方程的显著性检验一般采用F F检验,利用方差分析的方法进行。 第59页/共186页第五十九页,编辑于星期六:二十二点 二十一分。 (3 3)回
16、归系数的显著性检验(t t检验) 回归系数的显著性检验是检验各自变量x x1 1,x x2 2,对因变量y y的影响是否显著,从而找出哪些自变量对y y的影响是重要的,哪些是不重要的。 与一元线性回归一样,要检验解释变量对因变量y y的线性作用是否显著,要使用t t检验。 第60页/共186页第六十页,编辑于星期六:二十二点 二十一分。 研究问题 用多元回归分析来分析3636个员工多个心理变量值(z1z1z8z8)对员工满意度mymy的预测效果,测得试验数据如表7-27-2所示。7.3.2 SPSS中实现过程中实现过程第61页/共186页第六十一页,编辑于星期六:二十二点 二十一分。z1z2z
17、3z4z5z6z7Z8满满 意意 度度66.0064.0062.0050.0058.0056.001.081.0025.0055.0050.0059.0059.0053.0051.001.001.1122.0050.0047.0049.0045.0046.0046.001.311.2020.0055.0059.0050.0054.0052.0069.001.001.0020.0055.0059.0048.0056.0047.0050.001.001.0024.0062.0054.0068.0046.0046.0051.001.081.0023.0060.0060.0056.0053.0052.
18、0051.001.081.0021.0052.0052.0069.0058.0057.0062.001.001.0023.0056.0055.0057.0039.0044.0046.001.691.0015.0050.0050.0068.0046.0045.0056.001.081.1425.0058.0054.0060.0059.0052.0051.001.001.0025.0053.0052.0055.0057.0065.0064.001.081.0022.0052.0056.0053.0057.0063.0051.001.461.4320.0056.0065.0052.0051.0062
19、.0047.001.001.0022.0050.0063.0059.0053.0055.0048.001.001.0020.0063.0057.0060.0066.0051.0056.001.001.0026.0056.0046.0058.0050.0045.0052.002.231.2921.0047.0050.0057.0049.0050.0048.002.081.1420.0053.0066.0053.0059.0055.0045.001.001.0025.00第62页/共186页第六十二页,编辑于星期六:二十二点 二十一分。z1z2z3z4z5z6z7z8满满 意意 度度61.0055
20、.0058.0061.0058.0061.001.151.1423.0059.0064.0060.0052.0054.0056.001.081.0026.0055.0060.0072.0060.0055.0067.001.081.0026.0056.0052.0068.0040.0051.0055.001.851.7130.0059.0051.0061.0056.0052.0056.001.001.0025.0060.0053.0062.0055.0047.0063.001.311.1427.0052.0051.0057.0045.0055.0059.001.231.1420.0056.005
21、7.0057.0052.0059.0055.001.001.1426.0068.0058.0071.0068.0053.0061.001.001.0030.0060.0053.0061.0060.0056.0051.001.001.0027.0064.0056.0074.0050.0059.0057.001.851.1418.0067.0053.0060.0053.0053.0051.001.001.0024.0056.0056.0067.0067.0056.0052.001.001.0024.0053.0046.0049.0043.0050.0048.001.311.1419.0053.00
22、57.0065.0052.0067.0059.001.771.4317.0060.0040.0071.0057.0056.0058.001.081.0024.0054.0045.0044.0049.0042.0046.001.001.0023.00第63页/共186页第六十三页,编辑于星期六:二十二点 二十一分。 实现步骤第64页/共186页第六十四页,编辑于星期六:二十二点 二十一分。 (1 1)输出结果文件中的第一个表格如下表所示。7.3.3 结果和讨论结果和讨论第65页/共186页第六十五页,编辑于星期六:二十二点 二十一分。 2 2)输出的结果文件中第二个表格如下表所示。第66页/共1
23、86页第六十六页,编辑于星期六:二十二点 二十一分。 (3 3)输出的结果文件中第三个表格如下表所示。第67页/共186页第六十七页,编辑于星期六:二十二点 二十一分。 (4 4)输出的结果文件中第四个表格如下表所示。第68页/共186页第六十八页,编辑于星期六:二十二点 二十一分。 (5 5)输出的结果文件中第五个表格如下表所示。第69页/共186页第六十九页,编辑于星期六:二十二点 二十一分。 (6 6)输出的结果文件中第六个表格为回归系数分析,如下表所示 第70页/共186页第七十页,编辑于星期六:二十二点 二十一分。 (7 7)输出的结果文件中第七个表格如下表所示。第71页/共186页
24、第七十一页,编辑于星期六:二十二点 二十一分。 (8 8)输出的结果文件中第八部分为图形,为回归因变量和每个自变量之间的关系点图。图7-87-8为自变量z1z1和mymy之间的关系点图。第72页/共186页第七十二页,编辑于星期六:二十二点 二十一分。7.4.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分析。 在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。第73页/共186页第七十三页,编辑于星期六:二十二点 二十一分
25、。 非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。一般步骤为:第74页/共186页第七十四页,编辑于星期六:二十二点 二十一分。 根据经验或者绘制散点图,选择适当的非线性回归方程; 通过变量置换,把非线性回归方程化为线性回归; 用线性回归分析中采用的方法来确定各回归系数的值; 对各系数进行显著性检验。第75页/共186页第七十五页,编辑于星期六:二十二点 二十一分。 计算公式如下。 在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。 第76页/共186页第七十六页,编辑于星期六:二十二点 二十一分。第77
26、页/共186页第七十七页,编辑于星期六:二十二点 二十一分。第78页/共186页第七十八页,编辑于星期六:二十二点 二十一分。第79页/共186页第七十九页,编辑于星期六:二十二点 二十一分。第80页/共186页第八十页,编辑于星期六:二十二点 二十一分。第81页/共186页第八十一页,编辑于星期六:二十二点 二十一分。第82页/共186页第八十二页,编辑于星期六:二十二点 二十一分。第83页/共186页第八十三页,编辑于星期六:二十二点 二十一分。第84页/共186页第八十四页,编辑于星期六:二十二点 二十一分。 研究问题 研究民用汽车总量与国内生产总值的关系。数据如表7-37-3所示。(资
27、料来源:中国统计年鉴20072007,中国统计出版社,20072007年)7.4.2 SPSS中实现过程中实现过程第85页/共186页第八十五页,编辑于星期六:二十二点 二十一分。 实现步骤第86页/共186页第八十六页,编辑于星期六:二十二点 二十一分。第87页/共186页第八十七页,编辑于星期六:二十二点 二十一分。第88页/共186页第八十八页,编辑于星期六:二十二点 二十一分。7.4.3 结果和讨论结果和讨论 (1 1)第一部分输出相关统计量和参数的值,如下表所示。第89页/共186页第八十九页,编辑于星期六:二十二点 二十一分。 (2 2)第二部分输出的是观察值和CubicCubic
28、,PowerPower两种曲线预测值的对比图,如图7-127-12所示。第90页/共186页第九十页,编辑于星期六:二十二点 二十一分。7.5.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。第91页/共186页第九十一页,编辑于星期六:二十二点 二十一分。 然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:第92页/共186页第九十二页,编辑于星期六:二十二点
29、 二十一分。 首先根据实际问题本身特点,同时选择几种模型; 然后SPSSSPSS自动完成模型的参数估计,并显示R2R2、F F检验值、相伴概率值等统计量; 最后,选择具有R2R2统计量值最大的模型作为此问题的回归模型,并作一些预测。第93页/共186页第九十三页,编辑于星期六:二十二点 二十一分。第94页/共186页第九十四页,编辑于星期六:二十二点 二十一分。第95页/共186页第九十五页,编辑于星期六:二十二点 二十一分。 研究问题 试用SPSSSPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-47-4所示。(资料来源:中国统计年鉴20072007,中国统计
30、出版社,20072007年)7.5.2 SPSS中实现过程中实现过程第96页/共186页第九十六页,编辑于星期六:二十二点 二十一分。年年 份份国内生产总值(亿元)国内生产总值(亿元)社会消费品零售总额(亿元)社会消费品零售总额(亿元)19783645.21558.619794062.61800.019804545.62140.019814891.62350.019825323.42570.019835962.72849.419847208.13376.419859016.04305.0198610275.24950.0198712058.65820.0198815042.87440.0198
31、916992.38101.4199018667.88300.1199121781.59415.6199226923.510993.7199335333.912462.1199448197.916264.7199560793.720620.0199671176.624774.1199778973.027298.9199884402.329152.5199989677.131134.7200099214.634152.62001109655.237595.22002120332.748135.92003135822.852516.32004159878.359501.02005183867.967
32、176.62006210871.076410.0第97页/共186页第九十七页,编辑于星期六:二十二点 二十一分。 实现步骤第98页/共186页第九十八页,编辑于星期六:二十二点 二十一分。第99页/共186页第九十九页,编辑于星期六:二十二点 二十一分。 (1 1)SPSSSPSS输出结果文件中的第一部分如下表所示。 7.5.3 结果和讨论结果和讨论第100页/共186页第一百页,编辑于星期六:二十二点 二十一分。 (2 2)输出的结果文件中第二部分如图7-157-15所示。 第101页/共186页第一百零一页,编辑于星期六:二十二点 二十一分。 (3 3)由于进行曲线估计时所选的曲线模型种
33、类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不易分辨出究竟LinearLinear,QuadraticQuadratic,CubicCubic及PowerPower这4 4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。 第102页/共186页第一百零二页,编辑于星期六:二十二点 二十一分。第103页/共186页第一百零三页,编辑于星期六:二十二点 二十一分。 (4 4)重新回到图7-137-13所示对话框,在“ModelModel”框内只选中“QuadraticQuadratic”和“CubicCubic”这两种拟合优度更高的曲线模型进行估计。得出它们与观察值
34、的对比图,如图7-177-17所示。第104页/共186页第一百零四页,编辑于星期六:二十二点 二十一分。第105页/共186页第一百零五页,编辑于星期六:二十二点 二十一分。 (5 5)如果在图7-137-13所示对话框中选中了“Display ANOVA tableDisplay ANOVA table”项,作回归方程显著性检验,将输出相应的方差分析表,以CubicCubic模型为例(如下表所示),其结果是:回归方程显著有意义,并且x,x2,x3x,x2,x3三个自变量的系数显著不为零。 第106页/共186页第一百零六页,编辑于星期六:二十二点 二十一分。第107页/共186页第一百零七
35、页,编辑于星期六:二十二点 二十一分。第108页/共186页第一百零八页,编辑于星期六:二十二点 二十一分。第109页/共186页第一百零九页,编辑于星期六:二十二点 二十一分。 (6 6)由于在图7-137-13所示对话框中选了“SaveSave”项,且在图7-147-14所示的“Save VariablesSave Variables”框中选择了“Predicted valuesPredicted values”,“ResidualsResiduals”和“Prediction intervalsPrediction intervals”3 3个选项,因此在SPSSSPSS数据编辑窗口中就
36、增了fit_1fit_1,err_1err_1,lcl_1lcl_1,ucl_1ucl_1等4444个变量的值,如图7-187-18所示。第110页/共186页第一百一十页,编辑于星期六:二十二点 二十一分。第111页/共186页第一百一十一页,编辑于星期六:二十二点 二十一分。7.6.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x x,代表具体的经济或社会现象的变量设为因变量y y,研究变量x x与y y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似。 计算公式:SPS
37、SSPSS中时间序列的曲线估计模型与上一节所介绍相同。第112页/共186页第一百一十二页,编辑于星期六:二十二点 二十一分。 研究问题 试用SPSSSPSS对1978197820062006年间社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-57-5所示。(资料来源:中国统计年鉴20072007,中国统计出版社,20072007年)7.6.2 SPSS中实现过程中实现过程第113页/共186页第一百一十三页,编辑于星期六:二十二点 二十一分。序序 号号年年 份份社会消费品零售总额(亿元)社会消费品零售总额(亿元)119781558.6219791800.0319802140.041
38、9812350.0519822570.0619832849.4719843376.4819854305.0919864950.01019875820.01119887440.01219898101.41319908300.11419919415.615199210993.716199314270.417199418622.918199523613.819199628360.220199731252.921199833378.122199935647.923200039105.724200143055.425200248135.926200352516.327200459501.02820056
39、7176.629200676410.0第114页/共186页第一百一十四页,编辑于星期六:二十二点 二十一分。 实现步骤第115页/共186页第一百一十五页,编辑于星期六:二十二点 二十一分。第116页/共186页第一百一十六页,编辑于星期六:二十二点 二十一分。 (1 1)第一部分输出相关统计量和参数的值如下表所示。7.6.3 结果和讨论结果和讨论第117页/共186页第一百一十七页,编辑于星期六:二十二点 二十一分。 (2 2)第二部分输出的是观察值LinearLinear,CubicCubic,PowerPower和Exponential 4Exponential 4种曲线预测值的对比图
40、,如图7-217-21所示。 第118页/共186页第一百一十八页,编辑于星期六:二十二点 二十一分。 (3 3)由于在图7-197-19所示“Curve Curve EstimationEstimation”对话框(三)中选了“SaveSave”项,且在图7-207-20的“Save VariablesSave Variables”框中选择了“Predicted valuesPredicted values”选项和“Predict CasesPredict Cases”框中选择了“Predict throughPredict through”项,并且在“ObservationObservat
41、ion”框中键入了“3131”,因此在SPSSSPSS数据编辑窗口中就新增了fit_1fit_1,fit_2fit_2,fit_3fit_3和fit_4fit_4等4 4个变量的预测值,同时在窗口下方还新增了两个个案,它们分别代表对20072007年和20082008年的预测值。如图7-227-22所示。 第119页/共186页第一百一十九页,编辑于星期六:二十二点 二十一分。第120页/共186页第一百二十页,编辑于星期六:二十二点 二十一分。7.7.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实
42、际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数量变量、定量变量或数量因素。然而,在实际问题的研究中,经常会碰到一些非数量型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。 第121页/共186页第一百二十一页,编辑于星期六:二十二点 二十一分。 在建立一个实际问题的回归方程时,经常需要考虑这些定性变量。例如,建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响;建立空调的销售模型时,除了要考虑居民收入和商品价格这两个量的因素之外,还必须将“季节”这个质的因素,作为一个重要解释变量。 第122页/共186页第一百二十二页,编辑于星期
43、六:二十二点 二十一分。 由于受到质的因素影响,回归模型的参数不再是固定不变的。例如,在空调销售模型中,收入、价格与空调销售额的关系是随着季节变化而改变的,也就是说,在不同的季节回归模型的参数也会有所不同。再如,我国居民的消费行为在改革开放前后大不相同,因此消费函数的参数也会发生变化。显然,如果忽略质的因素,仍把模型中的参数看作是固定不变的,得到的参数估计量就不能正确描述经济变量之间的关系。第123页/共186页第一百二十三页,编辑于星期六:二十二点 二十一分。 在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0 0”和“1 1”两个值的0 01 1型虚拟自变量。当
44、某一属性出现时,虚拟变量取值为“1 1”,否则取值为“0 0”。例如,令“1 1”表示改革开放以后的时期,“0 0”则表示改革开放以前的时期。再如,用“l l”表示某人是男性,“0 0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。第124页/共186页第一百二十四页,编辑于星期六:二十二点 二十一分。 如果在回归模型中需要引入多个0 01 1型虚拟变量D D时,虚拟变量的个数应按下列原则来确定:对于包含一个具有k k种特征或状态的质因素的回归模型,如果回归模型不带常数项,则中需引入k k个0
45、 01 1型虚拟变量D D;如果有常数项,则只需引入k k1 1个0 01 1型虚拟变量D D。当k=2k=2时,只需要引入一个0 01 1型虚拟变量D D。第125页/共186页第一百二十五页,编辑于星期六:二十二点 二十一分。 计算公式如下。 下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型。 (1 1)自变量中只含一个定性变量,且这个定性变量只有两种特征的简单情况时。 (2 2)自变量中含多个定性变量时。第126页/共186页第一百二十六页,编辑于星期六:二十二点 二十一分。 研究问题 研究采取某项保险革新措施的速度y y与保险公司的规模x1x1及其类型d
46、d之间的关系,数据如表7-67-6所示。7.7.2 SPSS中实现过程中实现过程第127页/共186页第一百二十七页,编辑于星期六:二十二点 二十一分。iyx1d1171510226920321175043031052210406027707122100819120094290010162380112816411215272113112951143868115318511621224117201661181330511930124120142461第128页/共186页第一百二十八页,编辑于星期六:二十二点 二十一分。 实现步骤第129页/共186页第一百二十九页,编辑于星期六:二十二点 二十
47、一分。 (1 1)第一部分输出结果文件中的第一个表格如下表所示。7.7.3 结果和讨论结果和讨论第130页/共186页第一百三十页,编辑于星期六:二十二点 二十一分。 (2 2)输出的结果文件中第二个表格如下表所示。第131页/共186页第一百三十一页,编辑于星期六:二十二点 二十一分。 (3 3)输出的结果文件中第三个表格如下表所示。第132页/共186页第一百三十二页,编辑于星期六:二十二点 二十一分。 (4 4)输出的结果文件中第四个表格如下表所示。第133页/共186页第一百三十三页,编辑于星期六:二十二点 二十一分。7.8.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:
48、逻辑回归分析是对定性变量的回归分析。第134页/共186页第一百三十四页,编辑于星期六:二十二点 二十一分。 可用于处理定性因变量的统计分析方法有:判别分析(Discriminant analysisDiscriminant analysis)、ProbitProbit分析、LogisticLogistic回归分析和对数线性模型等。在社会科学中,应用最多的是LogisticLogistic回归分析。LogisticLogistic回归分析根据因变量取值类别不同,又可以分为Binary LogisticBinary Logistic回归分析和Multinomi-nal LogisticMulti
49、nomi-nal Logistic回归分析。 第135页/共186页第一百三十五页,编辑于星期六:二十二点 二十一分。 Binary Logistic Binary Logistic回归模型中因变量只能取两个值1 1和0 0(虚拟因变量),而Multinomial Multinomial LogisticLogistic回归模型中因变量可以取多个值。本节将只讨论Binary LogisticBinary Logistic回归,并简称LogisticLogistic回归(与7.57.5节曲线估计中介绍的LogisticLogistic曲线模型相区别)。LogisticLogistic函数的形式为
50、第136页/共186页第一百三十六页,编辑于星期六:二十二点 二十一分。第137页/共186页第一百三十七页,编辑于星期六:二十二点 二十一分。第138页/共186页第一百三十八页,编辑于星期六:二十二点 二十一分。第139页/共186页第一百三十九页,编辑于星期六:二十二点 二十一分。第140页/共186页第一百四十页,编辑于星期六:二十二点 二十一分。第141页/共186页第一百四十一页,编辑于星期六:二十二点 二十一分。第142页/共186页第一百四十二页,编辑于星期六:二十二点 二十一分。第143页/共186页第一百四十三页,编辑于星期六:二十二点 二十一分。第144页/共186页第一
51、百四十四页,编辑于星期六:二十二点 二十一分。第145页/共186页第一百四十五页,编辑于星期六:二十二点 二十一分。第146页/共186页第一百四十六页,编辑于星期六:二十二点 二十一分。第147页/共186页第一百四十七页,编辑于星期六:二十二点 二十一分。第148页/共186页第一百四十八页,编辑于星期六:二十二点 二十一分。第149页/共186页第一百四十九页,编辑于星期六:二十二点 二十一分。第150页/共186页第一百五十页,编辑于星期六:二十二点 二十一分。第151页/共186页第一百五十一页,编辑于星期六:二十二点 二十一分。第152页/共186页第一百五十二页,编辑于星期六:
52、二十二点 二十一分。 与任何概率一样,似然的取值范围在0,10,1之间。2LL2LL的计算公式为1-2对数似然值(对数似然值(-2 log likelihood,-2LL)第153页/共186页第一百五十三页,编辑于星期六:二十二点 二十一分。 Logistic Logistic回归的拟合优度统计量计算公式为 在实际问题中,通常采用如下分类表(Classification TableClassification Table)反映拟合效果。2拟合优度(拟合优度(Goodness of Fit)统计量)统计量第154页/共186页第一百五十四页,编辑于星期六:二十二点 二十一分。Predicted
53、(预测值)01Percent Correct (正确分类比例)Observed(观测值)0n00n01f01n10n11f1Overall(总计)ffClassification Table for YClassification Table for Y第155页/共186页第一百五十五页,编辑于星期六:二十二点 二十一分。3Cox和和Snell的的R 2(Cox&Snells R-Square)第156页/共186页第一百五十六页,编辑于星期六:二十二点 二十一分。4Nagelkerke的的R 2(N agelkerkes R-Square)第157页/共186页第一百五十七页,编辑
54、于星期六:二十二点 二十一分。5伪伪R 2(Psedo-R-square) 伪R R2 2与线性回归模型的R R2 2相对应,其意义相似,但它小于1 1。第158页/共186页第一百五十八页,编辑于星期六:二十二点 二十一分。6Hosmer和和Lemeshow的拟合优度检验统计的拟合优度检验统计量(量(Hosmer and Lemeshows Goodness of Fit Test Statistic) 与一般拟合优度检验不同,HosmerHosmer和LemeshowLemeshow的拟合优度检验通常把样本数据根据预测概率分为1010组,然后根据观测频数和期望频数构造卡方统计量(即Hosm
55、erHosmer和LemeshowLemeshow的拟合优度检验统计量,简称H-LH-L拟合优度检验统计量),最后根据自由度为8 8的卡方分布计算其值并对LogisticLogistic模型进行检验。 第159页/共186页第一百五十九页,编辑于星期六:二十二点 二十一分。 如果该p p值小于给定的显著性水平(如=0.05=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。 第160页/共186页第一百六十页,编辑于星期六:二十二点 二十一分。7Wald统计量
56、统计量 Wald Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。 (1 1)提出假设。 (2 2)构造WaldWald统计量。 (3 3)作出统计判断。第161页/共186页第一百六十一页,编辑于星期六:二十二点 二十一分。 研究问题 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y =1y =1表示居民主要乘坐公共汽车上下班;y y =0=0表示主要骑自行车上下班;自变量x1x1表示被调查者的年龄;x2x2表示被调查者的月收入;x3x3表示被调查者的性别(x3=1x3=1为男性,x3=0 x3=0为女性)。试建立y y与自变量间的LogisticLogist
57、ic回归,数据如表7-77-7所示。7.8.2 SPSS中实现过程中实现过程第162页/共186页第一百六十二页,编辑于星期六:二十二点 二十一分。序号序号x1(年龄)(年龄)x2(月收入:元)(月收入:元)x3(性别)(性别)y11885000221120000323850014239500152812000163185000736150001842100001946950011048120000115518000112562100011358180001141885010152010001016251200101727130010182815001019309501120321000102
58、1331800102233100010233812001024411500102545180011264810001027521500112856180011第163页/共186页第一百六十三页,编辑于星期六:二十二点 二十一分。 实现步骤第164页/共186页第一百六十四页,编辑于星期六:二十二点 二十一分。第165页/共186页第一百六十五页,编辑于星期六:二十二点 二十一分。 (1 1)第一部分输出结果有两个表格,第一个表格说明所有个案(2828个)都被选入作为回归分析的个案。 7.8.3 结果和讨论结果和讨论第166页/共186页第一百六十六页,编辑于星期六:二十二点 二十一分。 第二
59、个表格说明初始的因变量值(0 0,1 1)已经转换为逻辑回归分析中常用的0 0、1 1数值。第167页/共186页第一百六十七页,编辑于星期六:二十二点 二十一分。 (2 2)第二部分(Block 0Block 0)输出结果有4 4个表格。第168页/共186页第一百六十八页,编辑于星期六:二十二点 二十一分。第169页/共186页第一百六十九页,编辑于星期六:二十二点 二十一分。第170页/共186页第一百七十页,编辑于星期六:二十二点 二十一分。 (3 3)Omnibus Tests of Model Omnibus Tests of Model CoefficientsCoefficients表格列出了模型系数的Omnibus Omnibus TestsTests结果。第171页/共186页第一百七十一页,编辑于星期六:二十二点 二十一分。 (4 4)Model SummaryModel
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 32000-2024美丽宜居乡村建设指南
- 灯旗杆使用合同范例
- 天津滨海职业学院《经济法1》2023-2024学年第一学期期末试卷
- 常州市劳动合同范例
- 房屋抵押合同范例
- 真石漆专用砂浆施工方案
- 借用证件合同范例
- 水箱修理转让合同范例
- 烘培行业入股合同范例
- 地胶维修合同范例
- JJF(陕) 085-2022 全自动容量稀释配标仪校准规范
- 粉末销售合同范例
- 【MOOC】油气地质与勘探-中国石油大学(华东) 中国大学慕课MOOC答案
- 山东省济南市2023-2024学年高一上学期1月期末考试 物理 含答案
- 管理咨询服务实施方案
- 成人重症患者人工气道湿化护理专家共识 解读
- 机器学习(山东联盟)智慧树知到期末考试答案章节答案2024年山东财经大学
- 科研设计及研究生论文撰写智慧树知到期末考试答案章节答案2024年浙江中医药大学
- 商业伦理与企业社会责任(山东财经大学)智慧树知到期末考试答案章节答案2024年山东财经大学
- 2024年辅警招聘考试试题库及完整答案(全优)
- 2024年江苏省普通高中学业水平测试小高考生物、地理、历史、政治试卷及答案(综合版)
评论
0/150
提交评论