(应用统计学经济与管理中的数据分析)第十章线性回归分析_第1页
(应用统计学经济与管理中的数据分析)第十章线性回归分析_第2页
(应用统计学经济与管理中的数据分析)第十章线性回归分析_第3页
(应用统计学经济与管理中的数据分析)第十章线性回归分析_第4页
(应用统计学经济与管理中的数据分析)第十章线性回归分析_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、( (应用统计学经济与管理中的数据分析应用统计学经济与管理中的数据分析) )第十章线性回归分析第十章线性回归分析2第十章 线性回归分析【本章导读及学习目标】【本章导读及学习目标】在自然界和经济、社会生活中的许多现象之间都存在自然界和经济、社会生活中的许多现象之间都存在着某种特定的关联联系。为了对这种现象之间的在着某种特定的关联联系。为了对这种现象之间的联系方式进行考察和描述,人们经常利用现实中的联系方式进行考察和描述,人们经常利用现实中的观测数据寻找事物内部的隐含规律。在统计学中,观测数据寻找事物内部的隐含规律。在统计学中,相关分析与回归分析作为解决此类问题的有效分析相关分析与回归分析作为解决

2、此类问题的有效分析技术,已经在经济、社会、工程以及自然科学等诸技术,已经在经济、社会、工程以及自然科学等诸多研究领域都得到广泛的应用。在本章中,将首先多研究领域都得到广泛的应用。在本章中,将首先介绍相关分析的根本概念与方法,并且讨论相关关介绍相关分析的根本概念与方法,并且讨论相关关系与因果关系之间的联系与区别。在此根底上,将系与因果关系之间的联系与区别。在此根底上,将介绍线性回归分析的思想方法与根本技术。通过本介绍线性回归分析的思想方法与根本技术。通过本章学习,应了解线性回归的建模原理、建模过程、章学习,应了解线性回归的建模原理、建模过程、对模型质量的评价方法,对解释变量的筛选方法,对模型质量

3、的评价方法,对解释变量的筛选方法,以及一些简单的非线性模型的处理方法,此外还将以及一些简单的非线性模型的处理方法,此外还将讨论线性回归在应用中需要注意的一些典型问题。讨论线性回归在应用中需要注意的一些典型问题。3第一节第一节 相关系数的概念相关系数的概念一、函数关系与随机关系一、函数关系与随机关系4一、函数关系与随机关系5二、二、Pearson相关系数相关系数6二、二、Pearson相关系数相关系数7三、相关关系与因果关系之间的联系三、相关关系与因果关系之间的联系在科学研究方面也不乏类似的例子。西班牙医生长索在科学研究方面也不乏类似的例子。西班牙医生长索(Casal)于于18世纪在欧洲首次发现

4、了世纪在欧洲首次发现了糙皮病,这种病是当时造成许多贫困居民体弱多病、伤残、夭折的一个重要原因。糙皮病,这种病是当时造成许多贫困居民体弱多病、伤残、夭折的一个重要原因。19世世纪初这种疾病在欧洲蔓延,纪初这种疾病在欧洲蔓延,20世纪头十年又在美国泛滥。流行病专家希望发现这种病的世纪头十年又在美国泛滥。流行病专家希望发现这种病的传播根源。他们通过大量的调查,发现在疾病流行的地区,患病者的家庭普遍都十分贫传播根源。他们通过大量的调查,发现在疾病流行的地区,患病者的家庭普遍都十分贫困,他们的生存环境极其恶劣,到处都是苍蝇。更引人注意的是专家们还发现,在欧洲困,他们的生存环境极其恶劣,到处都是苍蝇。更引

5、人注意的是专家们还发现,在欧洲有一种吸血蝇与糙皮病有同样的地理分布范围;这种吸血蝇在春天最为活泼,而这时恰有一种吸血蝇与糙皮病有同样的地理分布范围;这种吸血蝇在春天最为活泼,而这时恰恰是糙皮病发生病历最多的季节。因此,当时的许多流行病专家都认为这种疾病是传染恰是糙皮病发生病历最多的季节。因此,当时的许多流行病专家都认为这种疾病是传染性的,并且是由昆虫传染的。直到性的,并且是由昆虫传染的。直到1914年,美国医生戈德伯格年,美国医生戈德伯格(Goldberger)通过实验研通过实验研究证实:糙皮病是由于营养不良引起的,可以通过食用含究证实:糙皮病是由于营养不良引起的,可以通过食用含P-P因子因子

6、(烟酸烟酸)的食物进行预防的食物进行预防和治疗。烟酸天然存在于肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米和治疗。烟酸天然存在于肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大局部面粉中添加了年以来,美国销售的大局部面粉中添加了P-P因子。因子。所以结论是:苍蝇与贫穷伴生,而不是糙皮病的起因,专家们之前观察到的是相关关系所以结论是:苍蝇与贫穷伴生,而不是糙皮病的起因,专家们之前观察到的是相关关系而不是因果关系。而不是因果关系。能有意识地思考相关关系与因果关系之间的联系是非常重要的。一些缺乏经验的

7、研究人能有意识地思考相关关系与因果关系之间的联系是非常重要的。一些缺乏经验的研究人员在发现两个变量之间存在相关关系后,往往会立即着手建立统计模型,并力图说明某员在发现两个变量之间存在相关关系后,往往会立即着手建立统计模型,并力图说明某个变量是如何影响另一个变量的。但是,很有可能在这两个变量之间并没有因果关系。个变量是如何影响另一个变量的。但是,很有可能在这两个变量之间并没有因果关系。而盲目使用因果关系模型的后果是:一方面有可能会错误地解释客观存在;另一方面在而盲目使用因果关系模型的后果是:一方面有可能会错误地解释客观存在;另一方面在对未来进行预测时,产生错误判断的风险就会很大。对未来进行预测时

8、,产生错误判断的风险就会很大。8第二节第二节 线性回归模型线性回归模型一、回归分析所研究的问题一、回归分析所研究的问题回归分析是用于研究变量之间因果关系的统计模型。无论在经济回归分析是用于研究变量之间因果关系的统计模型。无论在经济管理、社会科学还是在工程技术中,回归分析都是一种普遍应用管理、社会科学还是在工程技术中,回归分析都是一种普遍应用的分析与预测技术。回归的分析与预测技术。回归(regression)一词的概念是由英国生物一词的概念是由英国生物统计学家高尔顿统计学家高尔顿(Galton)首先给出的。他在人类遗传的研究中发首先给出的。他在人类遗传的研究中发现,高个子的父亲根本上对应于高个子

9、的儿子,并且在同一种族现,高个子的父亲根本上对应于高个子的儿子,并且在同一种族中,儿子的平均身高有回归种族平均高度的趋势。高尔顿把这一中,儿子的平均身高有回归种族平均高度的趋势。高尔顿把这一现象称为现象称为“返祖返祖(趋向于祖先的某种平均类型趋向于祖先的某种平均类型),后来又称之为,后来又称之为“向平均回归。尽管现代意义下的回归分析比高尔顿的研究已经向平均回归。尽管现代意义下的回归分析比高尔顿的研究已经前进了很多,但是从根本概念来看,它依然是研究变量之间统计前进了很多,但是从根本概念来看,它依然是研究变量之间统计关系及其数学形式的最常用方法。关系及其数学形式的最常用方法。回归分析模型有很多成功

10、的应用案例。例如:美洲航空公司开展回归分析模型有很多成功的应用案例。例如:美洲航空公司开展的的RAPS分配与方案系统,可以提供从咖啡机到起落架的超过分配与方案系统,可以提供从咖啡机到起落架的超过5000种零件的需求预测。这些零件的保障供给对一架飞机的运行种零件的需求预测。这些零件的保障供给对一架飞机的运行至关重要,因为零件短缺会导致航班取消,带来很高的本钱。为至关重要,因为零件短缺会导致航班取消,带来很高的本钱。为此,美洲航空公司系统使用了回归模型,建立月度零件更新数据此,美洲航空公司系统使用了回归模型,建立月度零件更新数据 与月度飞行小时与月度飞行小时 的回归模型,可以很快得出所有零件的月度

11、需求的回归模型,可以很快得出所有零件的月度需求预测。根据美洲航空公司的原材料管理小组的估计,使用预测。根据美洲航空公司的原材料管理小组的估计,使用RAPS每年差不多能节约每年差不多能节约100万美元。万美元。9二、线性回归的总体模型二、线性回归的总体模型10二、线性回归的总体模型二、线性回归的总体模型11二、线性回归的总体模型二、线性回归的总体模型12第三节第三节 最小二乘估计方法最小二乘估计方法一、最小二乘估计方法的推导一、最小二乘估计方法的推导13一、最小二乘估计方法的推导14一、最小二乘估计方法的推导15一、最小二乘估计方法的推导16二、总体参数估计量的性质二、总体参数估计量的性质17第

12、四节第四节 模型效果分析模型效果分析一、为什么要进行模型效果分析一、为什么要进行模型效果分析18二、残差的样本标准差二、残差的样本标准差19二、残差的样本标准差二、残差的样本标准差20三、测定系数三、测定系数21三、测定系数三、测定系数22三、测定系数三、测定系数23三、测定系数三、测定系数24三、测定系数三、测定系数25第五节第五节 显著性检验显著性检验一、回归模型的线性关系检验:一、回归模型的线性关系检验:F检验检验26一、回归模型的线性关系检验:F检验27一、回归模型的线性关系检验:F检验28二、回归参数的检验:二、回归参数的检验:t检验检验29二、回归参数的检验:二、回归参数的检验:t

13、检验检验30第六节第六节 变量筛选方法变量筛选方法在实际工作中使用过多元回归分析的人都知道,用回归建模在实际工作中使用过多元回归分析的人都知道,用回归建模首先遇到的难题,就是选择哪些变量作为因变量首先遇到的难题,就是选择哪些变量作为因变量 的解释变的解释变量。在选择自变量时,一方面希望尽可能不遗漏重要的解释量。在选择自变量时,一方面希望尽可能不遗漏重要的解释因素;另一方面,又要遵循参数节省原那么,使自变量的个因素;另一方面,又要遵循参数节省原那么,使自变量的个数尽可能少。因为当自变量过多时,模型计算复杂,且往往数尽可能少。因为当自变量过多时,模型计算复杂,且往往会扩大估计方差,降低模型精度。会

14、扩大估计方差,降低模型精度。在确定自变量系统时,一是采用穷举法,列出所有可能的自在确定自变量系统时,一是采用穷举法,列出所有可能的自变量;再根据自变量的不同组合,选择最适宜的模型。由于变量;再根据自变量的不同组合,选择最适宜的模型。由于每个变量都有可能被选用或不被选用,所以穷举法要拟合与每个变量都有可能被选用或不被选用,所以穷举法要拟合与比较的方程个数为比较的方程个数为 ( 为所有可能的自变量的个数为所有可能的自变量的个数)。当备选的自变量数目很大时,采用穷举法就完全不现实了。当备选的自变量数目很大时,采用穷举法就完全不现实了。因此,在近几十年间,又开展了一些更有效的变量筛选方法因此,在近几十

15、年间,又开展了一些更有效的变量筛选方法,其中最广为人知的有向后删除变量法、向前选择变量法与,其中最广为人知的有向后删除变量法、向前选择变量法与逐步回归法。逐步回归法。31一、向后删除变量法一、向后删除变量法向后删除变量法向后删除变量法(backward elimination)在算法的在算法的起步,所有的自变量都被包含在模型之中。然后,起步,所有的自变量都被包含在模型之中。然后,依次对每一个自变量做依次对每一个自变量做 检验。如果所有的自变量都检验。如果所有的自变量都通过了通过了 检验,那么计算停止,所有自变量被包含在检验,那么计算停止,所有自变量被包含在模型之中。如果有假设干自变量未能通过模

16、型之中。如果有假设干自变量未能通过 检验,那检验,那么首先选择么首先选择 绝对值最小的自变量,将它从模型中删绝对值最小的自变量,将它从模型中删除。除。接着,用剩下的接着,用剩下的 个自变量拟合一个线性回归模型。个自变量拟合一个线性回归模型。然后,重新对模型中的每一个自变量进行然后,重新对模型中的每一个自变量进行 检验。在检验。在没有通过检验的自变量中,再选择没有通过检验的自变量中,再选择 的绝对值最小者的绝对值最小者,将它从模型中删除。,将它从模型中删除。重复以上步聚,直到模型中包含的所有自变量都能重复以上步聚,直到模型中包含的所有自变量都能通过通过 检验,那么算法终止。检验,那么算法终止。3

17、2二、向前选择变量法二、向前选择变量法33三、逐步回归法三、逐步回归法34三、逐步回归法三、逐步回归法35第七节第七节 残残 差差 分分 析析一、残差分析的根本原理一、残差分析的根本原理36二、残差分析的几个主要内容二、残差分析的几个主要内容37第八节第八节 案例分析与统计软件应用案例分析与统计软件应用一、一元线性回归建模与一、一元线性回归建模与Excel软件应用软件应用 下面将采用Excel 2003软件进行计算。第1步:为了使该软件具备线性回归的功能,首先要选择【工具】|【加载宏】命令,并在【加载宏】对话框中选择【分析工具库】选项,如图10-6所示。于是在【工具】菜单中就会出现【数据分析】

18、命令。第2步:将表10-2中的数据输入到Excel表中。选择【工具】|【数据分析】命令,然后在【数据分析】对话框中选择【回归】选项,如图10-7所示。38一、一元线性回归建模与Excel软件应用 第3步:在【回归】对话框的【输入】选项组中,分别将季度销售额y与学生人数x输入到【Y值输入区域】和【X值输入区域】;然后在【输出选项】选项组中,选中【新工作表组】单项选择按钮。此外,在回归建模的输入界面,还允许选择【残差】、【标准残差】、【残差图】和【线性拟合图】,并且还可以选择【正态概率图】,如图10-8所示。39二、多元线性回归建模与二、多元线性回归建模与SPSS软件应用软件应用下面再通过一个例子

19、,来简单说明如何使用下面再通过一个例子,来简单说明如何使用SPSS软件进行软件进行多元线性回归建模,软件版本为多元线性回归建模,软件版本为PASW Statistics 18。在在SPSS软件中选择软件中选择Analyze | Regression | Linear命令,命令,翻开翻开Linear Regression对话框,把有关的自变量选入对话框,把有关的自变量选入Independents,把因变量选入,把因变量选入Dependent,然后单击,然后单击OK按钮即可。如果自变量有多个按钮即可。如果自变量有多个(多元回归模型多元回归模型),只要都选入,只要都选入就行。输出的结果主要包括:回归

20、系数、就行。输出的结果主要包括:回归系数、R2、F检验的结果检验的结果、t检验结果,等等。如果要进行变量筛选,可以在检验结果,等等。如果要进行变量筛选,可以在Linear Regression对话框的对话框的Method下拉列表框中选择下拉列表框中选择Enter(向前向前选择变量法选择变量法)、Backward(向后删除变量法向后删除变量法),或,或Stepwise(逐步回归法逐步回归法)等选项,如图等选项,如图10-12所示。所示。40第九节第九节 虚拟自变量的回归虚拟自变量的回归在多元线性回归模型中,允许在自变量集合中包含在多元线性回归模型中,允许在自变量集合中包含定性自变量。最简单的定性

21、变量是虚拟变量定性自变量。最简单的定性变量是虚拟变量(dummy variable)。当。当 是虚拟变量时,它的取值是虚拟变量时,它的取值只有两个数值:只有两个数值:0或或1。例如。例如 如果是性别变量,那如果是性别变量,那么可以令么可以令 表示女性;令表示女性;令 表示男性。下面采用一个表示男性。下面采用一个例题来说明采用虚拟自变量进行回归建模的过程。例题来说明采用虚拟自变量进行回归建模的过程。41第十节第十节 拟线性回归模型拟线性回归模型一、非线性回归问题一、非线性回归问题无论是在理论研究还是在实践中,线性方法都得到无论是在理论研究还是在实践中,线性方法都得到广泛的应用。这是因为线性方法的

22、形式简单,计算广泛的应用。这是因为线性方法的形式简单,计算方便,理论性质易于讨论,并且常常能够比较好地方便,理论性质易于讨论,并且常常能够比较好地解决所需要处理的问题。然而,随着技术手段的开解决所需要处理的问题。然而,随着技术手段的开展和所能获得的信息的增多,人们逐渐发现,在很展和所能获得的信息的增多,人们逐渐发现,在很多时候采用线性的方法无法取得令人满意的效果。多时候采用线性的方法无法取得令人满意的效果。其中最重要的原因是由于自然界以及人类社会中的其中最重要的原因是由于自然界以及人类社会中的现象是非常复杂的,现象之间的内在联系往往不是现象是非常复杂的,现象之间的内在联系往往不是线性的,而更多

23、的是错综复杂的非线性关系。在技线性的,而更多的是错综复杂的非线性关系。在技术、经济、社会等众多研究领域中,大量事实也说术、经济、社会等众多研究领域中,大量事实也说明,非线性才是复杂现象的本质,是一切物质运动明,非线性才是复杂现象的本质,是一切物质运动的普遍规律。因而,在科学研究中,从的普遍规律。因而,在科学研究中,从“线性向线性向“非线性的过渡与开展,是研究深化的必然趋势之非线性的过渡与开展,是研究深化的必然趋势之一。一。要解决非线性问题,就是要通过观察到的现象,找要解决非线性问题,就是要通过观察到的现象,找到所要研究系统的内部关系,建立数学模型,来反到所要研究系统的内部关系,建立数学模型,来

24、反映其变量之间的这些非线性关系。其中,一种最简映其变量之间的这些非线性关系。其中,一种最简单的技术是将非线性模型做线性化变换,所有这类单的技术是将非线性模型做线性化变换,所有这类模型被统称为拟线性回归模型。模型被统称为拟线性回归模型。二、拟线性回归模型的一般形式二、拟线性回归模型的一般形式42二、拟线性回归模型的一般形式二、拟线性回归模型的一般形式43二、拟线性回归模型的一般形式二、拟线性回归模型的一般形式44第十一节第十一节 异常值的问题异常值的问题在回归建模过程中,当数据集合中出现异常点在回归建模过程中,当数据集合中出现异常点时,往往会对模型结果有严重的影响。这是在时,往往会对模型结果有严

25、重的影响。这是在实际数据处理过程中必须关注和警惕的事情。实际数据处理过程中必须关注和警惕的事情。回归建模中的异常值问题主要分成两种,即离回归建模中的异常值问题主要分成两种,即离群点群点(outlier)和高杠杆率点和高杠杆率点(high leverage point)。下面分别对这两种情况进行讨论。下面分别对这两种情况进行讨论。45一、离群点一、离群点图图10-13给出了给出了1个关于离群点的典型例子。在这个图中可个关于离群点的典型例子。在这个图中可以明显看出,本来对于大局部数据是存在一个根本回归线的以明显看出,本来对于大局部数据是存在一个根本回归线的。但是由于观测点。但是由于观测点A在在 坐

26、标上的取值明显远离其他观测值的坐标上的取值明显远离其他观测值的一般趋势,因此造成整个回归线向上移动。由此可见,少数一般趋势,因此造成整个回归线向上移动。由此可见,少数离群点会严重影响回归方程的拟和质量。离群点会严重影响回归方程的拟和质量。46一、离群点一、离群点在数据处理过程中,通常是把标准化残差非常大的观测值作在数据处理过程中,通常是把标准化残差非常大的观测值作为离群点,在为离群点,在SPSS软件中,默认的标准是标准化残差的绝软件中,默认的标准是标准化残差的绝对值大于对值大于3。产生离群点的原因有很多,例如在经济社会或工程技术数据产生离群点的原因有很多,例如在经济社会或工程技术数据中,一旦发

27、生突发性事件,那么观测数据经常会出现不正常中,一旦发生突发性事件,那么观测数据经常会出现不正常的跳跃,从而造成远离数据集合根本趋势的观测值。此外,的跳跃,从而造成远离数据集合根本趋势的观测值。此外,诸如统计口径的变化,或者数据整理录入时的错误,都会造诸如统计口径的变化,或者数据整理录入时的错误,都会造成离群点。在处理离群点时,最简单的方法可以考虑将其剔成离群点。在处理离群点时,最简单的方法可以考虑将其剔除后再进行建模分析,使模型回到数据集合的根本趋势中。除后再进行建模分析,使模型回到数据集合的根本趋势中。但是,当观测数据本来就不多时,完全采用剔除观测点的方但是,当观测数据本来就不多时,完全采用

28、剔除观测点的方法会造成样本点数量更少。这时可以通过对剔除位置附近的法会造成样本点数量更少。这时可以通过对剔除位置附近的数据进行平滑处理,然后再采用插值技术将剔除的观测值补数据进行平滑处理,然后再采用插值技术将剔除的观测值补上,从而建立一个比较符合数据集合根本趋势的回归模型。上,从而建立一个比较符合数据集合根本趋势的回归模型。47二、高杠杆率点二、高杠杆率点48第十二节第十二节 多重相关性问题多重相关性问题一、多重相关性的含义一、多重相关性的含义所谓多重相关性,也称多重共线性所谓多重相关性,也称多重共线性(multicollinearity),是指在自变量之间存在着线性,是指在自变量之间存在着线

29、性相关的现象。如果自变量之间存在着完全的线性关相关的现象。如果自变量之间存在着完全的线性关系,它们之间的相关系数的绝对值等于系,它们之间的相关系数的绝对值等于1,那么称,那么称自变量之间存在着完全的相关性;假设自变量之间自变量之间存在着完全的相关性;假设自变量之间完全没有相关关系,它们之的相关系数等于零,那完全没有相关关系,它们之的相关系数等于零,那么称自变量之间完全不存在相关现象。这是两种极么称自变量之间完全不存在相关现象。这是两种极端的状态。在一般情况下,这两种情形并不常见,端的状态。在一般情况下,这两种情形并不常见,而经常出现的是自变量之间存在着程度不同的相关而经常出现的是自变量之间存在

30、着程度不同的相关现象,自变量之间的相关系数的绝对值在现象,自变量之间的相关系数的绝对值在01之间之间变化。这时,称自变量之间存在着一定程度的相关变化。这时,称自变量之间存在着一定程度的相关现象。现象。49一、多重相关性的含义在实际工作中,多重相关性的存在是十分普遍的,其形成的根本原因主要有两在实际工作中,多重相关性的存在是十分普遍的,其形成的根本原因主要有两个。一个原因是,某些变量的物理含义就决定了它们之间的相关性,这在经济个。一个原因是,某些变量的物理含义就决定了它们之间的相关性,这在经济、社会科学或自然科学中都十分常见。例如,一个地区的国内生产总值往往与、社会科学或自然科学中都十分常见。例

31、如,一个地区的国内生产总值往往与其工业总产值、社会商品零售总额之间存在着共同增长的趋势。产生多重相关其工业总产值、社会商品零售总额之间存在着共同增长的趋势。产生多重相关性的另一个重要原因,是由于实验条件等限制,使样本点数量不够充足所造成性的另一个重要原因,是由于实验条件等限制,使样本点数量不够充足所造成的。在普通多元线性回归中,规定的样本点数量不宜太少。一般认为,该数量的。在普通多元线性回归中,规定的样本点数量不宜太少。一般认为,该数量应在变量个数的应在变量个数的23倍以上。然而,在一些类似于型号研制的工程实验中,常倍以上。然而,在一些类似于型号研制的工程实验中,常常会有许多必须考虑的重要变量

32、。但由于经费、时间等条件的限制,所能得到常会有许多必须考虑的重要变量。但由于经费、时间等条件的限制,所能得到的样本点个数却与变量个数几乎相等,甚至小于变量的个数。这样的样本数据的样本点个数却与变量个数几乎相等,甚至小于变量的个数。这样的样本数据也势必存在变量的多重共线性。也势必存在变量的多重共线性。当在自变量系统中存在严重的多重共线性时,如果仍然采用最小二乘法拟合回当在自变量系统中存在严重的多重共线性时,如果仍然采用最小二乘法拟合回归模型,那么模型的准确性、可靠性都不能得以保证。在实际工作中,在变量归模型,那么模型的准确性、可靠性都不能得以保证。在实际工作中,在变量多重相关条件下的回归结果会出

33、现许多反常现象,因而使缺乏经验的分析人员多重相关条件下的回归结果会出现许多反常现象,因而使缺乏经验的分析人员一时间感到困惑。一时间感到困惑。为了初步观察在多重相关条件下回归建模结果的一些反常现象,本节采用了内为了初步观察在多重相关条件下回归建模结果的一些反常现象,本节采用了内特特(Neter)等人在等人在?应用线性回归模型应用线性回归模型?一书中给出的身体脂肪的数据一书中给出的身体脂肪的数据5051二、多重相关性的危害二、多重相关性的危害52二、多重相关性的危害二、多重相关性的危害53二、多重相关性的危害二、多重相关性的危害54二、多重相关性的危害二、多重相关性的危害55三、多重相关性的经验诊

34、断与处理方法三、多重相关性的经验诊断与处理方法一种较容易实施的检验,是通过一些经验式的诊断一种较容易实施的检验,是通过一些经验式的诊断方式,发现多重相关性严重存在的迹象。方式,发现多重相关性严重存在的迹象。(1) 在自变量的相关系数矩阵中,有某些自变量的在自变量的相关系数矩阵中,有某些自变量的相关系数值较大。相关系数值较大。(2) 回归系数的代数符号与专业知识或一般经验相回归系数的代数符号与专业知识或一般经验相反,或者它同该自变量与反,或者它同该自变量与 的相关系数符号相反。的相关系数符号相反。(3) 对重要自变量的回归系数进行对重要自变量的回归系数进行 检验,其结果不检验,其结果不显著。显著

35、。特别典型的是,当特别典型的是,当 检验通过,测定系数检验通过,测定系数 的值亦很的值亦很大,但自变量的大,但自变量的 检验却全都不显著,这时,多重相检验却全都不显著,这时,多重相关性的可能性将很大。关性的可能性将很大。(4) 如果增加如果增加(或删除或删除)一个变量,或者增加一个变量,或者增加(或删除或删除)一个观测值,回归系数的估计值会发生很大的变化一个观测值,回归系数的估计值会发生很大的变化。(5) 重要自变量的回归系数置信区间明显过大。重要自变量的回归系数置信区间明显过大。(6) 在自变量中,某一个自变量是另一局部自变量在自变量中,某一个自变量是另一局部自变量的完全或近似完全的线性组合。的完全或近似完全的线性组合。(7) 对于一般的观测数据,如果样本点的个数过少对于一般的观测数据,如果样本点的个数过少(比方接近于变量的个数,甚至小于变量的个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论