




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十六章回归分析预测方法第一节一元线性回归模型分析第二节
多元线性回归模型分析第三节逻辑回归模型分析思考题第一节
一元线性回归模型分析回归分析是一种研究变量间因果关系的方法,不仅可以揭示自变量对因变量是否有影响以及影响的大小,而且还可以用回归方程进行预测。回归分析中的因变量是随机变量,处在被解释的地位;自变量是用于解释因变量的,通常假定是非随机变量。回归分析与研究变量间的相关关系不同,相关关系中的变量地位是平等的,没有解释和被解释的关系要求,且变量都是随机变量。因此,回归分析中具有因果关系的变量一定具有相关关系,但是具有相关关系的变量不一定具有因果关系。一、一元线性回归模型分析的步骤回归模型是描述因变量如何依赖于自变量和随机误差项的方程。线性回归分析是调研人员经常使用的研究变量间关系和预测建模的方法。在市场调研中,线性回归模型可以被广泛用于分析影响市场占有率、销售量、利润额的因素,并对其发展进行预测。一元线性回归模型分析的主要步骤:(1)根据研究需要选择自变量和因变量,绘制散点图;(2)根据变量数据类型选择适当的回归模型;(3)进行回归模型的参数估计;(4)进行回归模型的检验;(5)进行市场预测。二、构建一元线性回归模型一元线性回归模型是只涉及一个自变量x和因变量y之间关系的模型。一元线性回归在一定的精确度下估计因变量和自变量之间的相关关系,并依据回归模型对因变量进行预测。模型显示,变量y和x之间的关系由两个部分来描述:一是确定性函数关系,由回归函数β0+β1x给出,解释由x的变化而引起的y的变化的部分;二是随机误差项ε,恰恰是随机误差项的引入,才使变量间的关系可以被描述为一个随机方程。对上述模型两边求数学期望,可得总体回归方程:该方程反映了总体的平均变化规律,即在给定x的条件下y分布的均值,ε是随机误差项。在方程中,β0和β1称为总体回归参数,也叫回归系数。β0是截距项,是x=0时y的(条件)均值;β1是斜率,斜率系数表明x每变动一单位,y(条件)均值的变化率为β1,平均变化值为β1x。在实际研究中,我们很难获得总体的数据,因此通常会通过抽样调查获得样本数据,并用样本观测值来估计参数。假设从总体中抽取了n对观察值,分别为(x1,y1),(x2,y2),…,(xn,yn),对于第i个x值,我们可以针对样本数据拟合一个回归方程,这个方程被称作样本回归方程,也称作经验回归方程。对于x和y的n对观察值之间的关系可以有多条直线来描述,研究者关心的是:如何从多条直线中选择一条最佳拟合的直线。判断的标准可以确定为:使模型拟合的总误差(也称作总离差)达到最小。达到这个目标的方法有多种,最常用的方法是普通最小二乘法(OLS)。三、估计回归系数及误差(1)估计回归系数。所谓最小二乘法,就是估计回归系数,寻找参数β0,β1的估计值通过回归模型拟合一条最好的趋势线,以满足所有数据的观察值与估计值的残差平方和最小,即:根据微积分求导数的极值定理,可以得出一元线性回归方程的估计系数为:(2)参数估计误差。参数估计误差是指估计值与真值β1的偏差。样本不同,估计的误差大小也不同,因此误差是一个随机变量,需要考虑其平均误差。参数估计量的平均误差为:(3)置信区间。按照给定的可靠程度确定估计系数的取值范围。构建t统计量为:在一定的置信水平1-α下,根据t分布表查得tα/2(n-2)的临界值,使得:进而推出参数β1的置信区间为:同理。可得参数β0在置信水平为1-α时的置信区间为:在构建了回归方程,估计了回归系数后,必须对构建的回归方程进行检验和诊断。一般利用判定系数R2检验拟合优度;利用相关系数r检验自变量和因变量之间的相关程度;利用F检验法检验回归方程的显著性;利用t检验法检验回归系数的显著性。四、回归方程的拟合优度检验(1)判定系数R2。拟合优度检验通常可以用判定系数R2来测量,它是建立在对总离差平方和进行分析的基础之上的。在一元线性回归模型中,观察值yi的取值是上下波动的,这种波动被称作变差。变差的大小可以通过观察值yi与其算数平均数的离差来表示。全部n次观察值的总变差可以用总离差的平方和来表达:。在y的总体变化中,能够被回归模型解释的部分越多,那么模型的拟合误差相对就越小。我们可以用回归平方和占总离差平方和的比重作为检验样本拟合优度的指标,称作判定系数,记作R2,表达式为:(2)相关系数r。相关系数r是一元线性回归方程中用来衡量自变量和因变量之间相关程度的重要指标,其值是判定系数的平方根。相关系数r的取值范围为-1≤r≤1。当r=0时,说明自变量的变动对总变差没有任何影响,称作零相关。当r=±1时,说明总变差的变化完全是由自变量的变化引起的,称作完全相关。当-1<r<1时,说明自变量的变动对总变差有部分影响,称作普通相关。r值越大,表明相关程度越高。一般情况下,当r≥0.7,也就是R2≥0.49时,说明自变量的变动对总变差的影响占一半以上,称作高度相关;当r<0.3,也就是R2<0.09时,说明自变量的变动对总变差的影响小于9%,称作低度相关;当0.3≤r<0.7,也就是0.09≤R2<0.49时,说明自变量的变动对总变差的影响在9%~50%之间,称作中等相关。五、回归方程的显著性检验回归方程的显著性检验用于检验因变量和自变量之间的线性关系是否显著。通常使用F统计量对回归方程的显著性进行检验。通过构建F统计量进行检验的步骤:(1)提出假设。H0:β1=0,自变量对因变量无影响。H1:β1≠0,自变量对因变量有影响。(2)构建F统计量。(3)确定临界值。给定显著性水平α、分子自由度k和分母自由度n-k-1,查F分布表,可得临界值Fα(k,n-k-1)。一元线性回归方程中的k=1。(4)进行统计决策。将计算出的统计量F与Fα(k,n-k-1)进行比较。如果F>Fα(k,n-k-1),则拒绝H0,接受H1,说明自变量对因变量有显著影响,模型的线性关系是显著的。如果F<Fα(k,n-k-1),则不能拒绝H0,说明模型的线性关系不显著,方程估计不可靠。案例:便利店广告费用对销售额的影响分析(ch16advertreg)按照经济理论和实践经验,我们认为企业广告费用支出可能影响销售额。以某连锁便利店为调查对象,获得30家便利店的广告费用x(万元)和销售额y(万元)的数据。此章节内容可以作为课程训练,帮助同学练习一元线性回归方程的分析和检验。该部分的数据见课程群。综上可以看出,一元线性回归模型分析具有如下作用:(1)判定自变量是否能够影响因变量,以识别二者之间是否存在关系;(2)判定自变量能够在多大程度上解释因变量,以识别二者之间的关系强度;(3)构建自变量和因变量之间的数学表达模型,可以用来预测因变量。第二节多元线性回归模型分析多元线性回归分析的主要步骤是:(1)根据理论、经验和研究需要选择自变量和因变量;(2)绘制散点图(散点矩阵);(3)根据变量数据类型建立回归模型;(4)进行回归模型的参数估计;(5)进行回归参数和模型的检验;(6)利用回归方程进行市场预测一、多元线性回归模型的表达和估计多元线性理论回归模型的表达形式为:多元线性总体回归模型的表达形式为:对上述模型两边求数学期望,可得多元线性样本回归方程:如果利用最小二乘法估计模型的参数,那么与一元线性回归方程一样,也要求残差平方和达到最小。多元线性样本回归模型的估计方程为:与一元线性回归方程不同,多元线性回归方程的参数估计是对偏回归系数进行的估计,用来表达各个自变量对因变量的影响。偏回归系数的含义是:当控制变量保持不变时,自变量x1每变化一个单位所引起的y的预期平均变化幅度。同理,可以分别解释的含义。在多元回归分析中,所有自变量共同变动对因变量的影响,称为复相关,用判定系数R2来表示,可以用来解释总变差中由自变量解释的比例。如果一个多元回归分析中R2的值为0.92,这说明因变量变差的92%可由自变量来解释。与一元线性回归分析一样,多元线性回归分析也需要进行模型检验、系数检验。一是利用样本决定系数R2的大小来衡量模型的拟合优度。二是利用F统计量对回归方程的显著性进行检验,判断原假设是否成立。三是利用t统计量来检验回归模型中各个自变量对因变量的显著性,即回归系数显著性检验。二、多元回归模型设定要注意的问题(1)变量选择要合逻辑。(2)避免高共线性问题。(3)非线性模型设置。(4)当自变量为虚拟变量时的处理。(5)标准化系数。案例:便利店销售额的多因素影响分析(Ch16multireg)某咨询公司调查了某品牌20家便利店的年销售额y(万元)、平均每天经过店铺的车流量x1(辆)、两公里范围内的居民数量x2(人)和月平均家庭收入x3(元)的数据。基于理论和经验认知,研究者认为“平均每天经过店铺的车流量x1”、“两公里范围内的居民数量x2”、“月平均家庭收入x3”三个变量对“年销售额y”有显著影响。此章节内容可以作为课程训练,帮助同学练习多元线性回归方程的分析和检验。该部分的数据在课程群公布。利用残差考察模型适用条件。线性回归模型的适用条件均可以通过对残差进行分析来判断。模型的残差有非标准化残差、标准化残差、学生化残差、剔除残差和学生化剔除残差5种。当模型中的残差项符合独立性、正态性和方差齐性假定时,则可以应用回归方程进行点预测。对于本案例回归方程,给定自变量值,可以估计销售额的大小。①残差的独立性检验。残差是否相互独立,可以利用德宾沃森(Durbin-Watson)检验法进行判断。该检验法构建的DW统计量取值在0~4之间。若残差正自相关,DW→0;若残差负自相关,DW→4;若残差不存在自相关或相关程度很小,DW→2。表13.7是DW检验判别表,用来判别检验结论。②残差的正态性检验。考察残差是否服从正态分布,可以通过绘制标准化残差的直方图、正态概率分布图(P-P图)来直观判断。③方差齐性检验。考察残差的方差齐性可以通过绘制因变量与各种残差的散点图进行观察。第三节逻辑回归模型分析逻辑回归模型是当因变量是定性变量时的一类回归模型。在市场调研中经常会遇到因变量是定性变量的情况。例如,调查消费者是否购买过进口奶粉,消费者的购买行为就经常被分为“购买过”和“未购买过”两类。在把“消费者的购买行为”作为因变量时,因变量就是一个二分定性变量,取值只有两个。当然,除了二分类的定性变量,三分类、五分类等多分类的定性变量也都可以作为因变量。基于定性因变量的分类特点,逻辑回归模型也有多种形式一、从线性回归到逻辑回归的理论解释假设线性回归方程为。如果因变量y为定量数据,那么与前面介绍的多元线性回归方程一样,采用最小二乘法估计β1,β2,…,βk的值。当因变量yi的取值为0、1两个值时,因变量均值为:因为y是0-1型贝努利随机变量,所以当yi=1时概率分布为:当yi=0时概率分布为:根据二分类离散型随机变量的期望值定义,计算可得:进一步推导可得:这说明,当因变量只取值为0和1时,因变量均值总是代表给定自变量时y=1的概率。同时,当因变量是二分类变量时,模型估计违背了一般线性回归方程的假设条件。(1)违背了误差正态分布的假设。当因变量取值为0和1时,误差项也只能取两个值。这说明误差项是两点分布,不满足线性回归方程误差正态分布的假设条件。(2)违背了误差同方差的假设。当因变量取值为0和1时,误差项εi保持零均值,但是εi的方差不相等。0-1型随机变量εi的方差为:可见,误差项εi
的方差随着x的变化而变化,因此当误差项εi是异方差的,不满足线性回归方程同方差的假设条件时,用最小二乘法进行模型估计的效果就不好。(3)回归方程受到因变量取值的限制。在普通线性回归方程中,右侧自变量的取值不受限制,左侧因变量的取值也不受限制;当回归方程左侧因变量的取值只为0和1时,方程右侧的自变量取值仍然不受限制,但是左侧因变量的取值则只有两个,致使自变量和因变量之间的对应关系与普通线性回归方程不同,因变量均值0≤E(yi)≤1。基于以上因变量是定性变量的特点,为了能够继续使用线性回归的估计理念,统计学家就使用一个变换的方法,选择了Logistic函数(也称作逻辑函数)进行分析。二、二元逻辑回归模型的应用当因变量是二分类变量时,通常应用二元逻辑回归模型进行分析。根据逻辑函数的表达式,将线性回归方程改写为如下形式:事件发生的概率:事件不发生的概率:令,表示事件发生的概率与事件不发生的概率之比。因此,odds被称作比值、几率。令表示实验组事件发生的几率odds1与对照组事件发生的几率odds2的比值,因此,OR(oddsratio)被称作比值比。进一步进行Logit变换,可得:令根据变换后的回归模型可以估计参数值。逻辑回归模型的估计一般采用最大似然法。似然比检验就是通过比较包含、未包含某个或某几个参数的两个模型的似然比值来判断模型拟合的情况。二元逻辑回归案例:消费者新能源汽车购买意愿的影响因素分析(ch16bilogreg)。该案例用于学生训练使用,学生实际操作和教材具体讲解相结合。案例数据资料可见课程群。数据中变量描述:“消费者购买意愿”(will)为二分类因变量,令“有购买意愿”=1,“无购买意愿”=0。“消费者的年龄”(age)和“消费者家庭年收入”(income)为定量自变量,数据类型是定距数据。“消费者对购买新能源汽车政府补贴政策的认知情况”(subsidy)为定类自变量,数据类型是定类数据;令“了解补贴政策”=1,“不了解补贴政策”=0。三、无序多分类逻辑回归模型的应用无序多分类逻辑回归模型是指定性因变量y是超过两个分类的多分类变量,且各分类没有在顺序上排列的模型。一般来讲,因变量y的分类选项个数在3~8个之间。无序多分类逻辑回归模型是一种非常实用的市场研究技术,适用于对市场决策进行分析。假设定性因变量y有m个类别,每个类别给予的数字符号记为1,2,…,m;一组个数为k的自变量为样本数据为i=1,2,…,n表示有n组观察者。
假定因变量的每个类别可能出现的概率为:将二分类逻辑回归模型的基本原理推广到多分类逻辑回归模型,以P1为对照组,可得:对于m个分类的因变量,可以通过运行m-1个独立二分类逻辑回归模型进行分析。在上述表达式中,我们选择了编号为1的分类作为对照组。无序多分类逻辑回归模型案例:消费者愿意购买新能源汽车类型的影响因素分析(ch16unordlogreg)数据来源:课程群变量设置:假定新能源汽车的类型为因变量,数据类型为三分类的定类数据。令“消费者愿意购买纯电动汽车”=1,“消费者愿意购买混动汽车”=2,“消费者愿意购买新型燃料汽车”=3。四、有序多分类逻辑回归模型的应用与无序多分类逻辑回归模型不同的是,有序多分类逻辑回归模型的因变量是分类且有序的定性变量。例如,市场调查中关于产品满意度、工作满意度的划分往往会采用“非常不满意”“不满意”“一般”“比较满意”“非常满意”这样的分类方法,对产品满意度从低到高进行五分类的评价,属于有序多分类数据形式的变量,当然也可以是有序三分类、有序四分类的数据形式的变量。以有序五分类的因变量y为例,从低到高的取值分别为1,2,3,4,5,令因变量相应取值的概率
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 主播兼职劳动合同范本
- 农庄分包经营合同范本
- 单位配送食材合同范本
- 勘察钻机租赁合同范例
- 网页设计复习题及答案
- 高压电工(运行)模拟题含答案
- 一年级的数学上册的期末试卷
- led钢结构合同范本
- 《音乐巨人贝多芬》的教学反思
- 《迷彩服》的教案
- 护理文件书写PDCA课件
- 2024年陕西省中考英语试卷附答案
- 江西省南昌市西湖区2023-2024学年五年级下学期期末数学试题
- 康复治疗方案制定流程(2篇)
- 消化道出血诊疗规范2022版
- 陕西省民用建筑能耗监测系统技术指南
- TD/T 1044-2014 生产项目土地复垦验收规程(正式版)
- 商业道德承诺书
- 光伏电站巡检记录表完整
- 高血压患者不遵医饮食行为的原因分析及对策
- 《团队的凝聚力》课件
评论
0/150
提交评论