数学建模讲座-回归分析1_第1页
数学建模讲座-回归分析1_第2页
数学建模讲座-回归分析1_第3页
数学建模讲座-回归分析1_第4页
数学建模讲座-回归分析1_第5页
已阅读5页,还剩84页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模培训回归分析与建模主讲人:黄旭东安徽师范大学数学计算机科学学院统计系系主任huangxdahnu@163.com2课程背景:由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。通过对数据的统计分析,找出与数据拟合最好的模型,回归模型是用统计分析方法建立的最常用的一类模型。3WhatShallWeTalk…?

内容安排一、多元回归分析二、虚拟变量模型

三、多元Logistic回归分析一、多元回归分析55实例1对中国国内旅游消费支出的定量研究

●国内旅游消费支出度量及增长的状况怎样?(消费支出度量、增长速度)●分析影响国内旅游消费支出的因素有哪些?

(如收入、闲暇时间、交通设施、人口、社会环境等)●国内旅游消费支出与各种影响因素关系的性质是什么?

(如增加、减少)●各种因素对国内旅游消费支出影响的程度和具体数量规律是什么?

(各种因素变动具体会引起旅游消费支出变动多少)●所作数量分析结果的可靠性如何?●对旅游消费增长的政策效应分析、对国内旅游消费支出发展趋势的预测等566实例2:中国家庭用汽车市场的研究●家用汽车市场状况如何?(用销售量观测)●影响汽车销量的主要因素是什么?(如收入、价格、费用、道路状况、政策、消费行为特征等)●各种因素对汽车销量影响的性

质怎样?(正、负)●各种因素影响汽车销量的具体

数量关系是什么?●所得的分析结论是否可靠?●今后汽车市场的发展前景怎样?应如何制定汽车的产业政策?677

实例3:中国股票价格波动的研究●股票价格变动的情况怎样?

(用股价指数观测)●影响股票价格变动的主要因素是什么?

(基本面、资金、政策、利率、公司业绩、投资者信心等)●股价与各种影响因素的关系是什么?

(利空、利多)●各种因素影响的具体数量规律是什么?●所得的数量分析结果可不可靠?●今后股票价格的发展趋势可能会怎样?8

这类实例需要研究的共性问题:●提出所研究的经济问题及度量方式(如消费、股票价格、汽车)

确定作为研究对象的经济现象的变量●分析主要影响因素(根据经济理论、实际经验)

选择若干作为影响因素的变量

分析各种影响因素与所研究经济现象的相互关系

决定相互联系的数学关系式●确定所研究的经济问题与各种影响因素间的数量规律

需要有科学的数量分析方法●分析和检验所得数量结论的可靠性

需要运用统计检验方法●运用数量研究的结果作经济分析和经济预测

对数量分析的实际应用结论:以上问题的研究具有普遍性,需要运用回归分析方法去研究8案例在一项对某社区家庭对某种消费品的消费需要调查中,得到下表所示的资料。

请用手工与软件两种方式对该社区家庭对该商品的消费需求支出作二元线性回归分析,其中手工方式要求以矩阵表达式进行运算。(1)估计回归方程的参数及随机干扰项的方差,计算及。(2)对方程进行检验,对参数进行检验,并构造参数95%的置信区间。(3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。

步骤一:建立工作表,并输入数据(1)打开Eviews软件,进入主界面,界面如下:(2)点击File

Newworkfile

得到如下界面:(3)由于数据为截面数据,则依次点击:workfilefrequency→Undatedorirregular;由于数据的个数为10,则按如下列步骤依次填入:

Startdate→1

Enddate→10

→OK结果如下图:(4)建立序列对象:定义解释变量X1

在workfile窗口中,依次点击:

ObjectsNewObjectseries;

在Nameforobject中输入X1,界面如下所示:

定义解释变量X2在workfile窗口中,依次点击:

ObjectsNewObjectseries;

在Nameforobject中输入X2,界面如下所示:

定义被解释变量Y:同理,在workfile窗口中,依次点击:

ObjectsNewObjectseries;

在Nameforobject中输入Y,界面如下所示:(5)录入数据:同时选中X、Y右击:

Open→asGroup→Edit+/-

相应的界面如下所示:

输入数据,数据输入后得到如下界面:

步骤二:

第一问:(1)估计回归方程的参数及随机干扰项的方差,计算及。

(1)普通最小二乘估计:在主界面:Quick→EstimateEquation

出现如下界面:依次输入ycx1x2(注意:要有空格)点击ok

,得到Equation窗口,如下图所示:从该估计中,可得到随即干扰项的残差平方和为2116.847根据得到随即干扰项的方差为可决系数为调整的可决系数为第二问:

(2)对方程进行检验,对参数进行检验,并构造参数95%的置信区间。(1)F检验方程显著性的检验是要检验模型中参数是否显著不为零。原假设:备择假设:根据样本得到=32.29408给定显著性水平a=0.05,查F分布表得到临界值通过来拒绝原假设,即线性关系显著成立(2)t检验提出假设在软件中得到两个变量的值,分别为=3.061617,=4.902030在显著性水平a=0.05,查分布表得到可见,两个变量的t值都大于该临界值,所以拒绝原假设,则在95%的水平下两个解释变量都通过了变量的显著性检验。参数的置信区间已知从回归计算中得到根据得到的置信区间为(-17.35,-2.23)的置信区间为(0.0148,0.0424)第三问:

(3)如果商品单价变为35元,则某一月收入为20000元的家庭的消费支出估计是多少?构造该估计值的95%的置信区间。进行以下操作:拓展工作空间:打开workfile窗口,点击Procs→ChangeworkfileRange

将Enddate的数据10→11→OK

确定预测值的起止日期:打开workfile窗口,点击

Procs→Sample,将10→11→OK

界面分别如下:在x1的最下方填入35,在x2的最下方填入20000,按回车键。在出现的Equation界面,点击Forecast

出现相应界面如下:

在Forecastname中输入YF在S.E(optional)中输入W在workfile中双击yf可得到下面界面得到X1=35,X2=20000时家庭的消费支出为Y=856.202507115

双击w,得到

从上表可得根据得个值的95%的预测区间(759.41,952.99)

在95%的置信度下均值的置信区间为即为(768.6,943.8)二、虚拟变量模型

(一)虚拟变量的基本含义

(二)虚拟变量的引入

(三)虚拟变量的设置原则在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。

显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型?面临的问题:如何把男女生这样的非数量变量引

入方程?

引例:男女大学生消费真有差异吗?

(一)虚拟变量的基本含义许多经济变量是可以定量度量。一些影响经济变量的因素是无法定量度量。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。虚拟变量只作为解释变量。1、虚拟变量(dummyvariables)一般地,在虚拟变量的设置中:

基础类型、肯定类型取值为1;比较类型,否定类型取值为0。例如,反映文程度的虚拟变量可取为:D=1,本科学历D=0,非本科学历虚拟变量能否取1、0以外的数值?同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一个以性别为虚拟变量考察企业职工薪金的模型:其中:Yi为企业职工的薪金;Xi为工龄;Di=1,若是男性,Di=0,若是女性。2、虚拟变量模型(二)虚拟变量的引入虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:1、加法方式

假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。02将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。高中以下高中大学及以上在上例中同时引入性别和教育水平:女职工本科以下学历的平均薪金:女职工本科以上学历的平均薪金:男职工本科以下学历的平均薪金:男职工本科以上学历的平均薪金:加法方式引入虚拟变量,考察:截距的不同。许多情况下,斜率发生变化,或斜率、截距同时发生变化。斜率的变化可通过以乘法的方式引入虚拟变量来测度。2、乘法方式例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。农村居民:城镇居民:例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚拟变量来考察。当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。对于一元模型,有两组样本,则有可能出现下述四种情况中的一种:

1=1

,且2=2

,即两个回归相同,称为重合回归(CoincidentRegressions);11,但2=2

,即两个回归的差异仅在其截距,称为平行回归(ParallelRegressions);1=1

,但22

,即两个回归的差异仅在其斜率,称为汇合回归(ConcurrentRegressions);11,且22

,即两个回归完全不同,称为相异回归(DissimilarRegressions)。3、同时引入加法与乘法形式的虚拟变量通过统计检验,判断两个时期中消费函数的截距和斜率是否发生变化。例如,以1978-2009年的数据为样本,以GDP作为解释变量,建立居民消费函数。根据分析,1992年前后,自发消费和消费率都可能发生变化。(三)虚拟变量的设置原则每一定性变量(qualitativevariable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m种状态,只在模型中引入m-1个虚拟变量。例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚变量:如果设置第4个虚变量,则出现“虚拟变量陷井”(DummyVariableTrap),为什么?解释变量完全共线性包含季节变量的正确模型:如果在服装需求函数模型中必须包含3个定性变量:季节(4种状态)、性别(2种状态)、职业(5种状态),应该设置多少虚变量?模型含常数项模型不含常数项三、多元Logistic回归分析MultipleLogisticRegressionAnalysis线性回归模型的一个局限性是要求因变量是定量变量(定距变量、定比变量)而不能是定性变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量是定性变量(分类变量)的情况。可用于处理分类因变量的统计分析方法有:判别分别(Discriminantanalysis)、Probit分析、Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic回归分析根据因变量取值类别不同,又可以分为BinaryLogistic回归分析和MultinomialLogistic回归分析,BinaryLogistic回归模型中因变量只能取两个值1和0(虚拟因变量),而MultinomialLogistic回归模型中因变量可以取多个值。本章将只讨论BinaryLogistic回归,并简称Logistic回归。因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把Y=1定义为拥有住房,Y=0定义为其它情况,即从模型角度出发,不妨把事件发生的情况定义为Y=1,事件未发生的情况定义为Y=0,这样取值为0、1的因变量可以写为下式:我们可以采用多种方法对取值为0、1的因变量进行分析。通常以p表示事件发生的概率(事件未发生的概率为1-p),并把p看作自变量Xi的线性函数,即不同形式的F(·),就有不同形式的模型,最简单的莫过于使F(·)为一线性函数,即我们可能会认为可用普通最小二乘法对上式进行估计,但因p的值一定在区间[0,1]内,而且当p接近于0或1时,自变量即使有很大变化p的值也不可能变化很大,所以对上式直接用普通最小二乘法进行估计是行不通的。从数学上看,函数p对Xi的变化在p=0或p=1的附近是不敏感的、缓慢的,且非线性的程度较高。于是要寻求一个p的函数θ(p),使得它在p=0或p=1附近时变化幅度较大,而函数的形式又不是很复杂,因此,我们引入p的Logistic变换(或称为p的Logit变换),即其中,p/(1-p);logit(p)是因变量Y=1的差异比(oddsratio)或似然比(likelihoodratio)的自然对数,称为对数差异比(logoddsratio)、对数似然比(loglikelihoodratio)或分对数。很明显,θ(p)以logit(0.5)=0为中心对称(如表10-54所示),θ(p)在p=0和p=1的附近变化幅度很大,而且当p从0变化1时,θ(p)从-∞变到+∞。用θ(p)代替式(10-113)中的p就克服了前面指出的两点困难。如果p对Xi不是线性的关系,θ(p)对Xi就可以是线性的关系了。用θ(p)代替前式中的p,得将p由θ来表示,得医学研究中经常遇到分类型变量二分类变量:生存与死亡有病与无病有效与无效感染与未感染多分类有序变量:疾病程度(轻度、中度、重度)治愈效果(治愈、显效、好转、无效)多分类无序变量:手术方法(A、B、C)就诊医院(甲、乙、丙、丁)医学研究者经常关心的问题哪些因素导致了人群中有的人患胃癌而有的人不患胃癌?哪些因素导致了手术后有的人感染,而有的人不感染?哪些因素导致了某种治疗方法出现治愈、显效、好转、无效等不同的效果?是回归分析问题:Y=f(x)如何解决这样的问题?

y=f(x)y=1,0x任意存在,且不唯一不能直接分析变量y与x的关系p=p(y=1|x)=f(x)0≤p≤1,x任意Logistic回归模型y取某个值的概率变量p与x的关系不存在1、什么是Logistic回归分析?研究因变量y取某个值的概率变量p与自变量x的依存关系。p=p(y=1|x)=f(x)(一)Logistic回归分析的概念2、Logist

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论