回归分析演示文稿_第1页
回归分析演示文稿_第2页
回归分析演示文稿_第3页
回归分析演示文稿_第4页
回归分析演示文稿_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 回归分析模型回归分析模型 回归分析是处理数据方法之一,其核心思想是:虽然自变量和因变量之间没有严格的、确定的函数关系, 但可以从数据本身出发,设立参数,假设变量之间的关系,然后求出它们的点估计或区间估计,设法找出最能体现它们之间关系的数学表达形式。最后用方差分析对模型进行误差评估,对模型的优劣给出评价。 第一节第一节 回归分析的基本问题回归分析的基本问题回归分析主要包括下几个方面的问题:1、确定几个变量之间是否存在相互关系, 如果存在的话, 找出它们之间合适的数学表达式,建立因变量与自变量之间的回归模型;2、判断每个自变量对的影响是否显著,哪些是主要因素, 哪些是次要因素;3、对回归模型的可

2、信度进行检验,诊断回归模型是否适合这组数据;4、根据一个或几个变量的值, 预测或控制另一个变量的取值, 利用回归模型对进行预报或控制,并且估计这种预测或控制能达到什么样的精确度。回归分析按照自变量的个数,分为一元回归分析和多元回归分析。按照自变量和因变量之间的关系类型,回归分析可分为线性回归分析和非线性回归分析。本文所讨论的模型均为线性回归模型。第二节第二节 基本分布函数基本分布函数1、常用分布1)正态分布当大量数据围绕某个中心波动,越边缘数据出现的概率越小时,通常服从正态分布。密度函数 . 记为2) 分布设 是来自总体 的样本,则统计量 服从自由度为 的 分布。记为 . 22212xfxe2

3、,XN 212,.,nXXX0,1N222212nXXXn2 22n3) 分布设 ,且 独立,则称随机变量 服从自由度为 的 分布。 记为 .t2,XN 2Yn,X YYnXt nt tt n4) 分布设 且 独立,则称随机变量 服从自由度为 的 分布.记为F 21Un22Vn,U V12UnFVn12,n nF12,FF n n2、一般结论1)设 是总体 的样本, 是样本均值,则有 ;2)设 是总体 的样本, 分别是样本均值和样本方差,则有且 独立;12,.,nXXX12,.,nXXX2,N 2,N X2,XNn 2,X S22211Snn2,X S3)设 是总体 的样本, 分别是样本均值和

4、样本方差,则有12,.,nXXX2,N 2,X S1Xt nSn4)设 与 分别是来自总体 的样本,且这两个样本相互独立。则有(1)(2)当112,.,nXXX212,.,nY YY211,N 222,N 22111222221,1SF nnS22212 121212211XYt nnSnn2211222121,12nSnSSnn其中: 第三节第三节 一元回归模型一元回归模型对于两个随机变量 ,如果随机变量 的波动能引起 改变,我们假设他们之间存在线性关系,设 ,其中 是待估参数, 是随机误差, 是未知的参数。 称上式为一元回归模型一元回归模型。yx和xy01yx20,N01,2一、基本理论一

5、、基本理论1、参数估计01, 1)的估计 (8-1)101 112012201,nnnyxyxyx进行n次独立实验,得: 2011nTTiiiYXYXyx 达到最小时模型最优。 因此对求偏导并令其等于零。可求得,继而得到一元回归预测模型:01, 01 yx2) 的估计设 为在点 处的残差,则称为残差平方和,他表示经验回归函数所预测的值 与真实的 观察值的偏差平方和,在一定程度上体现了回归模型的准确性。可证明 是的无偏估计(略)。2iiieyyix21niiiSSEyyiyiy212SSEn22、有关统计推断总的离差平方和 称 为残差平方和,其自由度 ,它反映了 与 之间的线性关系以外的因素引起

6、数据 的波动。即随机误差和不可控制的因素引起的误差,显然越小模型越准。2211nniiiiiiSSTyyyyyy2211nniiiiiyyyySSESSR21niiiSSEyy2nyx12,.nyyy称 为回归平方和,其自由度 1 ,它反映了线性拟合值与他们平均值的总偏差,即由变量 的变化引起的 的波动。显然 值越大,说明由线性回归关系所描述的 的波动的比例越大,即线性关系越明显。21niiSSRyyxiySSRiy3、回归系数的假设检验和区间估计由于 ,其中当 为真时,因此对给定水平 ,如果 则拒绝 ,认为回归效果显著,否则接受 .0111:0:0HH21,xxNS1nxxiiSxx01:0

7、H12xxtSt n02|(2)ttn01:0H0H另外也可以对 作区间估计,在置信水平下, 的置信区间为 (注:当回归效果不显著时,可能是 与 不存在关系或影响 的不仅仅是因素 ,还有其他因素;也可能 是 与不是线性关系。)1111122(2),(2)xxxxtntnSSyxyxxy4、利用回归模型进行预测当回归模型和系数通过检验后,可由给定的 预测 ,其点估计为 (8-2) 的预测区间为0y0 x0y001 1 yx2002121xxxxytnnS5、可化为一元回归的形式 对于两个变量不是明显的线性关系时,我们可以通过适当的变量变换,将其化成一元回归来处理。1) ,其中 是与 无关的未知参

8、数。将 两边取对数,得 . 2,ln0,bxyaeN2ab, ,x,bxyaelnlnlnyabxln yy0lna1bxxln令:原模型转化为一元线性回归模型:01yx20,N2,ln0,byaxN2)lnlnlnlnyabx两边取对数,得: ,yabf x3) f xx提示:二、例题解析二、例题解析例例1 为研究某一化学反应过程中,温度对产品得率的影响,测得数据如下:温度100 110 120 130 140 150 160 170 180 190得率45515461667074788589求:(1) 关于 的线性回归方程;(2)求 的无偏估计;(3)检验回归效果是否显著( );yx20.

9、05(4)求当温度 时,得率 的点估计和置信水平为 的区间估计。125oxCy0.95解:对于两个随机变量 ,从上述表格中可以看出来,随机变量 的波动能引起 改变,做散点图可以观察到趋于一条直线。我们假设他们之间存在线性关系,设 其中01yx20,Nxy, x y1) 的估计代入数据,利用最小二乘法:01,011012011010045,11051,19089, 210011TTiiiYXYXyx 01,2.739,0.483 使下式最小:得:2) 210.92SSEn3)假设检验0111:0:0HH当 为真时 01:0H12xxtSt n146.25xxtS0.05222.306tn经计算0

10、.05246.2522.306ttn拒绝 认为回归效果是显著的。 01:0H4)模型预测当 时,点预测 预测区间为 2.7390.48357.64yx 0125oxC200212157.642.34xxxxytnnS例例2 下表是1957年美国旧轿车价格的调查资料, 表示轿车的使用年数, 表示相应的平均价格,求 关于 的回归方程。预测使用15年后旧轿车的平均价格。xy 元123456789102651 1943 1494 1087 765 538 484 290 226 204xyyxx解:解:当我们做散点图去描绘 与 的关系时,明显会看到,他们之间的关系并不是线性的,而是趋于指数分布,因此我

11、们想到用变量替换的方法,化成线性关系,再利用一元回归去拟合。yx设: , 两边取对数 1 1101xye1011lnlnlnyx1ln yy00ln1ln1xx01yx令:原模型化为 数据经变换后为1xx1lnyy123456789107.88 7.57 7.30 6.99 6.63 6.28 6.18 5.66 5.42 5.311) 由最小二乘法得01,8.165, 0.298 8.1650.298yx 0.052132.369382.3060 xxtSt经计算拒绝 , 认为回归效果是显著,01:0H代回原变量,得曲线回归方程 当 0.297681exp3514.26xyye015x 14

12、0.42y 01122110PPYXXXN2,0N2,其中: 称误差项 多元回归模型多元回归模型()n npn12,1(,;),iii pixxxyn101 112121 1,112012122212,12011221,1,ppppnnnpn pnyxxxyxxxyxxx进行 次独立观测,得到组数据(称为样本) 12,n 2(0,)N相互独立且均服从分布。为了方便,引入矩阵记号:11121,121221,112,111,1ppn pnnn pxxxxxxXxxx121,nnYYYY0112111,pnnpYX得到:由于我们所做的实验通常情况下是相互独立的,因此为列满秩矩阵,即rank( )=

13、.上式称为线性回归模型的矩阵型式。Xp 2110pnTTiijjijYXYXyx 011,pTTX XX Y对求偏导并令其导数等于零。 得方程 1TTX XX Y解得: 1、参数估计1) 的最小二乘估计011,p0112211PPYXXX回归方程22111nTiiiyye enpnp2): 的估计2 2、相关统计推断1)总的离差平方和 21212211niiniiiinniiiiiSSTyyyyyyyyyySSESSR21niiiSSEyy残差平方和其自由度为 ,它反映了 与 之间的线性关系以外的因素引起数据 的波动。即随机误差和不可控制的因素引起的误差,值越小模型越准。npY121,pXXX

14、12,.ny yy回归平方和 21niiSSRyy其自由度为 ,它反映了线性拟合值与他们平均值的总偏差,即由变量 的变化引起 的的波动。显然值越大,说明由线性回归关系所描述的的波动的比例越大,即线性关系越明显。1p iy121,pXXX方差来源自由度平方和均方回归误差总和1pnp1nSSRSSESSTSSEMSEnp1SSRMSRp3、模型的假设检验0121:0pH 1:0iH至少某个 1,REMSFF pnpMS构造统计量计算 与查表 比较,如果 接受 ,认为模型不显著;如果 ,拒绝 ,接受 认为模型显著,即与之间存在明显的线性回归关系。0FF0FF0H0FF0H1H 4、回归系数的假设检验

15、和区间估计01:0:0jjHH 1TSMSE X X,0,1,1jjjt npjps求出可证得其中 为 的对角线上第 个元素的平方根。 js Sj当 成立时 ,若 不为真时, ,则 有偏大趋势。因此对给定水平 ,若 ,接受 ,否则拒绝 。0Hjjtnps0H0jjEt2|()jttnp0H0H在置信水平 下122(),()jjjjtnp stnp s5、利用回归模型进行预测0010110,1ppyxx点估计:区间估计: 002ytnp s y120001TTsyMSExX Xx其中:eooeoeoe(a)(c)(b)(d)二、残差分析图二、残差分析图 1、时序残差图在实际问题中,如果观测值是按

16、时间序列测量的,我们就以观测时间或观测值序号为横坐标,以残差为纵坐标作出散点图,称为时序残差图。拟合较好的模型其时序残差图中的点应落在以时间轴为中轴线的带状区域内,且无明显的趋势性,即图(a)的形状;图(b)说明回归函数中应包含时间的二次项为自变量;图(c)表明误差方差随时间增大,即等方差的假定是不合理的。此时,可利用数据变换可以在一定程度上改善误差的异方差性。图(d)表明回归函数中应包含时间的线性项。12,1,;1,2,iii pixxxyin2、以拟合值为横坐标的残差图若模型适当,以拟合值 为横坐标的残差图也应呈现图(a)的水平带形式。若出现如图(b)说明回归函数应包含某些变量的高次项或交

17、叉乘积项,或者在拟合模型前应对变量 作变换;若出现图(c)说明误差方差不是常数;若出现图(d)说明拟合数据与真实数据间存在系统偏差。这有可能是测量数据时,遗漏了某些对因变量有显著影响的自变量或者回归方程遗漏了常数项 。YY03、以自变量为横轴坐标的残差图以每个 的各观测值 为点的横坐标即得以此自变量为横坐标的残差图。同样,满意的残差图应呈现如图(a)的水平带状。若呈现图(b)的形状,则需在模型中添加 的高次项或者对 做变换;若呈现图(c)的形式说明误差等方差的假定不合理;若呈现图(d)说明 的线性效应未完全消除。1jXjn1ijxin jXYjX进一步,我们还可以 做出以为横坐标的残差图,以考

18、察有无必要将 与 的乘积项引入到回归函数中(此项也称为 与 对 的交互影响)。如果该残差图呈现某种线性趋势,说明我们应在回归函数中加入 项,即应考虑如下模型:如果该残差图无明显的趋势性,即不需考虑 与 的乘积项。12X X1X2X2X1XY12X X01122312YXXX X1X2X第五节第五节 回归模型的选取方法回归模型的选取方法一、穷举法一、穷举法穷举法是从所有可能的回归模型中按照一个准则选取一个或几个最优的模型。 101121MMMMMMpMCCCp1、复相关系数准则( 准则)2pR21,ppPSSRSSERSSTSST 越大说明该线性回归方程描述因变量总变化量的比例越大,从而拟合的误

19、差平方和就越小,即拟合效果就越好。因此 可作为衡量拟合拟合优劣的一个的统计量。2pR2pR可以证明当回归方程中添加自变量时, 的值单调不减。因而,当所有个自变量都在回归方程中时值最大。故利用 达到最大来选择最优回归方程是不可行的。因此在处理问题时,对于确定的 值,对于包含个自变量的个回归方程中,选取使达到最大的回归方程作为候选模型。当 增加时, 的值最开始增长较快,后趋于平缓,则将由较快增加到趋于平缓的分界点处的 值所对应的那个回归方程选为最优的回归方程。2pR2pR2pR2pRpp利用 选择回归方程可简述如下:1)拟合所有可能的 个线性回归模型,并计算各模型的 值。2)在包含相同个数自变量的

20、所有回归方程所有对应的值 中,选择出的最大值,再同后一组的最大值的 值作比较,当 值的增加不再明显时,便选择相应的值的回归方程为最优方程。2pR2pR2pR2pR2M2pR2、修正的复相关系数准则或均方残差准则( 或 准则)2aRpMSE上述的 法则中,并没有直接考虑模型中待估参数的个数 的作用。一个较好的模型应该既能从分反映 的变化,又包含较少的待估参数,为此将 的控制作用引入到 中,得到它的一个修正量为2pRp1iyin p2pR21111PPpSSEMSEnRSSTnpSSTn 由于 并不随 的变化而改变, 当 增加时, 和 均在减少,因而在包含不足 个自变量的回归方程中使 达到最小是可

21、能的。因此 达到最大相当于使 达到最小。利用使 达到最大选择最优回归方程得准则称为修正的复相关系数准则。在实际应用中,在一定精度要求下可选择使 接近于最小,取包含较少数目的自变量的回归方程作为最优方程。1SSTnpppSSEMSEnppPSSEnpMpMSE2pRpMSE2aRpMSE例例1 某公司在15城市销售一种服装。该公司观测了15个城市在某季度内对该服装的销售量 及各地区人数 和人均收入 得到数据如下表所示。假设误差服从正态分布 。(1)建立 与 , 之间的线性回归方程;(2)讨论相应的统计推断分析模型的可行性。( )(3)讨论残差的正态性。Y1X2X), 0(2NY1X2X0.012

22、,126.93F地 区销售(箱)人口(千人)人均收入(元)人均收入(元)1 1162162274274245024502 2120120180180325432543 3223223375375380238024 4131131205205283828385 567678686234723476 6169169265265378237827 781819898300830088 8192192330330245024509 91161161951952137213710105555535325602560111125225243043040204020121223223237237244274

23、427131314414423623626602660141410310315715720882088151521221237037026052605iiy1 ix2ix解解:(1) 设线性回归模型的方程为:其中 代表销售量, 是待估系数。设 与 , 得观测值之间满足关系:由 是 的最小二乘估计,且 即 是 得无偏估计。可计算得 ,即01122YXXY012, Y1X2X,15, 2 , 1,22110ixxyiiiiYXXXTT1)()(E)01. 0,50. 0,45. 3(2101. 050. 045. 3XXY(2) 相关统计检验a)模型检验:构造统计量设 至少有一个非零经计算 。由于

24、 ,故拒绝 ,即认为 与 的线性回归关系是高度显著的。MSEMSRF 211210,:0:HH466.56790F)12, 2(0FF 0HY21, XXb)参系数检验:构造统计量由 又由 可知, 均显著。jjt nps 12120.4960050.0091990.006050.00096811ss 1181.924s229.502s0.052122.179t2|()1,2jttnpj12, (3)以拟合值为横坐标做残差图,残差图无明显变化趋势,模型较为满意。同样,我们可以以每个 为横坐标做残差图,均可以看到图形无明显变化趋势。模型较为满意。计算标准化残差得 :0.048,-1.225,-0.

25、657,-0.111,-0.321,-0.315,0.582,1.069,-1.760,0.785,-0.788,1.520,-0.450,1.133,0.488;由上述数据可知,实际频率在(-1,1)之间66% ,在(-1.5,1.5)区间为87% ,在(-2,2)已经达到100%,符合标准正态分布,所以残差具有正态性,模型可适用性较强。例例2 某牙膏厂为了更好的拓展产品市场,有效的管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测在出不同价格和广告费用下的销售量。下表为过去三十个周期的公司记录。请根据数据建立一个数学模型,分析牙

26、膏的销售量与其他因素的关系,制定价格策略和广告策略提供依据。销售周期销售价格(元)其他厂家平均价格(元)广告费用(百万元)价格差(元)销售量销售量(百万支百万支)13.853.805.50-0.057.3823.754.006.750.258.5133.704.307.250.609.5243.703.705.5007.5053.603.857.00.0259.3363.603.806.500.208.2873.603.756.750.158.7583.803.855.250.057.8793.803.655.25-0.157.10103.854.006.000.158.00113.904.1

27、06.500.207.89123.904.006.250.108.15133.704.107.000.409.10143.754.206.900.458.86153.754.106.800.358.90163.804.106.800.308.87173.704.207.100.509.26183.804.307.000.509.00193.704.106.800.408.75203.803.756.500.057.95213.803.756.250.057.65223.753.656.000.107.27233.703.906.500.208.00243.553.656.700.108.502

28、53.604.106.800.508.75263.654.256.800.609.21273.703.656.50-0.058.27283.753.755.7507.67293.803.855.800.057.93303.704.256.800.559.26解:解:1、问题分析处于顾客心里,在购买牙膏时大多数的顾客往往更多的注重相同档次、不同品牌的价格差异,而不是产品本身的价格。因此考虑用产品的差价取代公司销售价格和其他厂家的平均价格。2、基本模型 :设牙膏销售量; :其他厂家平均价格与公司销售价格之差; :广告费; :其他厂家平均价格; :公司销售价格;y1x2x3x4x做 的散点图,可以观察到明显的线性关系。做 的散点图可以观察到图像趋于二次曲线。因此建立以下回归模型:20112232yxxx1, y x用最小二乘估计得0123(17.32,1.30,3.70,0.35)区间估计为0123: 5.728228.9206: 0.68291.9311:7.49890.1077: 0.03

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论