北京大学--应用统计学(PPT 48)第十一讲多元回归与建模_第1页
北京大学--应用统计学(PPT 48)第十一讲多元回归与建模_第2页
北京大学--应用统计学(PPT 48)第十一讲多元回归与建模_第3页
北京大学--应用统计学(PPT 48)第十一讲多元回归与建模_第4页
北京大学--应用统计学(PPT 48)第十一讲多元回归与建模_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一讲 多元回归与建模多元回归与建模1n 研究多个变量间的关系,因变量如何受到多个自变量的影响,用多个自变量预测因变量的值。n 例:n 超市中商品的价格、摆放位置、促销手段如何影响销售量;n 如何用客户的个人资料(职业、收入、家庭成员人数、婚姻状况、是否有抵押等)进行信用预测;n 连锁旅店的利润主要受哪些因素影响;n 如何预测每个客户的流失概率;n 如何在达到环保标准的前提下找到最佳生产条件;n 如何给二手车定价;n 如何预测故障维修时间;n 如何定新员工的薪水及解聘员工的补偿金。23X2X1Yi4认识 R2n 总变差的分解: SST=SSR+SSE;n 判定系数: R2=SSR/SST;n 多重相关系数 R;n 调整(修正)的判定系数:5对回归方程的检验n 问题:因变量和所有自变量的集合之间是否存在显著的关系?n 检验假设n 拒绝域6对回归系数的检验n 检验假设n 检验统计量n 拒绝域7例:巴特勒运输公司巴 特勒 运输公司的主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。89101112回归系数的解释n b1=0.0611 当送货次数不变时,行驶里程每增加 1英里,行驶时间期望的估计值增加 0.0611小时。n b2=0.9234 当行驶里程不变时,送货次数每增加 1次,行驶时间期望的估计值增加 0.9234小时。13例:房屋售价n 一个房地产经纪人认为房屋的售价可由房屋的面积、卧室的个数和批量的大小来预测。他随机选取了 100座房屋并收集数据如下:1415多重共线性问题n 在多元线性回归模型中, 多重共线性性(Multicollinearity)是指自变量之间存在线性相关的关系。n 多重共线性存在时会使得系数估计的标准误差增大,从而使得 相应的 t统计量减小和 p值增加。我们将无法确定任一自变量对因变量的单独影响。单个系数的符号可能与实际不符。16识别多重共线性性n 自变量的相关矩阵: 样本相关系数的绝对值大于 0.7。n 方差膨胀因子 (Variance Inflation Factors, 简记作 VIF): 刻画了相比多重共线性不存在时回归系数估计的方差增大了多少。 VIF越大说明多重共线性问题越严重。n 经验法则: VIF 101718例: Johnson过滤水股份公司Johnson公司对遍步南弗罗里达州的水过滤系统提供维修服务。为了估计服务时间和成本,公司希望能够对顾客的每一次维修请求预测必要的维修时间。他们收集的数据中包含最近一次维修至今的时间(月数)、故障的类型(电子和机械)以及相应的维修时间(小时)。你能够建立起一个预测方程吗?19定性的自变量n 引入虚拟变量( Dummy Variable)n 如何定义虚拟变量?例: x=0 (女性), x=1( 男性)x=0 (机械类), x=1( 电子类)n 如何解释回归模型?20建立维修时间的回归方程n 二元回归方程n 解释你得到的回归方程!21n 蓝色为电子类,红色为机械类22诊断你的模型:残差分析n 残差分析不仅被用于判断你对模型中误差项所设的假定是否符合,而且还可以检测出异常值和有影响的点。n 残差图 :由横轴为自变量或者因变量的预测值、纵轴为残差或者学生化残差组成的散点图。23识别影响点、异常值n 识别影响点的方法:杠杆率比较大 (大于 3(p+1)/n), 或者 Cook距离 D比较大 (1).n 检测异常值的方法:散点图;利用学生化标准残差基本服从标准正态分布来检测 (落在 2个标准差之外时 )。 n 识别之后:建议应该同时报告包含影响点和除去影响点的两种回归结果。24其它的内容n 使用残差检验误差项的正态性;n 使用残差来分析误差项的独立性:Durbin-Watson统计量 d残差对时间的散点图25Durbin-Watson 检验26n How does the weather affect the sales of lift tickets in a ski resort?n Data of the past 20 years sales of tickets, along with the total snowfall and the average temperature during Christmas week in each year, was collected.n The model hypothesized wasTICKETS=0+1SNOWFALL+2TEMPERATURE+ n Regression analysis yielded the following results: Example27The model seems to be very poor: The fit is very low (R-square=0.12), It is not valid (Signif. F =0.33) No variable is significant28The errors may benormally distri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论