版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
线性回归模型
讲座内容:线性回归的原理参数的最小二乘估计参数估计的显著性检验拟合优度虚拟变量回归的涵义:回归分析(regressionanalysis)用于研究一个变量(称为被解释变量或因变量)与另一个或多个变量(称为解释变量或自变量)之间的关系。通常Y代表因变量,X代表自变量;一元回归分析Y与X之间具有线性关系多元回归分析Y与X1、X2、…Xk之间分别具有线性关系。回归的原理:例1研究某市容积率与地价的关系,为开发商土地拍卖的出价提供参考,收集了在过去土地拍卖价与该地块容积率的数据:容积率平均地价(元)220002.52200323603.52500426004.52680527505.52800628506.5290072920回归的原理问题:回归直线如何确定?
参数的最小二乘估计参数估计:普通最小二乘法(OLS)普通最小二乘法就是要选择参数,使得残差平方和(residualsumofsquares,RSS)最小。即~~离那些点的垂直距离最近的那条线参数的最小二乘估计参数估计:普通最小二乘法(OLS)如何确定的值?根据微积分,当
对的一阶偏导数为0时,Q达到最小。即参数的最小二乘估计参数估计:普通最小二乘法(OLS)以上联立方程组称为正规方程组(normalequations)。求解,得注意:,即小写字母代表了变量与其均值的离差。上面给出的估计量称为OLS估计量(OLSestimator)。参数的最小二乘估计对模型的解释
参数显著性检验假设检验假设:容积率对平均地价没有影响数值结果表明:。因此,零假设成立吗?需要进行假设检验。怎么进行?
参数显著性检验
Coefficients标准误差tStatP-valueIntercept1809.27272780.1810222.564853.12E-09容积率174.909090916.8105110.404752.57E-06P值小于0.000,所以拒绝零假设:
,容积率对平均地价有显著的影响。模型拟合优度拟合回归直线的优度:判定系数r2t检验表明样本回归函数很好地拟合了样本数据。但并非每一个Y值都准确地落在了估计的PRF上。能否建立一个“拟合优度”的判定规则,从而辨别估计的回归线拟合真实的Y值的优劣程度?判定系数r2(coefficientofdetermination)拟合优度拟合回归直线的优度:判定系数r2
可以证明:由X变异所解释的部分未解释部分或残差的变异Yi的变异
拟合优度拟合回归直线的优度:判定系数r2
上式出现的各种平方和定义如下:(totalsumofsquares,TSS),真实Y值围绕其均值的总变异。(explainedsumofsquares,ESS),估计的Y值围绕其均值的变异,也称回归平方和(由解释变量解释的部分)。(residualsumofsquares,RSS),即Y变异未被解释的部分。于是上式可以简化为:拟合优度拟合回归直线的优度:判定系数r2表明Y与其均值的总离差可分解为两部分:一部分归于回归线,另一部分归于随机因素。拟合优度拟合回归直线的优度:判定系数r2对于定义,称为判定系数。拟合优度拟合回归直线的优度:判定系数r2的两个重要性质:(1)非负性;(2)趋于1表示拟合得好,反之表示拟合得不好。实际使用中,不可一味追求趋于1!!拟合优度回归统计MultipleR0.96085RSquare0.92324AdjustedRSquare0.91472标准误差88.1550观测值11RSquare为0.923,说明样本点离回归线都比较近,回归线解释了Y大部分方差,拟合程度高。可以转化为线性的非线性问题从图形上观察,容积率与地价的关系不像线性,所以尝试对模型的形式进行改进,具体的做法是对X取对数,然后再进行回归:y=737.6ln(x)+1538.6过拟合问题
高度拟合样本的模型并不一定是好的应用模型。就如同给某一个人量身定做的衣服,不一定适合大多数人的道理一样。模型高度拟合了样本数据,就往往意味着模型有较差的外推能力,可能存在“过度拟合”的问题。
实践经验告诉我,如果建模的目标是预测,简单的线性模型反而更容易胜出。
多元线性回归
引入虚拟变量
变量名变量性质单位详细说明因变量(Y)地价连续变量元/m2容积率连续变量总建筑面积与用地面积的比率与商服中心的距离连续变量米是否靠近地铁站0-1变量1=是,0=否是否学区房0-1变量1=是,0=否地块性质分类变量1=商业用地,2=居住用地,3=工业用地,4=其他
引入虚拟变量
引入虚拟变量问卷中的数据类型定类变量0-1变量例:贵公司是否愿意参与外籍学员的教育:□是 □否分类变量例:贵公司所属行业:□第一产业(农业)□第二产业(工业与建筑业)□第三产业(服务业)定序变量例:贵公司聘用外籍员工的优势的重要程度如何?□非常重要□重要□一般□不重要□非常不重要3.连续变量例:贵公司在招聘外籍员工时看重哪个方面条件,请按1到7打分,7为最看重,1为最不看重。□中文沟通能力□工作经验□跨文化团队协作能力□专业技能……线性回归模型对数据的要求Y变量:原则上要求连续变量有专家认为七级定序变量也勉强可以(慎用)X变量:连续变量最好定序变量勉强可以定类变量要改为虚拟变量引入当Y是定类变量的时候怎么办呢?
变量名变量性质单位详细说明是否流失0-1变量无1=流失;0=不流失在网时长连续变量天用户在线的天数当月花费连续变量元当月的总花费个体的度连续变量人数通话联系人的数量联系强度连续变量分钟/人用户通电话的所有人的平均通话分钟数个体信息熵连续变量无用户通话的所有人中平均每人通话分钟数的分布情况个体度的变化连续变量%(当月个体的度-上月个体的度)/上月个体的度花费的变化连续变量%(当月花费-上月花费)/上月花费下期再会:Logistic回归模型类似的问题
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第六章平行四边形教案
- C语言专升本教案
- 《网络综合布线系统工程技术实训教程(第5版)》 课件全套 王公儒主 第1-15章 网络综合布线系统工程技术- 综合布线系统工程管理
- DB11T 1004-2013 房屋建筑使用安全检查技术规程
- 医疗服务流程信息化
- 旅游景区非招投标采购管理指南
- 疾病防控院墙施工合同
- 农民工薪资支付法律咨询
- 贷款承诺书模板:二手房按揭指南
- 网络口碑营销策略
- 小学三年级(12)班家长会课件
- 装配式模壳剪力墙体系的标准解读及工程应用
- 滚珠丝杠基础知识ppt课件
- 等离子喷涂原理与应用
- 化工仪表及自动化ppt完整版(第三版-厉玉鸣)课件
- 人教版小学1-6年级日积月累(全)
- 大型连锁超市商品分类明细表
- 新生儿听力筛查PPT幻灯片课件
- 公对公欠款协议书范文
- 对甲苯磺酸检测标准2
- PVC热稳定剂常见测试方法解析
评论
0/150
提交评论