应用多元统计分析3_第1页
应用多元统计分析3_第2页
应用多元统计分析3_第3页
应用多元统计分析3_第4页
应用多元统计分析3_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章线性回归分析案例

第一节房地产公司预测房价

第二节Bikeshare数据

第三节上机实现因变量自变量定性定量或定性定量AnoVa线性回归定性(0-1两类)??定性(三类或以上,有序、无序)??离散(泊松分布)???:广义线性回归模型数据有解释变量和被解释变量,而且被解释变量是连续型数据,可以考虑线性回归模型.两个案例:1、问题导向,

需先找到影响房价的因素,收集数据,再建立预测房价的模型;2、数据导向的,利用现有的二手数据进行数据挖掘,看看数据中包含哪些有价值的信息.第一节房地产公司预测房价3.1.1数据介绍和初步分析3.1.2模型合理性检查3.1.3分类自变量的处理方法3.1.4其他改进模型的思路3.1.1数据介绍和初步分析FirstCity房地产公司想建立一个预测房价的模型,如何选择自变量呢?公司找一些部门经理开了一个头脑风暴讨论会,选出几个候选自变量,包括:房屋面积(sqf:平方英尺),房龄(age:年),卧房个数(bed),卫生间个数(bath)和车库车位个数(garage).还有其他一些变量,如房屋状况,也对房价有影响,但由于缺乏量化的数据,只能暂时去掉.从某区域两个月内卖出的居民住房中抽取了319个样本(firstcity1.csv),包括销售价格(price,Y,单位美元)和前面提到的5个自变量sqf,age,bed,bath,garage,部分数据见图3.1.1数据介绍和初步分析变量都看作连续变量,散点图和相关系数及其显著性表明,房屋价格与房屋面积、卧房个数、卫生间个数和车库车位个数线性正相关,与房龄负相关,而且相关系数是否为零的假设检验,在显著性水平0.001下统计显著.3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析第一节房地产公司预测房价第一节房地产公司预测房价3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法在其他变量取值相同时,

房屋面积(sqf)每增加1平方英尺,平均价格增加54.83美元,房龄(age)每增加1年,均价减少261.30美元;每多一车位(garage),均价增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均贵60578.05美元.3.1.3分类自变量的处理方法解释符合大家的认知,即山坡上因多挖地基会增加建筑费用,多要车位也会单独多加钱,而新房的价格都按面积计算价格,不会把卧室个数和卫生间个数代入价格计算公式.还有,模型中系数的正负符号也与单个变量分析的正负相关性一致,没有得到与通常认识相违背的结论.3.1.3分类自变量的处理方法买新房时,房价计算公式中都没有加入卧室和卫生间的个数,但当我们拿到数据时,发现卧室个数(bed)和卫生间个数(bath)分别与房屋价格有关,这主要是因为价格与面积(sqf)有关,而面积(sqf)又与卧室个数(bed)和卫生间个数(bath)有较强的相关性.3.1.3分类自变量的处理方法此模型中,房面积(sqf)、房龄(age)、车库车位数(garage)、建在山坡/平地上这4个变量相关性较弱,能够说固定其他变量不变时,某个自变量增加1个单位,因变量价格(Y)的变化.3.1.3分类自变量的处理方法相反,像3.1.1节模型I中房屋面积(sqf),卧房个数(bed)和卫生间个数(bath)之间有强相关性,很难说固定面积(sqf)和卫生间个数(bath)等不变,卧房个数(bed)增加一个,售价如何变化之类,因为每增加一个卧房数(bed),面积(sqf)肯定会增加,不可能不变.3.1.3分类自变量的处理方法3.1.1节模型I中有5个连续变量,共有6个参数,均方差为27350,而本节模型有3个连续变量,一个分类自变量,共5个参数,均方差为20250.本节模型的拟合效果比模型I要好.3.1.3分类自变量的处理方法应用中,不是自变量越多越好,应该尽量找各有特色的自变量,从不同角度解释因变量取值的差异.信息类似的自变量对解释因变量取值差异.不但没有帮助,还会产生不合理的参数估计值.3.1.4其他改进模型的思路虽然二倍标准差40650美元,比模型I的54700美元要小,但要做预测,误差还是比较大,现实中,还可考虑:(1)房屋是否有中央空调(centralairconditioning)?(2)房屋所在邮政编码,因编码不同价格也会很不同.(3)房屋建筑是一层,还是二层?房屋本身状况,能直接搬入,还是需要装修等.庭院是否做过专业美化设计(landscaping)?房屋的建筑材质等.第二节Bikeshare数据2012年Capital自行车租用公司每天租车人次数据及有关当天天气、季节等。

具体变量:dteday(日期),分类自变量season(季节,1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否节假日,0-否,1-是),weekday(星期几,0-6),workday(是否工作日,1-不是周末或节假日,0-是周末或节假日),weathsit(天气情况,1-晴,无云或少云或局部多云,2-有雾或多云,3-小雪或小雨等,4-大雪或大雨或大雾或冰雹等连续自变量temp(0-1,标准化后的温度),atemp(0-1,标准化后的体感温度),hum(0-1,标准化后的湿度),windspd(0-1,标准化后的风速).可能关心的因变量有casual(临时用户人数),regist(注册用户人数),cnt(临时用户和注册用户人数之和).我们关心因变量cnt,想建立线性回归模型描述因变量与其他自变量的关系.对于数据中的每个分类自变量,利用方差分析和单个分类自变量的回归分析查看cnt的取值是否与分类自变量取值有关,各类的平均差异如何.比如对season,读入数据X后,在R中运行M=lm(cnt~factor(season),data=X);anova(M);summary(M);对每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论