版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
案例3-1:基于数据挖掘的广州二手房价格分析目录13案例背景基于神经网络的房价预测案例小结5基于随机森林的变量分析描述性统计分析2401案例背景背景房地产业成为国民经济支柱自住房改革施行以来,我国房地产业快速发展,逐渐成为国民经济的支柱产业,为我国的经济增长做出来的重要的贡献。房价问题受关注随着中国城镇化进程加快,房地产市场不断繁荣,居民购房不断高涨,但同时由于需求和关注的增加,房价也在不断地上涨。二手房市场博弈010203房价问题已经成为重要的社会和经济问题,经济的不断发展使得二手房市场也存在极大的竞争,买家和卖家存在着博弈。02描述性统计分析描述性分析1.数据总体概况广州二手房价格分布由图3-1-1显示,广州市二手房房价主要集中在2.5万~4.5万元/㎡,部分城区房价显著高,其中14个样本房价超8万元/㎡,主要位于天河(11个)和越秀(3个)。另有7个样本房价低于1万元/㎡,全部位于花都。综上,广州市房价普遍高于1万元/㎡,且各城区价位各异。图3-1-1
广州市二手房房价分布直方图2.分类变量分析
由箱线图显示,城区因素显著影响房价,天河区、越秀区和海珠区居前三,花都区最低。天河区房价高可能与CBD位置相关,而花都区远离市中心。豪华装修样本少,对房价影响不明显;楼层和房屋朝向亦无明显影响。综上,仅城区显著影响房价,需进一步统计学验证。图3-1-2各个因素下房价的箱线图描述性分析2.分类变量分析因素K-squared值DF(自由度)P值local486.0770.000***decorate24.9720.000***floor5.9120.052orientation45.1790.000***因素K-W平均秩检验值DF(自由度)P值local749.38070.000***decorate25.11320.000***floor11.89420.003***orientation22.61990.007***由表3-1-1可知,得出第1、2、4个因素拒绝房价服从正态分布的假设,样本数据均不符合正态性和方差齐性检验,因此采用非参数检验。对于多组独立样本数据,可采用K-W平均秩检验。K-W平均秩检验结果见表3-1-2,P值均小于0.05,认为4个分类变量均对房价有影响,且影响显著,此结果与箱线图结果完全不同,其原因可能是数据量纲问题所导致可视化结果的差异不明显。表3-1-1方差齐性检验结果表3-1-2K-W平均秩检验结果描述性分析3.数值型变量分析变量均值标准差最大值最小值偏度峰度bedrooms/个2.5560.918700.3800.492halls/个1.6260.57340-0.9090.639area/m292.24143.17242020.782.43610.762tfloor/层3.6502.948910.857-0.857price/万元334.246287.7425800418.192122.662unit_price/(万元/m2)3.5491.41614.940.721.4385.513在所收集的样本中,只有客厅数目呈左偏分布,其余变量均呈右偏分布;对于房屋面积来说,方差较大,说明了房屋需求面积期望在92.241m2左右;对于房价(每平方米价格)来说,其均值约为3.5万元/m2,标准差为1.416万元/m2,说明了广州市的房价普遍较高。表3-1-3数值型变量基本统计量描述性分析03基于随机森林的变量分析随机森林变量分析随机森林(RandomForest,RF)在以决策树为基学习器构建Bagging(袋装)集成的基础上,进一步在决策树的训练过程中引入随机属性的选择,并组合多棵决策树做出预测。使用决策树袋装是随机森林的特例,通过自助法重采样技术,将随机性加入构建模型的过程,随机森林过程图如图3-1-3所示。图3-1-3随机森林过程图随机森林变量分析已有理论证明,当树的数目足够多时,随机森林的泛化误差的上界会收敛于(3-1-1)
是树之间的平均相关系数;s是度量树状分类器的“强度”的量。同时,随机森林具有很高的预测准确率,并且对异常值和噪声具有很好的容忍度,不易出现过拟合问题。随机森林变量分析首先,对房价根据其大小进行“高中低”分类,将分类后的样本按照7:3的比例进行训练集和测试集划分;然后,将房价作为因变量,自变量为在统计学上有显著差异影响的分类变量,如local(所在城区)、decorate(装修情况)、orientation(房屋朝向)、floor(所处楼层),以及部分数值型变量,如bedrooms(房间数)、halls(客厅数)、area(房屋面积)、tfloor(所处楼层数)、year(建造年份);最后,通过随机森林并产生的1000棵决策树进行组合学习。模型对训练集学习之后,对测试集进行检验,其准确率为80.22%。随机森林变量分析图3-1-4
变量的相对重要性从图3-1-4可见,local(所处城区)是影响房价的首要因素,因各城区发展差异显著,如天河区作为中央商务区,房价显著偏高。紧随其后的是year(建造年份),因二手房市场中,较旧房屋价格相对较低,这反映了购房者普遍偏好新房。area(房屋面积)和orientation(房屋朝向)作为次要因素,同样影响房价,因它们关乎居住舒适度,尤其是采光条件,直接影响房屋价值。相比之下,decorate(装修情况)对房价的影响最小。04基于神经网络的房价预测房价预测流程首先,将收集到的数据按照7:3的比例划分成训练集和测试集;其次,对训练集进行神经网络分类训练;最后,对测试集进行预测,求得其真实值和预测值的误差平方和,以及对真实值和预测值进行相关性分析,计算相关系数,并绘制散点图对模型进行评价。通过对神经网络参数的调整,选定建立5个隐层,阈值为0.01,学习率为0.001,激活函数选取Sigmoid函数,并选定local、bedrooms、halls、aera、decorate、floor、tfloor、orientation及year为自变量,unit_price为因变量进行模型分析。房价预测流程图3-1-5神经网络运行结果结果显示,神经网络模型的误差(Error)为2.15008,迭代步数(Steps)为6912。通过对测试集进行模型检验,其误差平方和为1.05,其真实值与预测值的相关系数为0.84,可判断真实值与预测值具有很高的相关性,体现出模型预测效果较好。房价预测流程图3-1-6真实值与预测值散点图真实值与预测值散点图如图3-1-6所示。可以看出,真实值与预测值大致分布在直线y=x附近,进一步体现出模型预测具有较好的结果。房价预测流程真实值预测值真实值预测值真实值预测值3.45073.6353866282.91673.2405589713.43753.7287782512.20932.5956253532.89163.1201480236.47066.5573344272.96093.5310568563.92473.4905603352.70272.8523149956.07766.4605469084.44.5587509372.91263.563680748.64718.5966881562.95313.7481451545.61365.5332631593.91833.5954604293.09892.6622371612.94122.5987072282.91263.3086216663.37423.0334527421.21.4098160885.06035.6188542197.09527.1508770773.40583.3217598042.52.5187560643.46673.4665347534.11233.3055196642.47062.5573344272.70272.8523149952.91263.56368074表3-1-4广州市房价真实值与预测值表3-1-4为选取前30套广州市房价的真实值与预测值,通过该表所示,可大致看出预测值与真实值较为接近,可以达到预测的目的。05案例小结案例小结广州市二手房房价分布情况大部分二手房房价集中在2.5万至4.5万元/平方米之间,显示出广州市房价的一个主要价格区间。然而,也存在显著的地区差异,其中少数城区的房价远高于其他
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生理性闭经病因介绍
- 《无菌技术南通大学》课件
- 智能制造生产线技术及应用 课后练习题及答案 郑秀丽
- 海蜇蜇伤病因介绍
- 感悟技术(课件)-高中术必修技术与设计1(豫科版2019)
- (麦当劳餐饮运营管理资料)更新商业-麦当劳中国餐厅场地租赁合同文本
- (高考英语作文炼句)第20篇老师译文笔记
- 全套监理资料表格(带索引)
- 兴隆小区北区1#-5A#楼冬期施工方案
- 开题报告:循证决策视角下乡村青年教师价值引领力的状况测评及提升机制研究
- 银矿的开采与加工
- 共享菜园的可行性分析方案
- 《室内设计公共空间》课件
- 辽宁省葫芦岛市兴城市2023-2024学年八年级上学期期末考试数学试题
- 雨污水市政接驳施工方案
- 天津市2022-2023学年六年级上学期数学期末试卷(含答案)
- 人工智能技术导论-课件 第8章 人工智能伦理法规
- 女性私密的课件
- 动车组转向架检修与维护-轮对的检修
- 一例颅内动脉瘤破裂出血患者的个案护理
- 农药经营56学时培训模拟试题
评论
0/150
提交评论