房价问题研究_第1页
房价问题研究_第2页
房价问题研究_第3页
房价问题研究_第4页
房价问题研究_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、房价问题研究摘要房价问题是人们维持生计的头等大事。影响房价的因素很多,有宏观因素,也有微观因素。建立合适的房价微观因素模型和房价宏观模型对预测房价及未来房价的大致走势有着重要的意义。我们采用相关系数分析法,剖析几个因素的重要性,做出合理的假设;采用主成分分析、统计分析、逐步回归、相关系数分析、优化等方法对问题进行了解答。针对问题一,首先对数据中的奇异数据作了处理,同时将附表中的数据进行标准化处理,通过spss对变量进行相关处理与分析,通过主成分分析将原来众多具有一定相关性的指标重新组合成一组新的互相无关的综合指标来代替原来有的指标,在此题中我们提取了两个主成分、,并将其作为自变量建立它们与单价

2、的回归关系,由spss软件求出对应的系数,再将其通过一定的转换求出原始数据之间的最终模型为:并对模型的相关系数进行检验分析,明晰模型的拟合程度。 针对问题二,由问题一得到的房价模型进行预测,得出结果。针对问题三,首先查阅出某城市的统计年鉴,得到相关数据。分析其宏观因素对房价的影响,建立合适的模型并求解,并通过优化方法使模型最优,并以该城市为例预测未来房价的大致走势。 房价问题的影响因素众多,在纷杂的海量数据中,提取出最主要的影响因素是非常必要的,模型确立了以后,通过逐步回归得到最显著因子,再确立相关系数,得到所求模型,分析得到的模型是否是最优的,通过优化使建立的模型是最为精确的,从而提高准确度

3、。方法简单明了,结果比较准确。 关键字: 统计分析 奇异数据 逐步回归 主成分分析一、问题重述房地产业,作为“国民经济的睛雨表,宏观经济的风向标”,其运行状态不仅影响着我国国民经济的发展速度和水平,更关系到居民的生活质量以及社会治安的稳定,因此,房价问题无疑是人们维持生计的头等大事。影响房价的因素很多,有宏观因素,也有微观因素,影响房价宏观因素有国家的政策、银行利率,国民经济发展等,而影响房价的微观因素有位置、楼层,建筑结构等。问题1:试根据附件1表中数据分析影响房价的主要微观因素,并建立合适的房价微观因素模型。问题2:请预测以下房屋的单价或总价项目编号项目位置总层数所在层房屋结构建筑面积行政

4、区划距离城市中心1(虚拟距离)距离城市中心2(虚拟距离)价格/总价1开发东路111号164钢混结构86A区4006002京华城路北侧65砖混结构112.87C区300050003雅筑园2818钢混结构74D区110000170000问题3:请你自行收集或者查询数据,建立影响房价的宏观因素模型,如国民收入与房价之间的模型,银行利率与房价之间模型等,并以某个城市为例预测未来房价的大致走势。二、模型的假设引起房地产的市场波动的因素有很多,包括宏观因素和微观因素两个方面,所谓宏观因素就是指国民收入、国家政策、银行利率、供求比率和人口结构及变化趋势等方面的影响;影响房价的微观因素可能有房屋结构、所在楼层

5、、与城市中心的距离、建筑面积、总层数、行政区划,项目位置等等。我们从中提取重要因素对次要因素做出如下假设:1.剔除表中个别奇异数时对模型的建立没有影响。2.忽略消费成本如交通费用、物业费用、停车费用等因素对住房价格的影响。3.房子的外形以及高度对房子的价格没有影响。4.假设本文的数据处理及研究过程中只出现系统误差,无随机误差。5.假设本文所研究的各项因素的误差是不相关的。6.在同一个地区对房子的销售价格一定,不会因为街道的不同而改变销售价格。7.国家宏观调控政策仅仅包含土地政策、税收政策、货币政策的影响。三、符号说明符号含义单价总层数所在层房屋结构建筑面积行政区划城市中心1的距离城市中心2的距

6、离提取的第一主成分提取的第二主成分提取的第三个成分标准化处理后的总层数标准化处理后的所在层标准化处理后的房屋结构标准化处理后L3建筑面积标准化处理后的行政区域标准化处理后的城市中心1的距离标准化处理后的城市中心2的距离居民收入开发成本供需比例四、问题的分析1、对于问题一:对于附表中给出的大量数据和较多的变量,首先对数据做预处理,对于表中的异常数据,根据问题要求采取不同的方法进行处理,奇异数据对总体数据的影响很微弱时,我们选择剔除这样的数据,而有些奇异数的量特别大,我们通过分析表中的数据,对其进行合理的替换。解决了奇异数据这一问题后,我们采取主成分分析的方法,提取出最主要的三个主成分、,并建立三

7、个主成分与房子的单价的回归模型,再利用其标准差和均值将其转化到原始数据中得到影响房价的最终回归模型。通过对影响房价的微观因素做的初步分析得出有关结论,我们得到房子的价格与总层数、所在层、房屋结构、建筑面积、行政区域、城市中心1的距离、城市中心2的距离的表达式,建立最终模型。2、对于问题二:我们根据问题一中所建立的模型输入问题二中相关变量得出相应的结果,并对结果进行检验分析。3、对于问题三:我们对影响房价的因素做了相应的查询,得出房价的波动与政治、经济、行政、社会、自然等因素有关并搜集了很多相关资料和数据,政治方面指的是国际的影响;经济方面指的是人均收入、地价、贷款利率;行政方面的影响指的是国家

8、政策(土地政策、货币政策、税收政策);社会方面的影响指的是人口密度、家庭结构等;自然方面的影响指的是位置,在第一问中我们已经对有的因素做了相应的分析,在第三问中我们着重处理的是居民收入、开发成本、供需比例对未来房价的影响。五、模型的建立5.1、问题一的模型建立5.1-1、奇异数据处理给出的附表中有大量的奇异数据,为了使得到结果更为可靠地反应实际问题,就必须合理的处理这些奇异数据,对一些于样本总体几乎没影响的数据,我们在处理时,直接将这类数据进行了剔除,而对于一些对样本总体影响大的数据,则在认真的分析了图表后,对其进行了合理的替换。5.1-2、主成分分析附表中给出影响房价的因素很多,使得问题比较

9、复杂,因此我们选择主成分分析法,对多个变量进行了降维,把多因素转化成少数几个相互独立而且包含原数据大部分信息的因素。将原有的的数据通过变换将变量转换成主成分,我们从中选取的主成分是原变量的线性组合,我们通过特征值大于一选取了三个主成分、,可用多项式表示:(5-1) 我们通过spss软件对特征值(见附表)做如下处理: (5-2)注:2.446、1.622、1.057为特征值,在图(6-2)中可以查到相应的数据我们根据主成分和特征值列以下方程(5-3)5.1-3、我们根据主成分、建立房子的单价的回归模型并进行分析,所建立的表达式为: (5-4)我们将表达式(5-3)带入(5-4)中再根据 (5-5

10、) 得到最后的表达式: (5-6)5.2、问题二的模型建立问题二模型的建立跟问题一模型的建立一样,其求解过程是在模型一的基础上的5.3、问题三的模型建立1、1)假设居民收入、开发成本和供需比例是影响房价的宏观因素,我们先做居民收与房价的散点图并进行拟合,如下图所示居民收入和房价观察图可以发现居民收入和房价呈线性相关,这些点大致都在这条直线的周围,故我们建立居民收入与房价的模型为: (5-7) 我们通过matlab软件来求解相关变量,相关系数为0.97,残差平方和为106958,的值为0.22,的值为560.28故我们所得模型为:(5-8) 2)其次我们建立开发成本与房价的散点图并进行拟合,散点

11、图与拟合图在同一图上体现,如下图所示开发成本与房价通过观察散点图我们可以发现,这些点大致分布在一条直线的周围,故我们建立的开发成本与房价的模型为:(5-9)我们通过matlab软件来求解相关变量,相关系数为0.97,残差平方和为106958.4,的值为1.18,的值为196.6故我们所得模型为:(5-10) 3)最后我们画供需比例与房价的散点图并进行拟合,如图所示供需比例与房价通过观察散点图我们可以发现,这些点大致分布在一条直线的周围,故我们建立的供需比例与房价的模型为:(5-11)我们通过matlab软件来求解相关变量,相关系数为0.95,残差平方和为108925.1,的值为2.365,的值

12、为365.1故我们所得模型为: (5-12)2、假设各个因素与房价之间呈现线性关系,则它们的线性组合仍为线性,因此由以上三个方程我们建立如下线性模型:(5-13)其中为常量,为居民收入的系数,为开发成本的系数,为供需比例成本。 六、模型的求解6.1、问题一的求解我们首先将数据存在excel表中,利用spss软件中的数据输入功能将excel表中的数据导入到spss软件中,先对数据进行标准化处理,处理后的数据分别用表示总层数,表示所在层, 表示房屋结构,表示建筑面积,表示行政区域,表示城市中心1的距离,表示城市中心2的距离。然后对标准化处理后的数据进行主成分分析,操作spss软件得到三个主成分,如

13、图表(6-1)所示表(6-1)成份矩阵a原始重新标度成份成份123123Zscore(总层数).733-.514.049.733-.514.049Zscore(所在层).625-.506.025.625-.506.025Zscore(房屋结构)-.234.158.580-.234.158.580Zscore(建筑面积)-.348.106.694-.348.106.694Zscore(行政区划).430-.490.472.430-.490.472Zscore(距离城市中心1(虚拟距离)).761.643.081.761.643.081Zscore(距离城市中心2(虚拟距离)).761.643.0

14、81.761.643.081提取方法 :主成份。a. 已提取了 3 个成份由上表可知,已提取出的三个主成分对房价的影响程度,通过对主成分的分析,使得多个变量被转换成少数的几个相互独立的变量,使得后面模型的建立问题变得简单,从表中可以清洗的看出,三个主成分对房价的影响,也使得我们在分析问题时,更加清楚研究的对象。表中所显示的数据是经过标准化处理后得到的,运用spss软件对其进行求解分析后得到的图表,表中分别给出了经过标准化处理后的七个因素,并且给出了主成分分析的三个主要因素,及其对应的相关值,既有其原始值,同时又给出了重新标度后的成分只,让我们能清晰的看到七个因素对主成分的影响程度,同时也能看出

15、原始时刻与重新标度后的差异,让我们在后面的模型你呢分析中能明晰,误差产生的原因,同时也为我们对模型的优化求解有了一定的参考价值。又该图可知我们提取了三个主成分,通过分析题目中的已有因素,可知这些被提取出的主成分是和哪些因素密切相关的。对于第一主成分,对其影响较大的因素有总层数,所在层,房屋结构,建筑面积两个城市虚拟距离。对于第二主成分影响其的因素有距离两个城市的虚拟距离,建筑面积,行政区划,房屋结构。对于第三主成分影响其的相关因素有宗岑书房屋结构,建筑面积。通过分析影响主成分的因素,可以知道计算把这些有内在联系的变量分成了几类,同时处理后的主成分是相互独立的,在后面的计算分析中,我们可以直接进

16、行分析和处理这几个相互独立的成分。通过操作spss软件我们可以得到其主成分的特征值如图(6-2)所示图(6-2)成份初始特征值a提取平方和载入旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %原始12.44634.94634.9462.44634.94634.9462.01328.75928.75921.62223.17858.1241.62223.17858.1241.91227.31256.07131.05715.10473.2271.05715.10473.2271.20117.15773.2274.90812.97386.2015.6589.40595.6

17、056.3084.395100.00072.589E-163.699E-15100.000重新标度12.44634.94634.9462.44634.94634.9462.01328.75928.75921.62223.17858.1241.62223.17858.1241.91227.31256.07131.05715.10473.2271.05715.10473.2271.20117.15773.2274.90812.97386.2015.6589.40595.6056.3084.395100.00072.589E-163.699E-15100.000 通过该图表,可以清晰明了的看出各个变

18、量的初始特征值,及提取平方和后载入的各项指标,前三项主成分的累计贡献率达到85%以上,因此我们可以认为,所提取出的三个主要成分能充分反映总体的特征,同时我们还能在该表中看到其他的一些指标,在后面的问题分析中也很有帮助。通过初始特征值的各项成分分析,我们可以得出结论,这七个因素是互相有关连的,但通过主成分分析后,将其降维后得到新的变量,即提取出了主成分,此时通过表中的各项数据,可以看出用这三个成分去表示最终的房价,简化了问题的处理。同时表中还给出了方差,方便对问题的探讨。碎石图通过该碎石图,我们可以清楚的看到在第三个点之后,折线的趋势趋于平缓,这验证了我们提取三个主成分是正确的。因此,我们选择前

19、三个因素作为主要因子,来研究我们的问题,最终确定模型。再通过表达式(5-3)处理后我们得到三个表达式: (6-3) 通过spss软件进行表达式(5-2)处理,处理、后的数与房子的单价进行回归处理,并得到相应的系数,如图所示(6-4)图(6-4)系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-8.372E-16.027.0001.000Z1.008.017.012.453.651Z2.098.021.1264.746.000Z3.174.026.1796.730.000a. 因变量: Zscore(单价)从该图表中我们可以直接读取出主成分的相关系数,同时也能看出标准化和非标

20、准化的区别,同时还能从图表中给出的信息分析模型的优劣,知道模型的优劣程度,方便后面模型分析,至此我们已经得到了模型的相关系数,及其显著性。观察图我们可以发现其相关系数为,的值为0.008,的值为 0.098,的值为0.174,残差分析见图表(6-5)图(6-5)残差统计量a极小值极大值均值标准 偏差N预测值-.36711551.4723539.0000000.218952371355标准 预测值-1.6776.725.0001.0001355预测值的标准误差.027.212.050.0181355调整的预测值-.35751061.4832327.0002437.220996741355残差-3

21、.506206996.04782581.00000000.975735551355标准 残差-3.5896.191.000.9991355Student 化 残差-3.6206.223.0001.0011355已删除的残差-3.565746076.11073828-.00024367.980606991355Student 化 已删除的残差-3.6366.312.0001.0031355Mahal。 距离.01662.6652.9984.3901355Cook 的距离.000.101.001.0051355居中杠杆值.000.046.002.0031355a. 因变量: Zscore(单价)从

22、该图表中我们可知道到每一个的残差情况,帮助我们来分析模型的优劣,通过观察其极小值,极大值,均值,大概了解模型的情况,同时通过分析其标准偏差,可以得到到与实际的偏离程度。从图表中可知,标准偏差并不是很大,因此,模型的离散程度低,模型是合理的。最后所得模型为: (6-4)再将处理后的房子单价、方差、均值以及处理后的各个变量、与各个变量的方差、均值 带入到表达式(5-5)中可得到最终表达式:6.2、问题二的求解问题二的求解是在问题一的基础上,将问题二中的三个变量进行标准化处理后,将数据带入到问题一所求解的模型中,可预测出问题二中三个地方的房子单价,分别为:项目编号项目位置总层数所在层房屋结构建筑面积

23、行政区划距离城市中心1(虚拟距离)距离城市中心2(虚拟距离)价格1开发东路111号164钢混结构86A区4006006878.79732京华城路北侧65砖混结构112.87C区300050005976.89713雅筑园2818钢混结构74D区1100001700007465.186.3、问题三的求解模型的求解1)通过软件matlab求解相关变量的系数,的系数为685.918、的值为0.4275、的值为1.0005、的值为1.5256,因此我们所建立的最终模型为: (6-5) 数据表年份20016907.111280.15206820027702.811840.2213020038472.212

24、730.33221220049500.514020.372549200510493.614510.412796200611769.515640.533132200713785.816570.653665200817067.7817950.63655200918858.0920211.64475从模型可以看出,未来该城市的房价呈上升趋势。六、结果分析、检验针对问题一,通过回归建立了线性模型为:对模型进行检验回归分析,得到值为1320.742,值为0.00009,同时模型的相关程度高,由此判断模型显著性成立。并由附表中已有的数据对所建立的模型进行验证与分析,发现带入后结果不是相差很大,能比较准确的

25、反映实际。因此,我们所建立的模型合理的、可靠的。针对问题二,由问题一建立的模型,直接代入相关变量的值,即可得到结果。其结果的准确性由问题一的检验分析可知还是很高的,同时根据已有数据得到模型的偏差量,确定问题二结果的误差,这样得到的结果是很准确的,可信的。针对问题三,对模型进行检验回归分析,得到值为22235.67,值为0.0023,同时模型的相关程度高,由此判断模型显著性成立。并由收集到的数据对所建立的模型进行验证与分析,发现带入后结果不是相差很大,能比较准确的反映实际。因此,我们所建立的模型合理的、可靠的。七、模型的进一步讨论优点:本文采用主成分分析能有效地提取到影响房价的六项主要因素,是问

26、题得到了一定的简化,同时又不失对问题分析的准确性,提取主成分后采用多元线性回归模型,此时,得到的回归模型合理的反映了各个因素对房价的影响。以附表中的数据为例对所建立的模型进行分析验证,结果同表中给出的实际数据差异并不是很大,说明回归模型可以准确的反映问题,即建立的模型是合理的。缺点:在建立模型之前,对奇异数据的处理可能会对模型的结果产生影响,同时在处理问题,为了突出主要问题而做出了一些假设,使问题理想化从而便于我们去处理,但这可能是我们建立的模型与实际相比有一定的误差。模型的推广:本文以附表中的数据为例,对所建立的模型进行了实证研究,理论值与实际值相比基本一致,因此该模型对于现实有一定的指导意

27、义。分析影响房价的因素,及影响程度对于房地产开发者来说有重要意义,同时也对政府的相关政策有一定的参考意义。同时,主成分分析法与回归分析法应用广泛,本文所建立的数学模型也可推广应用到其他领域线性相关问题的研究及预测。对模型的进一步讨论:对于问题一我们采用的是主成分分析法,在提取主成分时一定会舍弃某些因素,从而会导致建立的模型和实际有所偏差,因此为了使模型更加的反映现实,我们也可以采用逐步回归法来世我们的模型更优。鉴于时间问题在此就不再详细讨论。参考文献1 徐国祥,统计预测和决策,上海:上海财经大学出版社,2005。2 张晓峒,应用数量经济学,北京:机械工业出版社,2009。3 张龙,计量经济学,

28、北京:清华大学出版社,20104 赵静,数学建模与数学实验,北京:高等教育出版社,2008。5 肖华勇,实用数学建模与软件应用,西安:西北工业大学出版社,2008。6 姜启源,谢金星,数学模型,北京:高等教育出版社,2010。7 刘卫国,MATLAB程序设计与应用,北京:高等教育出版社,2008。8 丁正生,概率论与数理统计,北京:高等教育出版社,2011。9 薛薇,SPSS统计分析方法及应用,北京:电子工业出版社,2004。10王雪峰,线性代数,北京:北京交通大学出版社,2009。附录问题一:成份矩阵a原始重新标度成份成份123123Zscore(总层数).733-.514.049.733-

29、.514.049Zscore(所在层).625-.506.025.625-.506.025Zscore(房屋结构)-.234.158.580-.234.158.580Zscore(建筑面积)-.348.106.694-.348.106.694Zscore(行政区划).430-.490.472.430-.490.472Zscore(距离城市中心1(虚拟距离)).761.643.081.761.643.081Zscore(距离城市中心2(虚拟距离)).761.643.081.761.643.081提取方法 :主成份。a. 已提取了 3 个成份成份初始特征值a提取平方和载入旋转平方和载入合计方差的

30、%累积 %合计方差的 %累积 %合计方差的 %累积 %原始12.44634.94634.9462.44634.94634.9462.01328.75928.75921.62223.17858.1241.62223.17858.1241.91227.31256.07131.05715.10473.2271.05715.10473.2271.20117.15773.2274.90812.97386.2015.6589.40595.6056.3084.395100.00072.589E-163.699E-15100.000重新标度12.44634.94634.9462.44634.94634.9462.01328.75928.75921.62223.17858.1241.62223.17858.1241.91227.31256.07131.05715.10473.2271.05715.10473.2271.20117.15773.2274.90812.97386.2015.658

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论