




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I 北京市新开楼盘特征价格影响因素 研究 基于分位数回归 和 广义回归 建模实证分析 浙江农林大学 目录 一、问题的提出 . 1 二、模型构建前的准备 . 1 (一)若干假设 . 1 (二)数据的来源 . 2 (三)符号说明及变量设定 . 2 (四)数据预处理 . 2 三、经典 型构建 . 4 (一)用原始数据直接进行回归分析 . 4 (二)双对数的 型构建 . 5 四、分位数回归建模的构建 . 5 五、广义回归 型构建 . 9 六、结论与建议 . 12 参考文献 . 13 附录 . 14 要 在目前房价持续高涨的情况下,本文从 建筑类别 、 装修状况 、 环线位置 、 商圈得分 、 容积率 、 绿化率 、 物业费 、 周边配套设施 、 地铁 、 占地面积 、 建筑面积 、离市中心公公里数 等 12 个方面 建立 了房价 特征价格 模型 ( 。 首先建立 经典 现 双 对数 线性 显 优于 线性 再 采用 分位数回归的方法,以克服北京市新开楼盘均价数据中出现的异常点 吗,并 弱化经典 统计学误差分布 的 假定 ,以 构造更加稳健的 最后采用广义回归 行建模 。本文通过 及 个模型评价准则,得到用于分析北京市新开楼盘住房 价格的影响因素 的最优模型 是 广义回归 于分位数回归的优点,本文在不同分位数情行下讨论了楼盘特征价格的影响因素 。 再根据广义回归行分析,得出的结论是 影响北京市新开楼盘特征价格的主要因素是楼盘所处 环线位置, 楼盘的 房屋装修 情况 , 楼盘 附近 是 否有地 铁 , 房屋的 物业费 高低 ,楼盘所在 商圈 以及楼盘 离市中心距离( 等。 在模型的建立及求解的过程中, 本文 运用了马克威软件 行经典 广义回归 模, 用 件进行数据的调用及整理; R 软件 实现分位数回归 同时运用 件 进行相关图形绘制 。 关键词 : 新开楼盘 ; 经典 特征价格模型; 双对数特征价格模型; 广义 回归 ; 分位数回归 1 一、问题的提出 房地产价格是现代社会所讨论的热点问题之一 , 房价的高低会影响到多方面的利益 。对 房地产价格的 影响因素信息的挖掘 不仅可以为投资决策和消费决策提供参考 , 也可以为政府相关部门的行政决策提供参考。近几年来 , 我国各大城市的房价普遍出现了持续上涨、居高不下的情况 , 房价的上涨使生活成本大幅增加 , 导致了许多中低收入人群买房难的问题 。 房价的一路飚升和过热的 “炒房 ”现象已日益引起了全社会的关注和忧虑 , 房价的持续走高现象已不仅仅是一个经济问题 , 同时也是一个社会问题 。 目前中国的城镇建成区的总面积只有 平方公里,仅占全国国土面积的 却居住了 6 亿多人口。 北京作为我国的首都, 近几年北京房价居高不下。通州 和大兴两个离北京比较近的郊区 5左右的二手房在 元 /平方 米。北四环外到北五环 (离天安门直线大概 10 公里 )亚运村附近 10的二手房 元 /平方米, 东南四环外 1里的 5 年左右的二手房 元/平方米 。东北四是北京高档的住宅区应该到了 4 元 /平方米 。高房价给人民生活带来了不小的压力,北京的人均 每月收入 在 5000 元左右 ,现在北京随便一套 90方米 的房子大概在 240 元 的样子,按现在的收入房价比,基本上不吃不喝,不算利息,要 40的收入 积蓄 才能购买到 一套房子。 因此,科学地挖分析出影响楼盘房物特征价格的因素,对弄清房价成因以及房产定价和房地产价格指数编制等有重要的意义。 本文选择 北京市新开楼盘的 建筑类别 、 装修状况 、 环线位置 、 所属商圈 、 容积率 、 绿化率 、 物业费 、 周边配套( 包括 是否有学校,大型商场,邮局,银行医院等) 、 地铁 配套、 占地面积 、 建筑面积 和 离市中心公公里数 共 12 个 特征变量对楼盘 房价进行较全面地分析。 以得出影响房价的显著因素 , 依此 提出合理的建议。 二、模型构建前的准备 (一)若干假设 1 北京市新开楼房的住宅用房属于异质性商品; 2 北京新开楼 盘的均价以及属性特征数据 真实可靠, 且房产均价是实际交 2 易价格 ; 3 新开楼盘住宅用房市场供需均衡; 4 北京市新开楼盘住宅用房属于统一的商品市场 ; 5 构建的模型的误差项,不满足经典的统计学相关分布假定 。 (二)数据的来源 本文各楼盘相关数据来源于搜房房地产网 ( ) 。统计了该网中从 2010 年 01 月到 2011 年 06 月期间, 18 个月各月最新开盘的楼盘。并对搜房房产网上不同的物业类别的房源进行筛选,选取了类别为住宅的户源,再以各月各楼盘为样本单位 ,对各户源的相关数据信息进行统计 分析和建模 。 (三)符号说明及变量设定 本文涉及到的变量定义见表 1 所示,其中年份为 2010 年 1 月至 2011 年 6 月期间的 18 个月;楼盘指在这 18 个月中 290 个新开的住宅楼盘;建筑类别分为板楼和塔楼两类, 故 引入虚拟变量,若建筑类别 1 和建筑类别 2 均为 1,则说明 既为板楼又为塔楼;环线位置分为二环以内、二至三环、三至四环、四至五环、五至六环、六环以外这 6 类,其中 环线位置的打分方式为 二环以内 1,至四环 至五环 至六环 环以外 圈大致有五十 多种;周边配套设施中包括幼儿园、小学、中学、大学、餐饮、邮局、医院、银行、娱乐场所等 9 项指标;离市中心距离 ( 数则是 根据各楼盘所提供的楼盘地址,利用 球软件,测量出了该楼盘离北京市中心的距离。 (四 )数据预处理 本文以楼盘为单位,在 290 个楼盘样本中, 本文 筛选出各个楼盘的包括建筑类别、装修状况、环线位置、所属商圈、容积率、物业费、绿化率、周边配套设施、地铁、占地面积、建筑面积、离市中心距离等相关的 12 个可能影响房价的因素进行统计 分析 。 为便于进行 特 征变量 分析,对数据进行了适当的处理 。 在建筑类型中, 本文关注板楼和塔楼对房价的影响,忽略了楼层因素;在装修状况中,同样引入了虚 3 拟变量;对于环线, 本文 运用专家打分法,根据环线位置对楼盘价格影响的大小,对环线进行 0 至 1 打分,分值最小跨度为 周边配套设施中对楼盘周边有无相关的教育、医疗、银行、邮局、餐厅、娱乐场所等 9 个相关配套设施进行了统计,引入虚拟变量,用 0 和 1 代替;最后将虚拟变量相加再加上 1,得到周边配套设施得分(数值范围为 1 至 10 之间)。 表 1 楼盘均价特征变量及变量设定 特征变量定义 代码 年份 盘 盘均价(元 /平方米) p 建筑类别 1(板楼为 1,非板楼为 0) 筑类别 2(塔楼为 1,非塔楼为 0) 修状况(精装修为 1,毛坯为 0) 线位置 圈得分 积率 化率 业费 边配套设施 铁 地面积 筑面积 市中心距离(公里 ) 对商圈的评分中, 本文 从商圈的经济实力,发展潜力等角度进行评分。首先,将北京市划分成 18 个区(外省及六环以外的部分区域 定义为郊区),再利用图 将各商圈划分到所属的 19 个区域内。 依据北京统计信息网 ( ) 上提供的相关资料,根据人口、社会固定资产投资、社会消费品零售额、人均城镇居民消费 支出这四个方面对 北京 18 个区经济实力相关数据进行统计,具体数据见附表 1。 由于 该 表中数据可知, 四个因素数值之间差距较大,不能直接进行权重处理,故 本文 又将各个因素分别进行 1 至 10 的打分 ,其中 最高为 10,最低为 1,中间数值依据公式: 9/(最高值 )(当前数值 +1。 标准化打分后的数据, 见 附 表 2。 将 标准化 得到的数据导入马克威软件 中 , 对各 特征变量 做因子分析, 从而 得到各因子的方差贡献率 分别为: 人口(万) 、社会固定资产投资、社会消费品零售额以及人 4 均城镇居民消费支出分别为 最后,根据方差贡献率,将各因素数值乘上相应的方差贡献率,得到 18 个区域的分值(数值范围为 1 至 10 之间),由于郊区发展相对落后,故将郊区分值评定为 1,如表 2 所示: 表 2 北京市 18 个区最终得分 所属区域 崇文区 石景山区 延庆县 昌平区 怀柔区 大兴区 最终得分 属区域 顺义区 宣武区 西城区 东城区 门头沟区 丰台区 最终得分 属区域 海淀区 朝阳区 房山区 通州区 密云县 平谷区 最终得分 、经典 建 (一)用原始数据直接进行回归分析 从搜集的数据可以看出, 楼盘房物特征价格 的高低受多个 特征属性的 影响,表现在 经 典 的解释变量就有多个,故首先选择 线性 其进行分析。其间基于 多元回归分析法 ,该方法是一种可以将复杂问题简化的统计 方法。它以相关原理为基础的,分析因变量与自变量之间的相关关系,用回归方程表示,根据自变量的数值变化,去预测应变量变化的方法。 此类 模型的一般形式为 i 0 1 1 2 2 .i i k k i X X ( 1) 其中 , 1, 2, 3.,, k 为解释变量的数目, ( 1, 2 , . )j 称为回归系数 ,上式也被称为总体回归函数的随机表达式。 本文 将搜集的数据导入到马克威软件 行回归分析, 得经典 线性 特征价格模型为 4 6 8 . 8 2 2 2 7 1 7 6 . 5 5 9 2 z x 1 7 6 5 . 7 3 4 7 s q d f 4 5 5 3 . 7 3 4 4 w y f( 0 2 0 ) 2 9 3 3 9 0 7 4p ( ) ( ) ( )( 2) 2R = 2. 0 0 7 , 由模型 结果 分析 可得 , 调整后的 2R 仅为 即 只 能解释 房屋均价信息,因此,需要进一步进行模型修正。 5 ( 二 ) 双对数的 型 构建 进一步分析 , 本文将 楼盘均价( p),占地面积( 建筑面积( 对数,得到 3 个变量,并将对应的原始数据用这3 个数据替代 ,再次借助马克威软件 模,得经典双对数特征价格模型为 l n 9 . 1 5 4 3 2 9 0 . 2 0 5 1 z x 0 . 6 7 4 2 h x 0 . 0 3 4 s q d f 0 . 0 8 2 8 w y f 0 . 1 5 9 7 d t 0 . 0 0 6 1 c b d ( 1 0 6 6 6 ) 3 7 2 2 0 3 5 8 6 . 0 4 8 0 3 . 0 8 3 4 5 . 4 3 3 3p ( ) ( ) ( ) ( ) ( ) ( )( 3) 2 = 2. 0 9 6 , 由( 3)式 可以看出, 2R 值 有了较大提高,现 为 远远大于 ( 2)式 中的 说明 修正后所得的双对数 的显著特征变量能解释楼盘均价 信息 。 但是,传统的回归建模都是局限于均值条件的模型构建,在不同分位数下的模型构建更能获得更加丰富的信息,这有利于分析楼盘特征价格的影响因素,因此,本文进一步采用分位数回归进行楼盘房价的型构建。 四 、 分位数回归建模的构建 从概率与数理统计角度来说,对一个连续随机变量 y,如果 ,则 说 分位值是q,或者说 分位数。类似地,如 果本文 将被解释变量 的线性表达式(又称为拟和值),并使得该表达式满足小于等于 ,就称为分位数回归。如果用数学语言描述其估计原理,实际上是使一个关于 称作残差)的绝对值的表达式最小。 分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决 残差最小化。 一般线性回归模型可设定如下: ( ) ( ( 0 ) ) , ( 0 , 1 ) .x t t I t ( 4) 6 在满足高斯 表示如下: 0 1 1 2 2( | ) . . . y x x x x ( 5) 其中 ,., 210为待估解释变量系数。这是均值回归( 型表达式,类似于均值回归模型,也可以定义 分位数回归模型如下: 0 1 1 2 2( | ) . . . ( )y k k uQ x x x x Q ( 6) 对于分位数回归模型,则可采取线性规划法( 计其最小加权绝对偏差,从而得到解释变量的回归系数,可表示如下: 0 1 1 2 2m i n ( . . . )x k kE y x x x ( 7) 求解得: 0 1 1 2 2 ( | )y k kQ x a a x a x a x ( 8) 其中, , , 0 0 1 , 0 2 3 4 , 0 ,l o g ( / ) l n ( ) l n ( / ) l n ( ) l n ( )i T i i i Ty y y I G D P n g h ( 9) 分位数回归描述的是研究对象的不同分位数,如它可以描述一些因素如何影响研究对象的中位数、 1/4 分位数、 3/4 分位数等,这些 不同分位数代表了处于不同水平的研究对象。而不同分位数下的参数估计量往往也不同,这就代表同样的影响因素对处在不同水平的研究对象的作用大小不同。 图 1 影响楼盘价格的各 特征变量 分位数分析图 7 由 图 1 分析 可以看出: 特征变量建筑类别 积率 化率 边配套 些因素对于房价的均价影响不显著,因为置信区间包含 了 0 值,而其余剩下的图则是显著的。将不显著与显著的 特征因素 进行对别可发现,建筑类别,绿化率,容积率,周边配套设这些 特征因素 对于 楼盘平均房价影响不大,这与人们的此类商品认识的常识相 符 ,而其余的变量从分位数图中反映出来的不仅仅是对 楼盘住房价格 的显著影响,而是更加清晰明了的反映了影响 楼盘住房价格 的不同 特征变量 的分布,增加丰富的信息量。在这些显著变量中,如截距项和商圈得分 于低分位数 重要影响因素,环线位置 业费 铁 布的厚尾性,所以在分位数较大时能够更好的解释模型。 为了更好的 获得新开楼盘价格 的影响因素, 本文基于 北京市 2010 年 1 月至2011 年 6 平均房价, 采用了平滑算法 (进行分位数为1%99%的 分位 数回归 模 , 得 结果 见表 3。 表 3 房价特征价格影响因素分位数回归参数估计 分位数 截距项 zx hx 8 续表 分位数 pt dt 图 2 房价特征价格影响因素分位数回归分析图 本文进一步计算了各分位数模型下的 平均绝对百分误差( 的值得比 9 较 可以得到,当分位数为 , 值得最小,故由表 3 数据可查得分位数为 的分位数回归 0 . 5l n p = 9 . 1 1 8 2 - 0 . 1 0 6 5 l b 2 + 0 . 1 6 2 5 z x + 0 . 8 4 2 8 + 0 . 0 3 0 3 s q d f 0 . 0 7 6 00 . 1 2 3 8 0 . 0 4 2 8 l n 0 . 0 0 7 8 h x w y fd t j z m j c b d ( 10) 从表 3 和图 2 可以看出 : 1 在低分为数 5% 10%上, 虚拟变量装修情况 (精、简 )(环线位置 (物业费 (离市中心距离 ( 这四个因素的参数估计都在 95%的置信区间内,说明新开楼盘的装修情况,环线位置,物业费,以及离市中心的距离是影响低房价的主要因素; 2 在分位数 15% 60%上,虚拟变量建筑类别 2(塔楼与非塔楼 )(虚拟变量装修情况 (精、简 ) (环线位置 (商圈专家打分 (物业费 (虚拟变量周围有无地铁 (建筑面积取对数 (离市中心距离 (这 8个因素的参数估计都在 95%的置信区间内,说明新开楼盘的建筑类别是否为塔楼,装修情况,环线位置,商圈专家打分,周围有无地铁,物业费,建筑面积,以及离市中心的距离是影响中低档房价的主要因素; 3 在分位数 65% 95%上,虚拟变量装修情况 (环线位置 (商圈专家打分 (物业费 (有无地铁 (离市中心距离 (这 6 个因素的参数估计都在 95%的置信区间内,说明新开楼盘的装修情况,环线位置,商圈专家打分,物业费,有无地铁,以及离市中心的距离是决定中高档房价的主要因素 。 综上所述,虚拟变量 (精、简 )(环线位置 (物业费 (离市中心距离 (这 4 个因素是影响房价的最基本也是最重要的因素,说明居住的位置,当期装修情况,以及后期服务费用是影响房价的最主要的因素,而建筑类别1(板楼,非板楼 )( 住房容积率 (绿化率 (周围配套设施 (房屋占地面积取对数 (这 5 个因素在全分位数上几乎都不显著,所以它们对于楼盘特征价格几乎是没有影响的,其余的因素则是出于其中,即有影响但不是绝对重要的。 五、广义回归 建 但是,往往商品价格以及特征数据建模时误差项存在异方差和自相关,因此, 10 楼盘房价的 建也不例外。而且经典 建 需要建立在误差项满足同方差和没有序列自相关的前提下, 所以,前面构建的 需考虑误差项的异方差以及自相关问题。最有效的一种建模方法就是广义回归。通过 广义最小二乘法( 可得广义回归的参数估计为 * * 1 * * 1 1 1 1 ( ) ( ) ( ) G L S X X X y X M M X X M M y X X X y ( 11) 其中 , 1v a r ( ) v a r ( )M u M I M M u , *X , *y , y X u M y M X M u , *u 。 如果模型存在异方差,则协方差矩阵 和转换矩阵 M 分别为: 21122221 / 001/0 1 /0 ( 12) 即对每个观测值赋予不同的权数,权数即 标准差的倒数。因此,异方差情况下的 称作加权 法。 对于自相关问题,协方差矩阵 取决于自相关的形式。自相关的一般表达式为 11t t k t k tu u L u v ( 13) 对于 )过程11t t tu u v , 11 t t k t t k t k tE u u E u u E u v ( 14) 可得到不同期误差项的协方差 : 2220 1 1011 1 0110: / (1 )0: ( 15) 协方差矩阵 和转换矩阵 M 分别为 21101 2 31 . . . . . . . . 101 Tn a n ( 16) 11 由于差分缺少了第一个观测值。转换后的变量即是原来变量的广义差分变量,差分系数即是自回归系数。 使用马克威软件 进行楼盘价格的广义回归 建,其间以特征变量楼盘均价为因变量,表 1 中定义的特征变量 (部分取对数) 为自变量。最后采用逐步回归剔除了 不显著的 7 个特征变量:楼层类别 积率 化率 边配套 地面积 及建筑面积 参数估计结果见表 4,整理得广义回归的最优模型为 l n 9 . 1 4 9 7 0 . 2 0 9 8 z x 0 . 6 8 7 4 h x 0 . 0 3 3 9 s q d f + 0 . 0 8 1 4 w y f 0 . 1 6 2 2 d t 0 . 0 0 6 0 c b d ( 1 7 )p 22R = 0 . 7 6 3 2 , . 0 . 7 5 8 1 , 1 3 0 . 2 7 3 8 ,A I C 0 . 7 6 8 5 , 0 . 8 5 7 1 , 1 0 4 . 4 3 3 4 , 0 . 2 6 1 1a d j R L L P A M E 表 4 参数估计 显著 特征变量 参数估计值 t 值 P 值 C 于剔除的不显著特征变量,结合实际分析可知 楼层有板楼和塔楼之分,一般情况下板楼的使用面积更高一些,通风效果更好,而且工程的造价也更高,所以其它条件一样应是板楼房价高于塔楼。但是 本文 现在做的是相对于其它更具有显著性的因子,楼层类别所带来的房价变化就不显著了。所以以上 特征变量 的剔除具有实际意义, 可以让回归方程更加合理。 由( 17)式可知,广义回归 为 2R 为 比双对数 拟合优度高,说明解释的信息更多。再根据表 5,从三个模型评价准则 可以看出:广义回归 息量最小,而且其 是 三个模型中的最小值,这 说明本文考虑楼盘 数据中的 自相关和异方差 现象是合理的。依此,得出新开楼盘的最优特征价格模型为 广义回归 从 ( 17) 式可知 ,对 北京市新开楼盘特征价格的显著 影响 程度 从高到 低的特征变量 依次为 环线 装修 地铁 物业费 商圈得分 及离市中心距离( 其中 环线 特征变量 对房价的影响最显著,环线的专家打分每提 12 高单位 1 个值房价提高 由于 本文 采用的是从 1 的打分制度并且二环以内 1,二至三环 至四环 至五环 至六环 以实际上每段环线的影响又有不同,具体的说也就是环线数值越大,每增加一个环线所减少的房价 也越多。其次 具有显著 影响 的 特征变量 是装修和地铁, 本文 对这两个 特征变量 采用虚拟变量 0 和 1( 0 表示无, 1 表示有),所以是否装修和地铁的 有无对房价的影响分别是 另外物业费和商圈得分对房价也有一定的影响。 表 7 三种模型相关统计量的比较 模型评价准则 双对数 义回归 位数 位数为 C 、 结论与 建议 通过北京市新开楼盘特征价格模型的构建和实证分析, 本文 得出如下结论: ( 1) 环线作为影响房价的最重要的因素,对于开发商而言,环线值越小地区的房价越高,所以在其它条件相同的情况下,选择越小的环线对开发商越有利。对于购房者而言在相同价格的情况下一般选择环线小的住宅比较合理。它的增值空间比较大。国家想建立廉租房,应当把房建在 6环以外的位置,这样可以减少国家投入的成本,同时也能更有效的降低廉租房的租金 ; ( 2)消费者购房应该将环线位置,附近是否有地铁,房屋是否装修作为 房价评判的重要因素,而绿化率,容积率,周边配套等信息的对房价的影响力则没有前者大 ; ( 3)地铁可以带动一定地区房价的上涨,所以大城市可以建造地铁来提高周边房价,带动经济的发展 ; ( 4)商圈是一个不可忽略的潜在价值。可以给房价带来不可估量的增值。考虑一个商圈的潜在价值可以从人口,社会固定资产投资,社会消费零售额等方面入手 ; ( 5) 楼盘 住宅
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药师职业发展方向讨论试题及答案
- 考试题及答案有哪些
- 系统规划与管理师考试职业技能提升的方式研究试题及答案
- 心理咨询师考试应对客户多样性问题的技巧试题及答案
- 知识产权政策的实施与效果的考试试题及答案
- 提高光电工程师证书考试分数的试题及答案
- 机考心理学试题及答案
- 考点梳理计算机二级考试试题及答案
- 激光技术工程师基础知识回顾试题及答案
- 激光设备的健康管理策略试题及答案
- 第四代住宅白皮书-HZS
- 衍纸简介课件
- 2025年第六届(中小学组)国家版图知识竞赛测试题库及答案
- 色卡-CBCC中国建筑标准色卡(千色卡1026色)
- 中国盐业集团有限公司招聘笔试题库2024
- 耳穴压豆课件
- 重庆市特种设备检验检测收费标准
- 胸腔积液诊断治疗指南
- 国网商城商户入驻流程
- 行政事业单位内部控制自查表
- HPLC高压泵系统的主要性能技术指标
评论
0/150
提交评论