Python数据分析与可视化教案6.2 房产数据预处理与分析_第1页
Python数据分析与可视化教案6.2 房产数据预处理与分析_第2页
Python数据分析与可视化教案6.2 房产数据预处理与分析_第3页
Python数据分析与可视化教案6.2 房产数据预处理与分析_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2房产数据预处理与分析当今时代,房价问题一直处于风口浪尖,房价的上涨抑或下跌都牵动着整个社会的利 益,即便是政府出台各种政策方针也只能是暂时抑制楼市的涨势,对于需要买房的人来 说,除了关注这些变化和政策外,还有一个非常头疼的问题,在哪里买房,房价怎样。普通客户会不停花大量精力逛链家、安居客等房地产网站,借助他们展示的内容进行 筛选,但因地区众多,各个地段、房价差异的比照以及入手时机的把握,都得一个个去查 阅与分析,非常麻烦。如果可以通过数据的爬取,再按照用户希望的维度统计与分析,会 让数据变得清晰明了。本案例旨在对房产数据进行预处理与分析,为刚需购房者提供有用 信息。一、数据源本案例利用某爬虫

2、软件爬取某房产网站中苏州地区的房产数据,数据文件为house.xlsx, 如图6-*所示。A KALttWMt大南平 摩电人司收 陵倒原匕* 力“公”中 H两%国 育史长帙 iHiiiMM Il CM 成无人恒收央#/午 成火收力 MMA 舍港R 6斤人 ) RnVl| LSnjhVH113“ 265V ISM”MV公寓住它 公宴住E 公*他七 公奇化.匕 Mttt 公方住七 公4住宅 公寓住K 公住七 公奇他充 公*化七公离任七 公4住七 公/住宓 公/修E 公宣化t 公离住七IrtWOm1 lOOOOOOmwna 500000m1 1WM2MOOWm1 MODln? 474811nt&M

3、4446mlMOOOOm1 400000m1 4)0000*SJOOOOm14tOOOOm,2014 14:|KA.&K 201S*1*JJW”.2ISM*3M,.6F1IQM.4X8 户y T眸乂户5XOO(J3KMf*31S4fQMM C:Userslil1angAnaconda3python.exe C:/Users/liUang/PycharfiProJects/sjfx/6-2.py 或凫的行或=4效第的列H - 16= 5 R密的所种列名为:UIndeMr小区名称,地址,均价,,环比上月,物火费,物业费ST.” .总建面枳,建造年代、驿租军,&户停军使二慷化军二二手房房费依;租房源

4、nr, 开发商,物业公司,dtypes,object*)第的前5行为:小区名裕地址均恰环比上月物业费物业英也 总面哄建遗母代名取睾i0 芳州唉花H工业园双湖高和珞,近it被密G6073元/X 43.14% 6,31把/向/月别禁 128590M 2GM年 9.61新濯天城昊江南第新城长板BU号18211元* 0.21% 1.9x/mr/R 公/住宅 1000000m- 2014年2.320地江生明 具江出江电%南部新城中山南%近皮&络20809x/m ,0.96% 1.9元/月 公惠住宅 625194- K 2.4 179( 3 便堆太翔城具江太加新城东太就大道8899号 26478元/I 1

5、.23% 1.95t/E/月公寄住宅 1。7933献2915年 1.24 新创康思城墨箫箫立关长江第819号20936元/日 t 1.71% 1.5x/nr/R 公寓住宅 500000m- 289年 155Process finished with exit code e图6-*步骤2输出结果步骤3:数据空值处理。将数据中的“暂无数据”改为空值,统计出现空值的列及其 空值数量,并按降序排序。步骤3代码如下:import numpy as npdata = data.replace(暂无数据:np.nan)nun_result = data.isnull().sum()nun_result =

6、nun_resultnun_result0nun_result = nun_result.sort_values(ascending=False)print(各列的空值数量为:iT,nun_result)输出结果如图6-*所不。Run:62 t u* 二 .C:UsersliliangAnaconda3python.exe C:/Users/liUang/PycharmProjects/sjfx/6-2.py 各列的空值热为:总建面枳125二季唐唐源数55造年代52容枳率51停车位48总户数48墀化率38开发商35租法源数33物业费29物业公司15dtype: int64图6*步骤3输出结果步

7、骤4:数据单位处理。将所有数据的单位去掉,并转换为数值型数据。如将“均 价”列中的单位去掉,并将剩下的数据转换为数值。步骤4代码如下:data均价=data均价(元的2丁)data物业费=data物业费.str.replace(元/rrV 月data总建面积,=da匕总建面积Istr.replaceCm)data总户数=data/总户数.str.replace(户data二手房房源数=data二手房房源数1.str.replace(套data租房源数1=data租房源数str.replace(套,”)columnsjist =均价,物业费总建面积?停车位二手房房源数,租房源数print(dat

8、a.head()for column in columnsjist:datacolumn = datacol umn .astype( float)输出结果如图6-*所不。 TOC o 1-5 h z Run:6-2 C:UsersliliangAnaconda3python.exe C:/U$ers/UUang/PycharmProjects/sjfx/6-2.py小区名称地址 均价环比上月物业费 物业类至总建面积建造年代容积率0苏州桃花源工业园-双湖-高和路,近星波街46073 4, 3.14% 6.31 别# 128590 2014年 51 新濯天妹吴江-南部新城-长板路1号18211T

9、 0.21X1.9 公寓住宅10000002的4年共 2 次地江南华府吴江-奥江老城,南部新城-中山南JS,近庞楠路 20809 4. 0.96%1.9 公寓住宅 625194NaN 2.4“弄 3 出地太湖诚吴江-太湖新城-东太湖大道8899号26478 J 1.23%1.9公寓住宅 107933 2015年 194新创理出域高新-浒及关-长江1S819号20936t 1.71%1.5 公寓住宅500000201。坏1 float64Process finished with exit code 0图6-*步骤4输出结果步骤5 :添加新列。(1)将“地址”列拆分为3个局部,第1个局部生成新列

10、“区”。(2)生成新列房龄”,“房龄”列计算公式为:房龄=当前年份(2020)-建造年代。步骤5 (1)代码如下:data区=data地址.str.split(-,expand二True)0print(dat皿地址,区川:5)输出结果如图6-*所不。Run:6-2A 个 C:UsersliliangAnaconda3python.exe C:/Users/liUang/PycharmProjects/sjfx/6-2.py 地址 区0工业园-双湖-高和路,近星波街工业园=5 1昊江-南部新城-长板路1号昊江Ei 2 吴江-吴江老城,南部新城-中山南路,近庞格路吴江” . 3吴江-太湖新城-东太

11、湖大道8899号吴江:4高新-浒收关-长江路819号高新Process finished with exit code 0图6-*步骤5 (I)输出结果步骤5 (2)代码如下:data房龄=2020 - data建造年代print(data健造年代;房龄,川:5)输出结果如图6-*所不。Run:6-2AC:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py建造年代房龄02014.06.02s 512014.06.0*2NaNNaN32015.05.042010.010.0Process fin

12、ished with exit code 0图6-*步骤5 (2)输出结果步骤6 :数据筛选。筛选出区为“工业园”,均价在50000以下,容积率在1.5以下的 房源数据。步骤6代码如下:dala.loc = data.loc(data区=工业园)& (da【a均价卜50000) & (data容积率卜1.5) prini(dala_k)c小区名称:区?均价;容积率R) 输出结果如图6-*所示。Run: - 6-2 - C:UsersliliangAndconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py 小区名称区 均价容税

13、率0苏州模花源 工业园46073.0G.6= 5 158新城花园 工业园39061.01.2“ Process finished with exit code 0图6-*步骤6输出结果步骤7:数据排序。(1)按照“均价降序排序,并输出“小区名称”、区、“均价”的前5条数据。(2)按照“停车位”升序排序,并输出“小区名称”、区、“停车位”的前5条数 据。步骤7 (1)代码如下:sortl = data.sort_values(by=均价:ascending二False)sortl =soril小区名称,区,均价:5prin (sort 1)输出结果如图6-*所示。Run:6-2个C:Usersl

14、iliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py 小区名称区均价112湖浜四季工业园 96139.0S!己129九龙仓国宾1号(别鼓)工业园75209.0227和风灌致工业BB 72279.0 一i216金鸡海花园工业园71790.0175拙政别支平江71561.0Process finished with exit code 0步骤7 (2)代码如下:sort2 = dala.sort_values(by=停车位,ascending=True)sort2 = sort2M小区名称,区,停车位川:5pr

15、int(sort2)输出结果如图7-*所示。Run:6-2 . C:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py小区名称区停车位121姑苏院子金网1.05s =556羽绒新村平江10.0:43南环珞3-1号小区沧浪10.0* ;67花滔苑三区常熟20.0175妣政别女平江28.0Process finished with exit code 0图6-*步骤7输出结果步骤8 :描述性统计分析。(D计算所有数据的平均房价、二手房总和。(2)统计均价大于40000的数据中不同区的频数。步骤8

16、(1)代码如下:mean = data均价mean。mean = round(mean,0)sum = data二手房房源数,.sum()prim(房屋总均价为=.mean)print(二手房总房源数=,sum)输出结果如图6-*所不。Run:6-2A . C:UsersliliangAnaconda3python.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py 房屋总均价为 27099.0, 二手房总房源数 18525.0S!三” Process finished with exit code 0图6-*步骤8 (1)输出结果步骤8 (2)代码如下:data_loc = dataocdata均价40000count = data_loc I* . val uc_counts(asccndi ng=Falsc) prinl(均价40000以上小区的各区频数统计结果为:n,count) 输出结果如图6-*所示。 TOC o 1-5 h z Run:6-2 入 C:UserslilhngAnaconda3pylhon.exe C:/Users/liliang/PycharmProjects/sjfx/6-2.py 均价4000。以上小区的各区筑败统计结果为:工业区22=三高新3三金线2“

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论