365淘房房产网站南京城市二手房数据采集与分析_第1页
365淘房房产网站南京城市二手房数据采集与分析_第2页
365淘房房产网站南京城市二手房数据采集与分析_第3页
365淘房房产网站南京城市二手房数据采集与分析_第4页
365淘房房产网站南京城市二手房数据采集与分析_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景.........................................................................................................1

1.1.1需求分析..............................................................................................1

1.1.2可行性分析..........................................................................................2

1.2开发环境与工具..........................................................................................2

1.2.1Python简介..........................................................................................2

1.2.2Jypyternotebook简介......................................................................2

1.2.3Python第三方库简介..........................................................................2

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.1.1技术可行性..........................................................................................3

2.1.2项目可行性..........................................................................................3

2.2采集目标功能分析......................................................................................3

2.3关键技术分析..............................................................................................4

2.3.1网络爬虫技术......................................................................................4

2.3.2文件存取技术......................................................................................4

2.3.3可视化技术..........................................................................................5

3数据采集....................................................................................................................5

3.1采集页面分析..............................................................................................5

3.2字段分析......................................................................................................7

3.3编程实现......................................................................................................8

4数据清洗与处理......................................................................................................11

4.1数据清洗....................................................................................................11

4.2数据储存....................................................................................................16

5数据统计与分析......................................................................................................18

5.1数据准备....................................................................................................18

5.2数据展示....................................................................................................19

I

湖南商务职业技术学院毕业设计

5.2.1依据楼盘地址名称进行统计............................................................19

5.2.2据二手房总价进行统计和分析........................................................20

5.2.3依据户型类型进行统计....................................................................21

5.2.4依据二手房装修情况跟平均价格分析.............................................23

5.2.5依据二手房各城区数量和平均价格统计........................................24

6小结..........................................................................................................................25

参考资料.........................................................................................................................27

II

湖南商务职业技术学院毕业设计

365淘房房产网站南京城市二手房数据采集与分析

1引言

二手房指的是已经有人居住过的房屋,一般是售出后再次转手出售。二手

房在房地产市场中占据着重要的地位,成为了广大购房者的首选之一。首先,

二手房的价格相对较低,购买时对家庭的财务压力较小。同时,二手房的房龄

相比新房来说更加成熟,装修和配套设施也更加完善,生活舒适度更高。

其次,二手房的交易速度比较快,方便快捷。买卖双方不需要等待开发商的

预售证和施工许可证等手续,可以直接进行交易。此外,二手房的位置和环境

也更加稳定,购房者可以根据自己的实际需求进行选择。二手房现在已经成为

房地产不可或缺的组成部分。二手房的优势就是周围的配套比较成熟,发展比

较完善,比较适合居家生活。二手房的劣势呢就是房子比较老旧,管理比较落

后,特别是房龄比较久远的老旧小区。现在做二手房业务的越来越多,因为这

个市场越来越大,很多家庭由于购买不起新房,转而继续考虑二手房。如果给

二手房业务提个建议的话,那么就是建议百花齐放,百家齐鸣禁止出现垄断行

为,这样不仅不利于行业发展,也不利于维护群众的利益。房价飞涨,年轻的

我们刚毕业走出校门,又遇到令人喘不过气的房价。处于尴尬时期的我们,只

能望楼兴叹,但是除此之外我们还可以房价分析。利用科学的技术手段,洞察

房价的趋势。我们不买房,不炒房,但可以做到心中有个底。

1.1项目背景

1.1.1需求分析

随着越来越多的许多城市的二手房交易量已经超过了新建,许多一线和二

线城市都进入了“存量”房屋的交易时代,这些房屋的大部分都是被释放出来

的。同时,从去年上半年开始,新建住宅供给不足,为二手住宅的“复苏”提

供了空间,越来越多的购房需求被积极地“转移”到了存量住宅市场。数据显

示,今年到目前为止,各大主要城市的新屋销售出现了持续的轻微下降,而二

手房交易量出现了回落,广州、重庆、武汉等,一、二手房住宅价格持续“倒

挂”,都预示二手房市场正以卖方为主导。

1

湖南商务职业技术学院毕业设计

1.1.2可行性分析

在此背景下,首先,它能够反应出目前的实际需求,由于人为的“限价”,

新房的供应和成交都会出现“失真”的现象,相比之下,新房的成交结构,能

够更好地反应出目前的实际需求,也能更好地了解哪些人会买房子。他们到底

想要哪种商品?第二,二手房产是一座大城市的中心,也是一座大城市的一座

大房子,通过对它的发展趋势的分析,可以更好地预测各大城市的购房者的买

房意愿。

1.2开发环境与工具

1.2.1Python简介

Python是由GuidoRossum于1989年诞生。

2005-2012年,Google大量应用python,引起广泛关注,促进了python

的发展。

2012年云计算兴起,其中最主要的OpenStack框架由python开发,使得

python火了一把。2014年AI兴起,AI中大量关键算法都是由python开发,

因为python中含有很好的第三方库特别适合做算法,加上入门低、开发效率高,

这样又进一步促使python的火爆。

2017年python走进大众视野(指非IT人士),走进学科教育。

如今已经发展成一门广泛使用的高级编程语言。它可应用于网络爬虫、机

器学习、数据分析和可视化等多种领域。它的特点是开源(免费)、丰富的库、

简单易学、支持跨平台而且可移植性强。

1.2.2Jypyternotebook简介

Jupyternotebook是一款强大的Web应用,它可以将复杂的数学概念、

实验结果、可视化内容等组合成一个完整的文档,使得研究和教学变得更加便

捷、高效。Pythonshell和IPython都支持可视化,但它们的可视化功能是分

开的,文字资料、函数和类脚本都存储在不同的文档中,以便更好地实现可视

化。

1.2.3Python第三方库简介

requests:是Python实现的简单易用的库,跟urllib比更简洁很多,在使

用前要先进行安装。

2

湖南商务职业技术学院毕业设计

Re:正则表达式解析和处理功能库,里面包含了多种字符串匹配的方法。

NumPy库是Python数据分析的基础,是处理数组的Python库,NumPy库的

数据结构比Python自带的更加高效。

pandas:数据分析并保存为Excel文件,python数据分析高层次应用库,

还可以进行数据清洗。

matplotlib:绘图库,主要是偏向于二维绘图包括折线图、条形图、扇形

图、散点图、直方图等等。

pyecharts:绘图。

statsmodels:统计建模。

wordcloud、scipy、jieba:生成中文词云的。

pylab:设置画图能显示中文。

2需求分析

2.1可行性需求分析

2.1.1技术可行性

Python编程语言通俗易懂、是一种动态的面对对象的脚本语言。这让它对

于爬虫领域有着巨大的优势,是当前爬虫的首选语言。本项目便是利用python

采集数据,通过python第三方库进行数据分析、与数据可视化的展示,是一款

对人操作十分友好的软件,利用它对数据可视化进行展示和分析也十分便捷。

2.1.2项目可行性

首先通过Python爬虫技术获取365淘房网站的南京市二手房的基本信息,

再使用Jupyternotebook将数据进行数据清洗,再用Python中pyechars库绘

图进行数据分析,发现南京市二手房在大量数据中隐藏的信息;通过以上步骤,

可以得出南京市二手房市场总体情况和各个区域的具体情况。在可行性方面,

该项目需要考虑到数据来源的质量和可靠性问题。为了保证数据质量,我们采

用了Python的爬虫采集的获取房源数据。

2.2采集目标功能分析

此次项目的数据集来源于365淘房网站,是通过python爬取365淘房房产

网站南京城市二手房数据信息。爬取50页的南京二手房信息,数据清洗后共

3

湖南商务职业技术学院毕业设计

1611条记录,以此尽可能保证数据可靠性。

本次爬取365淘房网站,主要获得了以下信息:标题、地址、详细地址、

面积、总价、一平米价格、户型、楼层、装修、朝向、建成时间、优点。主要

目的是通过实际数据来分析描述南京市二手房的基本现状。比如:南京市二手

房房价情况以及在南京市二手房的地区分布情况,还有装修对房价的影响,这

样我们能根据自身条件来选择最优的二手房,帮助我们进行购房决策。

2.3关键技术分析

2.3.1网络爬虫技术

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称

为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者

脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。但

是,网络爬虫技术的使用需要遵守相关法律法规和道德规范,同时应尊重网站

的隐私和版权,不进行恶意访问和数据滥用。

2.3.2文件存取技术

文件存储技术是指用来存储和管理数据文件的技术,包括硬盘、U盘、光

盘、磁带等储存介质。在计算机应用中,文件存储技术是最基本、最常用的技

术之一。在文件存储技术中,硬盘是最常用的储存介质之一,其使用成本低、

容量大、读写速度快、可靠性高。U盘则是一种小型、便携式的存储设备,可

随身携带,容量较小但读写速度较快。光盘也是常见的储存介质,它具有高容

量、长期保存、易于传播等特点。磁带则主要用于备份数据和存档,其存储容

量较大,但读写速度较慢。

Python存储方法如图2-1显示:

图2-1python内置方法

在JupyterNotebook中存储方法如图2-2显示:

4

湖南商务职业技术学院毕业设计

图2-2Numpy模块方法

2.3.3可视化技术

可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转

换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。在

数据分析领域,可视化技术可以帮助人们更好地理解数据,从而做出更准确的

决策。在现代数据处理技术的发展中,可视化技术成为数据处理技术不可或缺

的一环,它可以使复杂数据变得易于理解和应用。

3数据采集

3.1采集页面分析

打开谷歌浏览器,首先登录365淘房网站的南京市地区二手房,观察图

3-1,其中URL为:/district/p1.html

图3-1数据网址页面1

点击页面下方的分页按钮,同时观察URL,发现URL有变化数字,如图3-2所

示,URL为:/district/p2.html

5

湖南商务职业技术学院毕业设计

图3-2数据网址页面

右击鼠标点检查调出开发者工具,刷新页面,利用全局搜索工具定位所需

数据位置,如图3-3

图3-3开发者工具页面

点击开发者工具上面的标头Headers字段,分析这是个什么请求,发现这

个是一个GET请求,即在获取页面信息需用GET请求方式爬取,如图3-4:

6

湖南商务职业技术学院毕业设计

图3-4标头Headers确认页面

3.2字段分析

本次数据采集的字段有:房源标题、装修、房子价格、地址、户型、面积、

年份、楼层等字段,在网页中如下图3-5所示

图3-5房源字段

右击鼠标点检查调出开发者工具,通过观察发现,大多数字段都保存在HTML

中,如图3-5,在解析字段时,可以直接使用xpath方法进行获取,用全局搜

索工具定位所需数据位置便可以复制xpath并进行修改,便可以获取完整数据。

7

湖南商务职业技术学院毕业设计

图3-6房源字段

3.3编程实现

步骤一:先导入所需要的库,如requests,etree,json,csv,如图3-7:

图3-7步骤一导入所需库页面

步骤二:根据URL网址的特征信息,爬取每页信息,URL设置进行循环翻

页,爬取网页信息如图3-8:

8

湖南商务职业技术学院毕业设计

图3-8步骤二根据URL特征爬取网页信息页面

步骤三:根据所需内容信息,这里定位到该位置即可爬取复制完整xpath,

用xpath()爬取如图3-9:

图3-9步骤三获取相关信息页面

步骤四:将获取的部分字段去符号处理,循环输入字典再存入json文件,

最后转换为Excel文件方便后期数据清洗如图3-10和如图3-11:

图3-10步骤四相关信息保存页面1

9

湖南商务职业技术学院毕业设计

图3-11步骤四相关信息保存页面2

存为json文件展示如图3-12:

图3-12保存好的json文件展示

将json转换位Excel表后的数据展示如图3-13:

10

湖南商务职业技术学院毕业设计

:

图3-13转换好的Excel展示

4数据清洗与处理

数据清洗是整个数据分析过程中不可缺少的一个环节,其结果质量直接关

系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的

50%—80%的时间,所以数据清洗极为重要。而且不同类型的数据异常所要用

到的方法有所不同,因此我们拿到原始数据之后,需要先分析都有什么样的数

据异常,然后再使用相应异常下常常采用的方法,正所谓“对症下药”,方能“药

到病除”。

爬虫采集365淘房网南京市二手房源数据后,可以进行数据清洗来保证数据的

质量和准确性,包括数据去重、数据筛选、数据格式化等,以便更好地进行数

据分析和挖掘。例如,在365淘房网的南京市二手房源数据中可能会存在重复

数据,如同一个房源在不同的时间点被采集,采集到的数据可能存在略微差异,

因此需要进行数据去重处理,以避免数据分析时对同一数据进行重复计算,从

而导致分析结果的误差。

4.1数据清洗

通过jupyternotebook数据清洗发现并改正数据文件中可识别的错误的最

后一道关卡程序,包括检查数据一致性,处理无效值和缺失值等,根据二手房

数据字段的特征修改命名以及去掉单位,并且去掉空值以及重复值,方便后续

的数据统计与分析。

11

湖南商务职业技术学院毕业设计

数据清洗准备:导入所需要的库如pandas和numpy,读取二手房.xlsx文件,

并输出表格前6行,如图4-1;

图4-1数据清洗准备页面

提取区域信息:将详细地址的数据细分,提取出一个新字段即小区储存区域

信息,在最后会多出一列,如图4-2;

图4-2提取区域信息页面

修改总价字段名:利用rename()方法将总价(万)字段改为总价(单位:

万),如图4-3;

12

湖南商务职业技术学院毕业设计

图4-3修改总价字段名页面

去掉面积的单位:利用map()方法遍历面积字段去掉后面两位数得到纯

数字面积,如图4-5;

图4-4去掉面积单位页面

修改面积字段:利用rename()方法将面积字段改为面积(单位:平方米),

如图4-5;

13

湖南商务职业技术学院毕业设计

图4-5修改面积字段名页面

去掉一平米价格的单位:利用map()方法遍历一平米价格字段去掉后面

三位数得到纯数字价格,如图4-6;

图4-6去掉一平米价格的单位页面

去掉建成时间的单位:利用map()方法遍历建成时间字段去掉最后一位

数得到纯年份,如图4-7;

14

湖南商务职业技术学院毕业设计

图4-7去掉建成时间的单位页面

去掉楼层的单位:利用map()方法遍历楼层字段去掉前三位和最后一位,

得到纯楼层数据,如图4-8;

图4-8去掉楼层的单位页面

去空值去重复值:用dropna()方法删除含有空值或缺失值的行即

inplace=true,数据由1700多减到1611,用drop()方法去掉重复值,数据不

变,如图4-9;

15

湖南商务职业技术学院毕业设计

图4-9去空值去重复值页面

4.2数据储存

在Python开发中,数据存储、读取是必不可少的环节,数据存储:将用户

输入的数据转化为可以处理的形式,并在需要时重新转换成可读可写的形式,

可以是文本、数值、字符串等。读取:从计算机或者其他设备获取需要处理的

数据。数据存储和读取是Python编程语言中非常重要的环节,不仅用于解决

程序中要处理的问题,也可以作为一个非常重要的模块使用。常用的方法有

MySQL数据库、MySQL数据库、Redis数据库、json文件以及Mongdb数据库等。

json文件存储数据:json是一种一种函数式编程语言,是一种高级编程语

言,使用一种完全不同于编程语言的文本格式来存储和表达数据,可以有效地

解决py2和py3的代码编译存在的不足,而且其内容结构与Python中的字典和

16

湖南商务职业技术学院毕业设计

列表极为相似,展现的信息简洁明了,可以方便查看和修改撰写,也更加有利

于机器的解析生成数据,从而有利于加快网络传输速度,提高效率。

csv文件:在Python中可以把数据存在CSV文件里面,这样有利于我们进

行数据的浏览,用excel打开CSV文档就行了。

MySQL数据库:MySQL数据库存储方式是使用Python数据存储最常用的存

储方式,Python标准数据库接口为PythonDB-API,PythonDB-API为开发人

员提供了数据库应用程序接口,MySQLdb是用于Python链接Mysql数据库的接

口。MySQL数据库存储过程是引入API模块、获取与数据库的连接、执行SQL

语句和存储过程,最后关闭数据库连接。

Redis数据库:使用Python数据存储为Redis数据库,优点是方便、速度

快,但是取出的数据是二进制数据,一般需要转为字符串再操作

Mongdb数据库:使用Python数据存储为Mongdb数据库,优点是不在乎数

据结构,需要注意的是取出来的时候需要写个脚本整理一下

这里我用to_excel()方法即CSV文件保存清洗后的数据,文件名为清洗后

二手房数据.xlsx,index=0,编码方式为utf-8,如图4-10。

图4-10数据存储页面

读取清洗后的数据文件,显示前6行数据,如图4-11;

图4-11清洗后数据展示页面

数据清洗,顾名思义就是将要用到的数据中已经多次出现、不需要的部分数

据进行挑选并删除;把没有的部分填充完整,并且把不对的数据改正好或者直接

删掉。最后将数据整合成理想的数据,后面使用更加方便。

17

湖南商务职业技术学院毕业设计

5数据统计与分析

在数据清洗完成后,我们就可以开始对数据进行可视化分析。数据分析是

表示用合适的统计方法将集来的大量初始数据和数据处理后的数据来分析,把

它们转化为有意义的结论的过程。通过数据分析,我们可以了解原始数据中的

规律性、趋势性和异常值等问题。因此,对于数据分析来说,准确的数据收集

和整理是非常重要的。在实际应用中,我们通常需要使用一些常用的统计工具

来进行数据分析。数据又名观测值,是测量、实验、调查、调查等的详细结果,

通常应用数量的形式表达。

数据分析与数据挖掘息息相关,数据挖掘是从大量的数据中通过各种方法

和技术,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知

识。数据挖掘是对数据库中未被理解或利用的信息进行分析和提取,从中发现

隐含于数据中的有用信息和知识,最终将其用于对现实问题的处理,从大量数

据中提取有用信息,并建立模型,对现实问题进行分析和处理,从而产生新的

决策。数据分析的意义数据分析是指通过对数据的收集、处理、分析,发现事

物发展规律,做出合理判断,从而做出正确决策。数据分析的目的是指导我们

的工作,提高效率和效益。例如:通过对销售数据的分析,你可以判断出销售

额增长较快的原因;通过对用户行为数据的分析,你可以判断出哪些商品是受

欢迎的;通过对行业数据的分析,你可以预测出下一年销量增长最快的商品。

同时,通过对某一现象进行深入分析,可以总结出具有规律性和普遍性的东西,

使我们认识到事物发展的本质规律,这对我们管理工作具有重要指导意义,所

以数据分析具有非常大的作用范围。

通过对数据的探索性分析,我们可以将其转换为可视化的形式,从而更加

清晰地了解数据,并从中提取出潜藏在大量数据之下的重要信息。主要是对南

京市二手房房子的总价、每平方米单价、装修、分布区域、户型类型等属性进

行了分析。

5.1数据准备

导入相关库,如pandas和numpy,还有在pyecharts里面导入各种画图需

要的包,如图5-1。

18

湖南商务职业技术学院毕业设计

图5-1数据准备页面

5.2数据展示

5.2.1依据楼盘地址名称进行统计

图5-2数据展示页面

19

湖南商务职业技术学院毕业设计

图5-3代码展示页面

为了更好的了解各个楼盘的受欢迎程度,我将楼盘地址名称进行数据可视

化分析,代码如图5-3,得到南京市楼盘数量位居前30的楼盘,如图5-2,世

贸外滩新城楼盘的数量最多最受欢迎,新河一村和清河新寓二村其次,前30的

楼盘信息排名显示了南京市二手房市场上最受欢迎的楼盘类型,这对开发商和

购房者都有很大的参考价值。通过对这些楼盘的分析,我们可以更好地了解市

场上最受欢迎的楼盘类型。

5.2.2据二手房总价进行统计和分析

图5-4数据展示页面

20

湖南商务职业技术学院毕业设计

图5-5代码展示页面

对南京市二手房总价分析可以帮助我们更好地了解二手房市场的行情,从

而做出更加明智的决策。从图5-4中可以得知南京市二手房总价200w-400w最

多,在200w以下的其次,再就是400w-600w,说明南京市购买二手房大部分人

的意向总价为600w以下,对600w以下的二手房的需求更多,通过对南京市二

手房总价的分析,我们可以更好地了解市场走势,把握机会,避免损失。

5.2.3依据户型类型进行统计

21

湖南商务职业技术学院毕业设计

图5-6数据展示页面

图5-7代码展示页面

二手房户型有多种类型,如单室户、双室户、三室户等。不同类型的户型

具有不同的特点和功能,将户型字段数据汇总,按照数量和户型生成条形图,

用来分析不同户型的数量,如图5-7中可以看出3室2厅在二手房中户型类型

的数量最多为533,2室1厅为298和4室1厅为205次之,有需求才会有市场,

即南京市二手房购房者在购房时需求户型要求偏向于3室2厅;

22

湖南商务职业技术学院毕业设计

5.2.4依据二手房装修情况跟平均价格分析

23

湖南商务职业技术学院毕业设计

图5-9代码及数据展示页面

从图5-9中可以看出,精装的数量最多为1098,中装的数量最少为1,而

平均价格最高的是豪华装高达821.61w最低为中装为242w,在装修之后,趋势

是装修程度越高,平均房价越高,装修程度对房价有着一定影响和市场上同类

房屋平均价格之间有着一定关系。装修程度越高,可以为购房者提供更多的选

择和更高的舒适度,同时也可以改善居住环境和提高居住质量,而装修程度越

低,则可以为购房者提供更多的选择和更低的成本,同时也可以减少不必要的

支出和浪费。

5.2.5依据二手房各城区数量和平均价格统计

24

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论