乐有家网站深圳二手房数据采集与分析

上传人：搬*** IP属地：浙江上传时间：2024-12-11 格式：PDF 页数：20 大小：1.03MB 积分：11 举报 版权申诉

已阅读5页，还剩15页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

1引言1

1.1项目背景1

1.2开发环境与工具1

1.2.1Python简介1

1.2.2Pandas简介1

1.2.3pyecharts简介2

2需求分析2

2.1可行性需求分析2

2.2采集目标功能分析3

2.3关键技术分析3

2.3.1网络爬虫技术3

2.3.2文件存取技术4

2.3.3可视化技术4

3数据采集4

3.1采集页面分析4

3.2字段分析6

3.3编程实现6

4数据清洗与处理8

4.1数据清洗8

4.2数据存储10

4.3编程实现11

5数据统计与分析12

5.1数据分析12

5.2数据分析与展示13

5.2.1统计每个区的房源数量13

5.2.2统计距离地铁站最近的房源价格14

5.2.3统计每年建造的房屋数量和价格15

湖南商务职业技术学院毕业设计

5.2.4统计各个户型数量和价格15

5.3综述16

6设计小结17

参考资料18

湖南商务职业技术学院毕业设计

乐有家网站深圳二手房数据采集与分析

1引言

随着经济的发展和人民生活水平的提高，房地产市场的需求也逐渐增加。

二手房市场是房地产市场中的一个重要组成部分，它不仅能够满足人们的住房

需求，还能够为投资者提供投资机会。因此，二手房市场数据的采集和分析显

得尤为重要。

本项目以深圳市乐有家二手房数据为研究对象，利用requests、etree、j

son等技术进行数据采集，使用pandas进行数据清洗，利用pandas、pyechar

ts等工具进行数据可视化和分析。通过对二手房市场的数据进行深入分析，可

以为人们提供更加准确的市场信息和投资建议。

1.1项目背景

深圳作为中国的发达城市之一，房地产市场一直备受关注。买卖二手房是

房地产市场中的重要组成部分，而深圳的二手房市场也非常活跃。通过采集深

圳市乐有家网站的二手房数据，并进行分析，可以帮助人们更好地了解深圳市

场的房价走势、房屋户型、地理位置等信息，同时也有助于房地产市场从业者

了解市场需求、优化销售策略。因此，本文在通过对深圳市乐有家二手房数据

的采集与分析，为房地产市场研究提供参考。

1.2开发环境与工具

1.2.1Python简介

Python是一种高级、解释性、通用型编程语言，被广泛用于数据科学、人

工智能、Web开发、自动化测试等领域。Python提供了丰富的数据结构和库，

使其成为处理和分析大型数据集的首选语言之一。Python的语法简单易学，可

读性强，使其成为初学者和专业开发人员的流行选择。另外，Python拥有庞大

的社区，可以找到大量的开源工具和库，如NumPy、Pandas、Matplotlib、Sci

kit-learn等，这些工具和库可以大大简化数据分析和机器学习的流程。

1.2.2Pandas简介

pandas是一个Python的开源数据分析库，提供了数据结构和数据分析工

湖南商务职业技术学院毕业设计

具，使得Python在数据分析领域中更具有实用性和效率。它的主要数据结构是

Series和DataFrame，其中Series是一维数组结构，类似于带标签的数组，而

DataFrame是二维表格结构，类似于关系型数据库中的表格。

pandas提供了数据处理、清洗、重构、分组、聚合、合并、切片、筛选、

排序、填充等丰富的数据操作功能，同时还支持读取和写入多种数据格式，如

CSV、Excel、SQL数据库、JSON等。另外，pandas还能与其他数据科学工具（如

NumPy、SciPy、scikit-learn等）结合使用，为数据科学的研究和应用提供了

非常便利的工具。

1.2.3pyecharts简介

Pyecharts是一个用Python语言编写的数据可视化库，它基于Echarts进

行开发。Echarts是一个由百度开发的JavaScript图表库，它提供了许多现成

的图表类型，如折线图、柱状图、散点图等。Pyecharts通过Python语言的封

装，使得用户能够更加方便地使用Echarts进行数据可视化。

2需求分析

2.1可行性需求分析

1)技术可行性：Python作为一门流行的编程语言，具有强大的数据处理和分

析能力，同时拥有众多的第三方库，如requests、etree、pandas和

pyecharts等，可以支持实现本项目的数据采集和分析需求。

2)数据可行性：深圳市乐有家是一个拥有海量二手房数据的平台，提供了丰

富的房屋信息，包括户型、价格、面积、地理位置等数据，可以作为本项

目的数据源。此外，深圳作为一个房地产市场火爆的城市，其房价和房屋

交易量变化较大，具有较高的数据可行性。

3)商业可行性：本项目可以为购房者提供有关深圳市二手房的详细信息和趋

势分析，可以帮助购房者做出更明智的决策。此外，二手房市场是一个庞

大的市场，具有很高的商业可行性，可以吸引广大的用户。

4)时间和资源可行性：本项目所需要的数据和技术资源都是公开且免费的，

可以从互联网上获取。此外，Python具有高效的数据处理和分析能力，可

以有效地减少开发时间和资源投入。

湖南商务职业技术学院毕业设计

2.2采集目标功能分析

深圳市乐有家二手房数据采集的目标是获取二手房房源信息，包括房源价

格、户型、位置、面积、朝向、楼层、装修程度、交通等信息。基于此，需要

实现以下采集目标功能：

1)网页数据爬取功能：通过requests库发送HTTP请求，使用etree库和

正则表达式解析HTML页面，获取二手房房源信息。

2)数据存储功能：将采集到的数据存储到本地文件或数据库中，方便后续数

据清洗、分析和可视化操作。

3)数据更新功能：定期更新采集到的二手房房源信息，保证数据的时效性。

4)异常处理功能：对于采集过程中出现的网络异常、数据缺失、数据错误等

问题，需要进行合理的异常处理，保证数据的准确性和完整性。

5)代码优化功能：通过合理的代码编写和算法优化，提高数据采集的效率和

稳定性，降低资源消耗。

实现以上功能，可以通过Python的相关库和工具实现，如requests、

etree、pandas、sqlite3、beautifulsoup4、Scrapy等。

2.3关键技术分析

2.3.1网络爬虫技术

网络爬虫技术是一种通过自动化程序访问互联网并提取所需信息的技术。

它可以模拟人类在浏览网页时的操作，自动地从网站上抓取所需的数据，然后

将其存储和处理，以便后续的分析和应用。

网络爬虫的基本流程包括以下几个步骤：发送请求：网络爬虫程序首先会

向指定的网站发送请求，请求相应的网页或者数据。解析网页：获取到网站返

回的响应后，网络爬虫程序需要对其进行解析，把所需要的信息从网页中提取

出来。这个过程通常涉及HTML、CSS、JavaScript等多种网页技术。存储数据：

获取到所需的数据后，网络爬虫程序需要把数据存储到本地或者云端数据库中。

这样，后续的数据分析和应用就可以基于这些数据展开。重复步骤1到3：网

络爬虫程序可以通过循环，不断向网站发送请求，解析网页，获取所需的数据，

然后存储数据，实现大规模的数据采集。

湖南商务职业技术学院毕业设计

2.3.2文件存取技术

JSON是一种轻量级的数据交换格式。欧洲计算机协会制定的js规范的一

个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰

的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写，同时也

易于机器解析和生成，并有效地提升网络传输效率。

2.3.3可视化技术

可视化是利用计算机图形学和图像处理技术，将数据转换成图形或图像在

屏幕上显示出来，再进行交互处理的理论、方法和技术。可视化是利用计算机

图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行

交互处理的理论、方法和技术。

3数据采集

3.1采集页面分析

本次数据采集的网站是深圳乐有家二手房网站。深圳乐有家是一个提供深

圳地区二手房交易服务的网站。用户可以在该网站上查看深圳市各个区域的二

手房房源信息，包括户型、面积、价格、交通等详细信息，并可以通过该网站

联系卖家或中介，进行房屋看房、成交等交易行为。乐有家还提供二手房房价

走势图、房屋估价、房贷计算器等工具，帮助用户更好地了解房屋市场和进行

购房决策。该网站首页如下图3-1所示：

图3-1深圳乐有家网站首页

湖南商务职业技术学院毕业设计

乐有家网站中的房屋信息是以HTML文档的形式保存的，即使用HTML标记

语言描述了房屋的各种属性和信息，并通过网站服务器向客户端（浏览器）传

输和显示。这些HTML文档可以通过网络爬虫程序自动获取和解析，提取其中的

房屋信息并进行后续的数据分析和处理。如下图3-2所示：

图3-2html分析

在网站爬虫中，翻页是指通过不同页面的链接获取网站上的更多数据。翻

页可以帮助爬虫获取更多的数据，从而提高数据的完整性和数量。在某些情况

下，单个页面中的数据量可能不够丰富，而翻页可以帮助获取更多的数据，从

而更好地满足数据分析和挖掘的需求。同时，翻页还可以有效地避免由于在单

个页面中加载过多数据而导致的页面加载速度变慢的问题，提高了数据获取的

效率。

可以通过直接修改深圳乐有家二手房网站的url实现翻页。如下图3-3所

示：

图3-3url链接

其中，URL中的参数n代表页码，通过控制它的值，就可以获取不同页的数

据。例如，将n设置为2，就可以获取第2页的房屋信息。因此，爬虫程序可

以通过循环不断改变n的值，从而实现翻页爬取数据的功能。

在解析每一页的response对象时，利用xpath方法获取到页面房屋信息的

列表，通过判断列表的长度即可控制翻页是否介绍，当页面中的房屋信息少于

某个值时，即可结束翻页的操作。

湖南商务职业技术学院毕业设计

3.2字段分析

数据采集的字段主要有：房屋名称、户型、朝向、建筑面积、套内面积、

装修情况、楼层、建筑年代、小区名称、所在区域、总价、单价等。如下图3-4

所示：

图3-4字段分析

通过前面的采集页面分析已经知道，需要采集的目标字段都保存在html中，

通过对url发起get请求获取response对象，利用xpath选择器即可获取到各

个字段。

在代码中编写对应的解析方法：其中一个是get_fields方法，另一个是

save_house_data方法。get_fields方法用于从网页中提取房屋信息，将其保

存在一个字典args中，并调用save_house_data方法保存数据。提取的信息包

括房屋名称、房屋类型、房屋朝向、建筑面积、使用面积、装修情况、所在楼

层、建造年代、小区名称、所在区域、详细地址、总价、单价以及其他标签信

息。提取信息的方法都是通过XPath语法选中相应的节点，并使用xpath方法

获取节点的文本内容。

save_house_data方法用于将提取到的房屋信息保存在本地json文件中。

方法首先将result字典转换成json字符串，然后使用withopen语句打开文

件，将数据以追加的方式写入文件中。每一行的数据都是一个json对象，用于

存储一个房屋的信息。

3.3编程实现

importrequests

fromlxmlimportetree

importjson

classSpider:

defstart(self,url,max_page):

湖南商务职业技术学院毕业设计

self.turn_page(url,max_page)

defturn_page(self,url,max_page):

response=requests.get(url)

print(url)

html=etree.HTML(response.text)

item_list=html.xpath('//div[@class="list-box"]/ul/li')

self.get_fields(item_list)

fields=str(url).split('=')

pre_url=fields[0]

next_page_num=int(fields[1])+1

iflen(item_list)>=20andnext_page_num<=max_page:

next_page_url=pre_url+"="+str(next_page_num)

self.turn_page(next_page_url,max_page)

def__clean_fields(self,field):

field=field[0]iffieldelse""

field=field.replace('\t','').replace('\n','').replace('','')

returnfield

defget_fields(self,item_list):

args=dict()

foriteminitem_list:

name=item.xpath('./div[2]/p[1]/a/text()')

house_type=item.xpath('./div[2]/p[2]/span[1]/text()')

direction=item.xpath('./div[2]/p[2]/span[2]/text()')

out_size=item.xpath('./div[2]/p[2]/span[3]/text()')

in_size=item.xpath('./div[2]/p[2]/span[4]/text()')

fit_up=item.xpath('./div[2]/p[3]/span[1]/text()')

storey=item.xpath('./div[2]/p[3]/span[2]/text()')

year=item.xpath('./div[2]/p[3]/span[3]/text()')

village=item.xpath('./div[2]/p[4]/span[1]/a/text()')

add1=item.xpath('./div[2]/p[4]/span[2]/a[1]/text()')

add2=item.xpath('./div[2]/p[4]/span[2]/a[2]/text()')

price=item.xpath('./div[3]/p[1]/span[1]/text()')

unit_price=item.xpath('./div[3]/p[2]/text()')

lab1=item.xpath('./div[2]/p[5]/span[1]/text()')

lab2=item.xpath('./div[2]/p[5]/span[2]/text()')

lab3=item.xpath('./div[2]/p[5]/span[3]/text()')

args['name']=self.__clean_fields(name)

args['house_type']=self.__clean_fields(house_type)

湖南商务职业技术学院毕业设计

args['direction']=self.__clean_fields(direction)

args['out_size']=self.__clean_fields(out_size)

args['in_size']=self.__clean_fields(in_size)

args['fit_up']=self.__clean_fields(fit_up)

args['storey']=self.__clean_fields(storey)

args['year']=self.__clean_fields(year)

args['village']=self.__clean_fields(village)

args['add1']=self.__clean_fields(add1)

args['add2']=self.__clean_fields(add2)

args['price']=self.__clean_fields(price)

args['unit_price']=self.__clean_fields(unit_price)

args['lab1']=self.__clean_fields(lab1)

args['lab2']=self.__clean_fields(lab2)

args['lab3']=self.__clean_fields(lab3)

print(args)

self.save_house_data(args)

defsave_house_data(self,result:dict):

json_str=json.dumps(result,ensure_ascii=False)

withopen("./lyj.json","a",encoding="utf-8")asf:

f.write(json_str+"\n")

if__name__=='__main__':

spider=Spider()

spider.start('/esf/?n=1',100)

4数据清洗与处理

4.1数据清洗

数据清洗是指对爬取到的原始数据进行处理和转换，使其变得更加干净和

规范，以便进行后续的数据分析。在深圳乐有家二手房信息的爬取中，可能会

出现一些数据格式不统一、缺失、冗余等问题，需要进行清洗。比如，对于字

符串类型的数据，可能需要去除空格、制表符、换行符等特殊字符，以及去除

不需要的标点符号和HTML标签；对于数值类型的数据，可能需要转换为合适的

数据类型，并对异常数据进行处理和过滤。除此之外，还需要进行数据整合和

去重等操作，以确保数据的完整性和准确性。只有经过数据清洗后的数据才能

更好地支持数据分析和数据挖掘的工作。原始数据格式如下所示：

湖南商务职业技术学院毕业设计

{

百合星城精装，业主诚心出售

"name":"",

室厅卫

"house_type":"221",

朝北

"direction":"",

建筑面积㎡

"out_size":"78.08",

套内面积㎡

"in_size":"61.49",

精装

"fit_up":"",

低楼层共层

"storey":"(30)",

年建成

"year":"2003",

百合星城

"village":"",

龙岗

"add1":"",

布吉

"add2":"",

"price":"312",

单价元㎡

"unit_price":"39959/",

距号线布吉站米

"lab1":"14417",

满五年

"lab2":"",

有电梯

"lab3":""

}

1)在原始数据中add1字段表示房屋所在的区，在数据可视化中需要根据该字

段绘制深圳市地图，所以需要在add1字段后加上”区”，比如“南山”处

理之后为“南山区”。

2)处理房屋建造年份字段year，剔除无效字符，以便于后续进行数据分析。

如“2002年建成”处理后为“2002”。

3)处理单价字段unit_price，为了便于后续的数据分析，需要剔除其中的单

位和其他无效字符。如“单价48000元/㎡”处理之后为“48000”。

4)从lab1字段中提取房屋距离最近的地铁站的距离。如“距1号线新安站743

米”从中提取出“743“。

5)剔除name字段为空的行。

使用Pandas读取JSON数据，可以将数据转换成DataFrame的形式，方便

进行数据清洗和分析。对于深圳市乐有家二手房数据，可以先进行数据清洗，

比如去除空值、去除重复值、更改数据类型、分列等操作。清洗后的数据可以

保存到一个新的JSON文件中，以便以后进行进一步的分析和使用。

湖南商务职业技术学院毕业设计

为了方便后续的处理，建议使用UTF-8编码的JSON格式保存数据，同时在

保存时使用append模式，避免覆盖之前的数据。此外，还需要注意保证数据的

完整性和一致性，确保存储的数据是经过清洗和处理过的，可以直接用于后续

的分析和使用。

4.2数据存储

使用JSON存储深圳乐有家网站中的二手房的字段有诸多优势：

1)数据结构化：JSON是一种轻量级的数据交换格式，能够将数据以一种有序、

结构化的方式存储，便于数据的管理和处理。

2)跨语言通用：JSON是一种通用的格式，它可以被多种编程语言支持，例如

Python、JavaScript、Java等，这意味着JSON存储的数据可以在不同的应

用程序之间进行共享和传输。

3)可读性高：JSON格式的数据相对于其他数据存储格式，例如二进制格式，

具有更好的可读性和易于理解性。

4)体积小：相对于其他数据格式，例如XML，JSON格式的数据体积更小，这

意味着可以更快地进行数据传输和存储。

因此，将深圳乐有家网站中的二手房的字段使用JSON存储，不仅方便了数

据的管理和处理，也能够提高数据的可读性和可维护性，同时也可以实现数据

在不同应用程序之间的共享和传输。如下图3-5所示：

图4-1Lyj.json文件

在数据存储之前还需要对各个字段进行简单的清洗，比如户型字段中包含

大量的“\t\n”等无效字段，如下图所示：

湖南商务职业技术学院毕业设计

图4-2house_type原始数据格式

通过编写私有方法__clean_fields对数据进行简单的预处理。它接收一个

字符串类型的字段值作为输入，然后通过一系列的字符串操作，去掉其中的制

表符、换行符和空格，并返回清洗后的字符串。

在爬取网页数据时，获取的字段值中可能包含一些不必要的字符，如制表

符、换行符和空格等，这些字符对于数据的分析和处理都是无用的，甚至会干

扰后续的操作。因此，在进行数据清洗时，需要将这些字符去掉，使得数据更

加规整、易于处理。这个方法的作用就是实现了这个过程，将清洗后的字段值

传递给其他方法使用。预处理之后的结果如下图3-7所示：

图4-3数据预处理

4.3编程实现

importpandasaspd

#将JSON文件读取到pandasDataFrame中

df=pd.read_json('./lyj.json',lines=True,encoding='utf-8')

#剔除空行

df.dropna(inplace=True)

#处理区

df['region']=df['add1'].map(lambdax:x+"区")

#处理建造年份字段

df['year']=df['year'].str.extract('(\\d{4})年')

#处理单价字段

df['unit_price']=df['unit_price'].str.extract('(\\d+)')

湖南商务职业技术学院毕业设计

#处理地铁站的距离

df['distance']=df['lab1'].str.extract('(\\d+)米')

#将DataFrame转换为JSON字符串

json_data=df.to_json(orient='records',lines=True,force_ascii=False)

#将JSON字符串写入到文件中

withopen('./lyjDataclean.json','w',encoding="utf-8")asf:

f.write(json_data)

当读取JSON文件时，使用Pandas的read_json()函数将JSON数据转

换为DataFrame格式，方便进行数据清洗和分析。在这个示例代码中，我们使

用lines=True参数来表示JSON文件中每行都是一个单独的JSON对象，而

不是整个文件是一个JSON数组。

接下来，我们使用dropna()函数删除DataFrame中的空行。然后，我们

进行了一些数据清洗的操作。

最后，我们使用to_json()函数将DataFrame转换为JSON字符串，并

将其写入到一个新的JSON文件中。每行都是一个JSON对象；使用

lines=True参数来确保输出的JSON文件中每行都是一个单独的JSON对象，

而不是整个文件是一个JSON数组；使用force_ascii=False参数来确保输出

的JSON文件中不包含ASCII编码字符，以便正确输出中文字符。最后将处理

后的json串保存到json文件中。

5数据统计与分析

5.1数据分析

对于深圳市乐有家二手房数据的分析，其意义在于帮助人们更好地了解深

圳市二手房市场的情况，了解市场的走势、价格分布、热门区域等方面的情况，

从而更好地做出购房决策。同时，对于房地产从业者而言，二手房市场数据的

分析也是非常重要的，可以帮助他们更好地了解市场需求和供应，制定出更加

科学和有效的营销策略和产品策略。

湖南商务职业技术学院毕业设计

5.2数据分析与展示

5.2.1统计每个区的房源数量

首先使用Pandas读取lyjDataclean.json文件，并根据区域进行分组。

然后，我们使用agg函数对每个区域的房屋数量进行计算，并将结果保存到新

的DataFrame中。最后，我们使用pyecharts中的Map函数来绘制深圳市地

图，并将每个区域的房屋数量作为数据展示在地图上。同时，我们设置了全局

选项，包括标题和视觉映射选项。最后，我们将可视化结果保存到文件

shenzhen_map.html中。如下图5-1所示：

图5-1深圳市各个区的房源数量和平均价格

根据数据分析，龙岗区二手房数量最多，达到了523套，其次为龙华区和

福田区，分别有319套和296套。而坪山区和盐田区的二手房数量最少，仅有

12套和13套。平均每平方米价格最高的区域为南山区，为91823.97元/平方

米，其次为福田区和光明区，平均每平方米价格分别为82407.20元和46748.00

元。坪山区的平均每平方米价格最低，仅为33313.17元/平方米。

综合而言，深圳市各区的二手房市场整体价格水平较高，南山区的房价最

高，而坪山区的房价相对较低。对于购房者而言，在选择购房区域时需要考虑

个人经济承受能力和实际需求，从而做出合理的购房决策。

湖南商务职业技术学院毕业设计

5.2.2统计距离地铁站最近的房源价格

使用pyecharts的Scatter类创建散点图对象，并使用add_xaxis()和

add_yaxis()方法向图表中添加数据，分别表示横坐标和纵坐标。我们还使用

set_global_opts()方法设置全局选项，包括横坐标和纵坐标轴的类型和名称，

以及图表标题。最后，使用render()方法将图表保存为HTML文件。

图5-2分析距离地铁站的距离与价格之间的关系

数据集包括二手房的平均价格和离最近地铁站的距离，数据来源为公开的

二手房交易信息。

根据数据集统计，距离地铁站越近的二手房平均价格普遍较高。以深圳市

为例，距离地铁站1公里以内的二手房平均价格约为9.2万/平方米，而距离

1-2公里的二手房平均价格约为7.6万/平方米，距离2-3公里的二手房平均价

格约为6.5万/平方米，距离3-4公里的二手房平均价格约为5.8万/平方米，

距离4公里以上的二手房平均价格约为5.2万/平方米。这说明，地铁站的距离

对二手房的价格有着较大的影响。距离地铁站越近，居民出行和交通的便利性

越高，房价也就越高。而离地铁站越远，居民出行和交通的便利性降低，房价

也会相应下降。

综合而言，对于购房者而言，在选择购房时需要考虑地铁站的距离，特别

是对于那些注重交通便利的购房者而言。同时，在购房时也需要综合考虑自身

经济承受能力和实际需求，做出合理的购房决策。

湖南商务职业技术学院毕业设计

5.2.3统计每年建造的房屋数量和价格

使用pandas读取lyjDataclean.json文件并将其转换为DataFrame。然后，

需要根据年份对数据进行分组，并计算每个年份的房屋数量和平均价格。接下

来，可以使用pyecharts的Line类来绘制折线图。首先根据年份对数据进行分

组，计算每年的房屋数量和平均价格。接着使用pyecharts绘制了一个折线图，

其中X轴为年份，Y轴分别为平均价格和房屋数量。最后，将绘制好的图表保

存为一个名为"yearly_statistics.html"的文件。

图5-3统计每年建造的房屋数量和价格

从平均价格角度看，可以发现，房屋建造年份在1980年至2000年之间的

房屋平均价格相对较低，最低价为1985年的65000元，最高价为2000年的71575

元。而建造年份在2000年以后的房屋平均价格较为稳定，大致在65000元至

70000元之间。建造年份在2019年和2020年的二手房平均价格最高，分别为

77905元和45852元。这表明，不同年份建造的房屋价格存在一定的差异，建

造年份在1980年至2000年之间的房屋平均价格相对较低，而建造年份在2019

年和2020年的二手房平均价格则相对较高。

综合来看，随着时间的推移，建造年份在2000年以后的房屋数量逐渐增多，

而这些房屋的平均价格相对稳定，相对较低。同时，建造年份在1980年至2000

年之间的房屋数量逐渐减少，而这些房屋的平均价格也相对较低。

5.2.4统计各个户型数量和价格

读取"lyjDataclean.json"文件，每一行为一个json，每一行为一个房屋信

湖南商务职业技术学院毕业设计

息。然后使用pandas进行数据处理，根据户型分组，计算每个户型的数量和平

均价格，并按照数量升序排序。最后使用pyecharts绘制柱状图，横坐标为户

型，纵坐标分别为平均价格和房屋数量。图表的标题为"每个户型的数量和价格

"，保存为"house_type_statistics.html"文件。如下图5-4所示：

图5-4每个户型的数量和价格

户型从2室2厅1卫到9室6厅5卫，涵盖了从小户型到大户型的各种房

型。每平米价格从62789.09元到104600元不等，价格跨度较大。数量方面，2

室2厅1卫的数量最多，达到353套，而9室6厅5卫和6室4厅3卫的数量

最少，均为1套。

可以看出，不同户型的房屋价格存在较大差异，大户型房屋的价格相对较

高，小户型房屋的价格相对较低。此外，从数量上来看，较小的户型房屋供应

量相对较大，而较大的户型房屋供应量较少。

在购买房屋时，需要结合自身需求和经济能力选择合适的户

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

乐有家网站深圳二手房数据采集与分析

文档简介

温馨提示

最新文档

评论

乐有家网站深圳二手房数据采集与分析

文档简介

温馨提示

最新文档

评论

相关文档