版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖南商务职业技术学院毕业设计
目录
1引言1
1.1项目背景1
1.2开发环境与工具1
1.2.1Python简介1
1.2.2hadoop简介1
1.2.3pyecharts简介2
2需求分析2
2.1可行性需求分析2
2.2采集目标功能分析3
2.3关键技术分析3
2.3.1网络爬虫技术3
2.3.2文件存取技术3
2.3.3可视化技术3
3数据采集4
3.1采集页面分析4
3.2字段分析5
3.3编程实现5
4数据清洗与处理10
4.1数据清洗说明10
4.2数据清洗需求10
4.3编程实现11
5数据统计与分析14
5.1数据准备14
5.2数据分析与展示15
5.2.1统计上海各区的房源数量和价格15
5.2.2统计每年建造的房屋数量和价格16
5.2.3统计最受欢迎的的楼层和平均价格17
I
湖南商务职业技术学院毕业设计
5.2.4统计各个户型的数量个平均价格18
5.2.5分析关注人数与价格之间的关系19
5.3本章小结20
6设计小结20
参考资料21
II
湖南商务职业技术学院毕业设计
链家网上海市二手房数据采集与分析
1引言
以上海市的链家网二手房数据为研究对象,利用Python编程语言和相关技
术,完成了数据采集、清洗、分析和可视化等一系列工作。通过对房屋价格、
面积、位置、户型、朝向等多维度数据的统计分析,可以更好地了解上海市二
手房市场的现状和趋势,为购房者、房地产公司和政府监管部门提供有益的参
考。同时,本毕业设计也探讨了Python在数据采集、清洗、分析和可视化等方
面的应用,对于进一步提升相关领域的数据处理能力和技术水平有一定的参考
价值。
1.1项目背景
随着中国城市化的快速发展,房地产市场成为一个非常重要的经济领域。
其中,二手房市场对于购房者、房地产公司以及政府监管机构都具有重要意义。
因此,对二手房市场的数据进行采集和分析,可以帮助人们更好地了解市场现
状,做出更明智的投资决策,同时也可以帮助政府部门监管市场秩序。而在这
一过程中,数据采集、清洗、分析和可视化等技术都发挥着至关重要的作用。
1.2开发环境与工具
1.2.1Python简介
Python是一种高级编程语言,它的语法简洁易懂,学习曲线较为平缓,因
此被广泛应用于各种领域,包括Web开发、数据科学、人工智能等等。Python
可以运行在多个操作系统上,包括Windows、MacOS和Linux,而且有丰富的第
三方库和工具可以方便地实现各种功能。Python也有很多优秀的开源项目和社
区支持,使得开发和分享代码变得更加容易。总之,Python是一门易学易用、
功能强大、生态丰富的编程语言。。
1.2.2hadoop简介
Hadoop是一个用于处理大数据的开源软件框架,可以在廉价的硬件设备上
运行。Hadoop的两个核心模块是HDFS和MapReduce。HDFS(HadoopDistributed
FileSystem)是一个分布式文件系统,可以将数据存储在多台服务器上,提供
1
湖南商务职业技术学院毕业设计
高可靠性和容错能力,同时也支持大数据的高速读写。MapReduce是一种数据处
理模型,它能够并行处理大规模数据集。它将数据划分成许多小的块,并在集
群上进行并行计算,最后将结果汇总起来。MapReduce的核心思想是将数据分布
式地处理,这样可以充分利用大规模集群的处理能力,从而实现快速处理大数
据。
1.2.3pyecharts简介
Pyecharts是一个Python可视化库,它可以帮助用户用代码生成各种各样
的图表,比如折线图、柱状图、饼图等。它使用的是百度的Echarts图表库作
为底层支持,因此生成的图表非常漂亮、交互性强。同时,Pyecharts还具有良
好的可扩展性和灵活性,可以与各种Python框架和数据源进行集成,使用非常
方便。
2需求分析
2.1可行性需求分析
1)技术可行性
采集部分:使用Scrapy框架进行数据爬取,该框架已经成为Python爬虫
领域的标准框架,可用于高效地提取所需的数据。清洗部分:使用MapReduce
处理数据,该技术可以分布式处理大规模数据,能够处理上海链家网的海量数
据。分析部分:使用Hive进行数据分析,该工具可以轻松地处理大规模的数据
集,并且具有高性能和可扩展性。可视化部分:使用Pyecharts库进行数据可
视化,该库是一个基于Echarts的Python可视化库,可以将数据转换为直观、
易于理解的可视化图表。
2)资源可行性
采集和分析数据需要大量的计算资源,而且上海链家网二手房数据的更新
速度很快,因此需要强大的硬件和网络资源来支持项目的正常运行。本项目需
要使用高性能的计算机和高速的网络连接,确保数据采集、清洗、分析和可视
化过程的高效性和稳定性。
3)经济可行性
本项目的经济可行性主要取决于成本和收益之间的平衡。对于成本方面,
需要考虑硬件和软件的费用、人力成本等;对于收益方面,可以通过数据分析
和可视化,为房地产投资者提供有价值的信息和指导。同时,还可以通过出售
2
湖南商务职业技术学院毕业设计
数据或提供数据服务等方式获得收益。
2.2采集目标功能分析
本次项目的数据集的来源是上海链家网二手房网站,是通过scrapy爬取上
海市二手房的全部数据。分析链家网网页信息,明确我们需要爬取的二手房出租
参数有租房名称、住房简介、地址、住房类型、户型、价格、建筑面积在对原
始数据进行预处理后我们会对其数据进行多个维度的分析。
2.3关键技术分析
2.3.1网络爬虫技术
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称
为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者
脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。但
是,网络爬虫技术的使用需要遵守相关法律法规和道德规范,同时应尊重网站
的隐私和版权,不进行恶意访问和数据滥用。
2.3.2文件存取技术
文件存储技术是指用来存储和管理数据文件的技术,包括硬盘、U盘、光盘、
磁带等储存介质。在计算机应用中,文件存储技术是最基本、最常用的技术之
一。在文件存储技术中,硬盘是最常用的储存介质之一,其使用成本低、容量
大、读写速度快、可靠性高。U盘则是一种小型、便携式的存储设备,可随身携
带,容量较小但读写速度较快。光盘也是常见的储存介质,它具有高容量、长
期保存、易于传播等特点。磁带则主要用于备份数据和存档,其存储容量较大,
但读写速度较慢。
2.3.3可视化技术
可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转
换成图形或图像在屏幕上显示出来,再进行交互处理的理论、方法和技术。在
数据分析领域,可视化技术可以帮助人们更好地理解数据,从而做出更准确的
决策。在现代数据处理技术的发展中,可视化技术成为数据处理技术不可或缺
的一环,它可以使复杂数据变得易于理解和应用。
3
湖南商务职业技术学院毕业设计
3数据采集
3.1采集页面分析
链家网()是中国最大的房地产在线交易平台之一,成立于
2001年,总部位于北京市。该平台提供了房屋买卖、租赁、房屋估价等房地
产相关服务,涵盖了全国范围内的房地产信息。在链家网中,每个城市都是一
个独立的url,比如长沙市的url和上海市的url不相同,也不能通过跳转进
入其他城市的页面。
本次项目主要采集上海市的房源信息,在百度搜索上海链家网即可找到官
网,如下图3-1所示:
图3-1上海链家网
由于上海市房源数量非常巨大,如果使用requests进行数据采集,效率会
相当低下。requests主要用于小规模的数据抓取和简单的爬虫需求,而scrapy
更适用于大规模的数据抓取和复杂的爬虫需求。
所以本次项目使用scrapy进行数据采集,scrapy有以下几个特点:
1)高效性:Scrapy基于Twisted异步网络框架实现,可以高效地处理大规模
爬取任务,支持并发和异步请求,能够快速地爬取目标网站的数据。
2)可扩展性:Scrapy提供了多种可扩展的组件,如中间件、扩展和管道,用
户可以通过编写自己的组件来实现各种自定义功能和扩展需求。
3)灵活性:Scrapy提供了丰富的配置选项和可定制化的设置,用户可以根据
实际需求来自定义爬虫的行为、流程和数据处理逻辑。
综上所述,Scrapy是一款功能强大、高效、可扩展、灵活、方便、处理规则丰
4
湖南商务职业技术学院毕业设计
富、支持多种数据格式的Python网络爬虫框架,适用于各种规模和复杂度的爬
虫任务。
3.2字段分析
点击页面的“开始找房“按钮,进去选房页。在选房页中可以在筛选框中条
件查找自己感兴趣的房源,在本项目中为了保证数据分析的真实性和正确性,
这里需要全量采集数据,筛选框中都选择全部。如下图3-2所示:
图3-2房源筛选页
本次数据采集的字段有:房源名称、区域、地址、户型、面积、年份等字段,
这些字段都在缩略页中有显示,如下图3-3所示:
图3-3房源字段
通过观察发现,大多数字段都保存在HTML中,在解析字段时,可以直接使
用xpath方法进行获取。其中“区域“字段比较特殊,在缩略页中并没有显示,
所以在采集“区域”字段时需要逐一请求每个区域的url,并将该区域名称进行
保存。
3.3编程实现
到指定的目录下,打开命令窗口,输入如下命令创建scrapy项目,如下图3-4
所示:
5
湖南商务职业技术学院毕业设计
图3-4创建scrapy项目
其中,lianjia是项目名称,执行该命令会在当前目录下创建一个名为
lianjia的Scrapy项目。该项目的目录结构如下图3-5所示:
图3-5scrapy项目的目录结构
Scrapy项目创建完成后,还需要根据具体需求进行配置和修改,比如编写
书解析方法、设置User-Agent、设置Pipeline、设置爬取速度限制等等。
1、Spider类实现
在Scrapy中,Spider类是用户编写爬虫程序的核心类,它定义了如何进行
网页抓取、如何提取数据以及如何跟进链接等一系列操作。在Spider类中,用
户需要定义一些属性和方法来实现网页爬取的流程和逻辑。
需要设置的关键属性如下图3-6所示:
图3-6设置spider类的属性
这些基本属性的设置可以在Spider类中进行,用于指定爬虫程序需要爬取
的网站和页面。在爬虫程序运行时,Scrapy会根据这些属性自动发送请求,并
把响应数据传给回调函数进行处理,从而实现数据的抓取和处理。
在回调函数parse方法中,通过xpath语法定位到区域的列表页,通过for
循环遍历每个区的url。如下图3-7所示:
图3-7区域列表
Parse方法的详情如下图3-8所示:
6
湖南商务职业技术学院毕业设计
图3-8parse方法
该parse方法是获取区域url和名称的关键方法。通过XPath表达式从响
应对象中提取出上海所有区的链接和名称,存储在area_items变量中。通过循
环遍历所有的区链接和名称,并且通过yield语句将链接和名称封装在Request
对象中返回。每个Request对象都会被Scrapy框架自动发送请求,且返回的响
应数据会被传递给parse_area方法进行处理。它从起始URL开始,逐步解析网
站上的页面,抽取出需要的数据,并通过yield语句返回给Scrapy框架的
parse_area方法继续处理。
parse_area方法如下图3-9所示:
图3-9parse_area方法
在parse_area方法中,通过循环遍历每个房源的标签,通过xpath方法获
取房源的各个字段,并将这些字段保存到字典中,并通过yield语句返回给
Scrapy框架进行后续处理。
前面的parse方法和parse_area方法可以获取到房源的所有字段,但是还
无法进行翻页处理,所以在parse_area方法中加入以下代码即可进行翻页,如
下图3-10所示:
图3-10翻页处理
next_page_url:该语句通过XPath表达式获取下一页的链接。在该实现中,
7
湖南商务职业技术学院毕业设计
//a[contains(@class,"item-next")]/@href表示查找包含class属性值
为"item-next"的a元素,并且获取它的href属性值。ifnext_page_url:
该语句判断下一页的链接是否存在。如果存在,就继续进行下一步操作;否则,
程序结束。
response.urljoin(next_page_url):该语句用于将下一页的链接转换为绝
对路径。在Scrapy框架中,如果请求的URL是相对路径,则需要使用该语句将
其转换为绝对路径,以便正常访问网站。
2、LianjiaItem类实现
在Scrapy中,Item是用于存储爬取到的数据的容器,类似于字典(dict)
的数据结构。通过定义一个Item类型,并指定其包含哪些字段,可以将爬取到
的数据存储为结构化的形式,便于后续的数据处理和存储。
Scrapy中的Item类需要继承自scrapy.Item类,并通过定义各个字段来
描述数据的结构。每个字段都是scrapy.Field类型的实例,用于描述每个字段
的类型和属性,如是否允许为空、是否需要进行数据类型转换等。
在Spider中,当爬取到一条数据时,可以将其打包成一个Item实例并通
过yield语句返回,从而传递给ItemPipeline进行后续处理。Item是一种
轻量级的数据容器,与数据存储和处理逻辑解耦,使得爬虫代码更加简洁清晰,
也方便进行代码复用和维护。
LianjiaItem类如下图3-11所示:
图3-11LianjiaItem类
LianjiaItem类是scrapy.Item子类,用于存储从上海链家网爬取的房源信
息。其中,每个字段都是scrapy.Field类型的实例,用于描述每个字段的类型
和属性。在spider中获取到的房源信息会被打包成一个LianjiaItem实例并
在yield语句中返回,从而传递给Pipeline进行后续处理。
3、Pipeline类实现
8
湖南商务职业技术学院毕业设计
在Scrapy中,Pipeline是用于对爬取到的数据进行处理的组件。Pipeline
接收爬虫Spider返回的Item对象,然后进行一系列的处理,例如数据清洗、
数据过滤、数据存储等,并将处理结果传递给下一个Pipeline或输出到文件系
统、数据库等存储介质。
LianjiaPipeline类如下图3-12所示:
图3-12pipeline类
该Pipeline会将爬取到的数据保存到一个txt文件中。在初始化函数
__init__()中,会创建一个文件对象self.file,文件名为"shData.txt",模式
为"w"即写模式,编码为"utf-8"。然后,将该文件的第一行写入数据字段的名
称,即LianjiaItem类中定义的字段名称。在process_item()函数中,将传入
的item对象转换为字符串格式,并写入文件中。最后,关闭文件的操作在
close_spider()函数中完成,该函数会在爬虫结束时自动被调用。
4、运行爬虫程序
使用scrapycrawllianjia命令即可启动scrapy框架,程序运行结束后回
到当前目录下生成shData.txt,打开shData.txt文件如下图3-13所示:
图3-13shData.txt
数据采集是数据分析和数据挖掘的重要前置步骤,获取到的数据可以用于建
模、预测、分类、聚类、可视化等任务。本项目一共采集了6万多条记录,这
个数据量已经满足了数据分析和可视化的要求。
9
湖南商务职业技术学院毕业设计
4数据清洗与处理
爬虫采集上海链家网二手房源数据后,可以进行数据清洗来保证数据的质量
和准确性,包括数据去重、数据筛选、数据格式化等,以便更好地进行数据分
析和挖掘。例如,在上海链家网爬取的二手房源数据中可能会存在重复数据,
如同一个房源在不同的时间点被采集,采集到的数据可能存在略微差异,因此
需要进行数据去重处理,以避免数据分析时对同一数据进行重复计算,从而导
致分析结果的误差。
4.1数据清洗说明
使用MapReduce进行数据清洗的优势在于其具有可伸缩性和容错性。它是
一种分布式计算框架,能够将大数据集分成若干个小数据集,对小数据集进行
计算,最后将计算结果进行合并,从而实现分布式计算。因此,当数据量非常
大时,可以使用MapReduce将数据分布到多台计算机上进行处理,提高处理速
度和效率。此外,MapReduce还具有容错性,即当某台计算机出现故障时,可以
将任务重新分配到其他计算机上进行处理,从而保证了整个数据处理过程的可
靠性和稳定性。
4.2数据清洗需求
原始文件的数据格式为txt文件,字段之间使用逗号进行分隔,在使用
maoreduce读取文件时,需要使用逗号切分每一行,编写对应字段的数据清洗方
法。通过观察原始数据,可以剔除以下几点数据清洗需求:
1)House_info字段是一个复合字段,可以从该字段拆分出:房型、面积、朝
向、装修风格、楼层和房源类型等字段
2)follow_info字段同样也是一个复合字段,从该字段中拆分出:关注人数和
发布时间。
3)在all_price和square_price字段代表价格字段,在原始数据中,价格使
用逗号分隔,这一点跟字段分隔符发生了冲突,如下图4-1所示:。需要将
该字段格式化,并剔除单位。如:”52878,806元/平”处理之后为:
“52878806“。
图4-1价格字段的格式
10
湖南商务职业技术学院毕业设计
4.3编程实现
house_info字段是一个复合字段,通过观察发现,它有两种格式,第一种
是包含了“年建”字段,第二种是不包含“年建”字段,在切分成数组后长度
上会有区别,包含“年键”的数组长度为7,不包含”年键”的数组长度为6。
这两种情况需要分别处理。代码如下图所示:
图4-2处理house_info字段
clean_house_info方法,用于清理链家网二手房源信息中的
"house_info"字段。方法接收一个字符串类型的"house_info",并将其按照
"|"字符进行切分。如果切分后的数组长度为7,则将"|"替换为","并返
回字符串。如果长度不为7,则调用"connect"方法将切分后的前5个元素
拼接成一个字符串,并在第5个和第6个元素之间添加两个逗号,然后再与
最后一个元素拼接并返回一个字符串。
connect,用于将多个字符串连接起来,并以逗号分隔。其中用到了可变
参数,和StringBuilder类,代码如下4-3所示:
图4-3connect方法
通过编写clean_follow_info方法用于处理follow_info字段。该方法使用
正则表达式解析输入字符串follow_info,提取出其中的数字,并拼接成以逗号
分隔的字符串返回。
具体步骤如下:
1)使用正则表达式(\\d+).*?(\\d+)编译一个模式compile;
11
湖南商务职业技术学院毕业设计
2)使用模式compile对输入字符串follow_info进行匹配,返回一个匹配器
matcher;
3)如果匹配成功,提取出第一个数字和第二个数字,并拼接成以逗号分隔的字
符串返回;
4)如果匹配失败,返回以两个逗号分隔的空字符串。
例如,当输入字符串follow_info为看房5次,历时1个月时,该方法的返
回值为5,1。代码如下图4-4所示:
图4-4clean_follow_info方法
在前面数据清洗需求分析小结已经提到,all_price字段和unit_price字
段种的逗号与字段分隔符发生冲突,为了避免后续的数据处理发生错误,这里
需要进行处理。clean_price方法如下图4-5所示:
图4-5clean_price方法
该函数实现的是清洗房源价格的功能,将价格拼接成统一的格式。输入参数
有两个:price_pre是房源价格的前缀,price_slice是房源价格的后缀,剔除
后缀种的单位字符串,最后将前缀和后缀拼接成新的字符串,并返回。
12
湖南商务职业技术学院毕业设计
在map方法种,利用数据清洗方法处理各个字段,map方法代码如下图4-6
所示:
图4-6map方法
用于HadoopMapReduce中的数据清洗。该函数会将输入的一行数据按照逗
号分隔符进行切割,如果切割后的字段数量不为10,则返回,否则进行数据清
洗操作。具体地,它会调用clean_house_info()函数,将房屋信息中的竖线符
号“|”替换为逗号“,”;调用clean_follow_info()函数,从关注信息字段中
提取出关注人数和带看次数;调用clean_price()函数,将价格信息字段中的元
/平去掉。
数据清洗完成后,函数会将处理后的字段用逗号拼接成一个字符串,并在最
后一个字段后面加上换行符,再写出到Hadoop的输出文件中。由于MapReduce
中的输出要求是键值对形式的,因此在这里键使用了NullWritable类型,值则
是Text类型,代表输出的是一个文本字符串。
在main方法中,指定输入和输出路径,用于将输入的数据集和输出的结果
写入到指定的文件中。创建了一个MapReduce作业,并为其设置了相关的属性,
例如Mapper类和Reducer类,输入键和值以及输出键和值的类型。使用Hadoop
的Configuration类创建了一个配置对象,用于设置作业相关的属性,例如集
群的地址和端口等。调用waitForCompletion()方法来启动作业并等待其完成。
13
湖南商务职业技术学院毕业设计
图4-7mapreduce运行日志
程序运行结束之后会到指定的目录中生成output文件夹,这个output文件
夹中的part-r-00000文件就是数据清洗的结果文件。如下图4-8所示:
图4-8mapreduce运行结果
5数据统计与分析
5.1数据准备
数据分析部分使用hive数据仓库管理工具来完成,hive能够数据文件映射
成一张表,它提供了类SQL语句和大量的函数。Hive数据存储使用的是hdfs分
布式文件系统,计算引擎用的mapreduce框,所以能够比较轻松的处理大数据。
创建hive表将数据文件导入,如下图5-1所示:
14
湖南商务职业技术学院毕业设计
图5-1创建hive表
使用hive提供的load语句将part-r-00000文件导入到hive表中,因为是
从本地文件系统导入,所以在命令中需要加入local关键字。如下图5-2所示:
图5-2数据导入
数据导入成功之后就可以使用sql对数据进行多维度、多角度的分析了。
数据分析结果使用insertoverwrite语句导入到本地,后续使用pyecharts进
行数据的可视化。
5.2数据分析与展示
5.2.1统计上海各区的房源数量和价格
编写sql查询上海链家网的房源数据按照区域分组,并按照数量从多到少排
序。查询结果包括区域、房源数量以及每个区域平均房价(保留两位小数)。
selectregion,count(1)asnum,round(avg(unit_price),2)asprice
fromshlianjie
groupbyregion
orderbycount(1)desc
图5-3统计上海各区的房源数量和价格
从上图可知,徐汇区是上海市二手房数量最多的区,其次是浦东区和普陀区。
15
湖南商务职业技术学院毕业设计
其中,徐汇区二手房数量达到14965套,远远超过其他区,可能是由于其交通
便利、人口密集等因素影响的结果。
在二手房平均价格方面,徐汇区同样是最高的,达到71637.43元/平米。其
次是浦东区、普陀区和宝山区。从平均价格来看,这些区的二手房市场相对较
为活跃,购买者的购房意愿较强。
从区域分布来看,这些二手房数量和平均价格较高的区域大多位于上海市中
心区域和新城区域,包括徐汇区、浦东区、普陀区、黄浦区和静安区等。这些
区域的房价相对较高,可能是由于其地理位置优越、城市资源丰富等因素影响
的结果。
5.2.2统计每年建造的房屋数量和价格
从shlianjie表中提取出年份,并统计每个年份的房源数量和平均单价,然
后按照房源数量倒序排序。
selectregexp_extract(year,"\\d{4}")asyear,count(1)as
num,round(avg(unit_price),2)asprice
fromshlianjie
groupbyregexp_extract(year,"\\d{4}")
orderbycount(1)desc
图5-3每年建造房屋的数量和价格
根据上面的数据,我们可以了解到上海市从1955年至2021年期间,共建造
房屋共计41515套,建造的年代分布比较广泛,其中,1980年至2008年是上海
16
湖南商务职业技术学院毕业设计
市建造房屋数量比较密集的年代。下面是该数据的分析报告:
其中,房屋数量的最大值为3711套,最小值为2套,平均值为728.77套;
建造房屋的平均价格的最大值为147976元/平方米,最小值为45555元/平方米,
平均值为77911.56元/平方米。
5.2.3统计最受欢迎的的楼层和平均价格
将房屋所在楼层(storey)、关注度(follow)、房屋数量(num)和平均
单价(price)分组,并按关注度从高到低排序,最后限制结果为前10条记录。
关注度越高代表该楼层越受欢迎。
selectstorey,sum(follow)asfollow_num,count(1)as
num,round(avg(unit_price),2)asprice
fromshlianjie
groupbystorey
orderbysum(follow)desc
limit10
图5-4统计房源的分布
中楼层和高楼层是二手房市场的主要房源类型,其中中楼层房屋数量最多,
高楼层房屋价格相对较高。在中楼层中,6层建筑的数量最多,而在高楼层中,
18层和19层建筑的数量最多。顶层房屋数量相对较少,但价格较低,可能受到
楼层高度的限制。高楼层(共10层)和16层建筑的数量相对较少,可能受到
市场需求和规划规定的限制。高楼层(共32层)建筑数量相对较多,但价格较
17
湖南商务职业技术学院毕业设计
低,可能受到建筑物所在区域和建筑年代的影响。
总之,楼层高度在二手房市场中具有重要影响,购房者应根据自身需求和预
算综合考虑。
5.2.4统计各个户型的数量个平均价格
统计链家数据中每种户型的数量和均价。其中unit_type是户型的类型,例
如:“1室1厅”、“2室1厅”等等。num统计了该户型的房屋数量,price
统计了该户型的平均房价。
selectunit_type,count(1)asnum,round(avg(unit_price),2)asprice
fromshlianjie
groupbyunit_type
图5-5统计各户型的数量和平均价格
首先,根据数据,3室2厅户型是数量最多的,其次是2室1厅和1室1厅,
数量分别为19832和5453。而户型数量最少的为8室3厅,仅有12个。此外,
4室1厅、3室1厅、4室2厅和2室2厅这些常见户型的数量也较多。
其次,就平均价格而言,8室3厅和4室3厅这两种户型的平均价格最高,
分别为102919和65586.22元。而6室3厅和高档大户型5室3厅的平均价格
则相对较低,分别为29992.5和47314.4元。从整体来看,各个户型的平均价
格都在6万到8万之间,没有太大的差别。值得注意的是,1室0厅和3室0厅
的样本数量较少,平均价格的可靠性可能较低。
综上所述,根据提供的数据分析,房屋的数量和平均价格与户型有关,不同
18
湖南商务职业技术学院毕业设计
户型的数量和价格也有所不同,其中6室3厅和8室3厅的平均价格较高,而1
室1厅和2室1厅的数量较多。
5.2.5分析关注人数与价格之间的关系
从shlianjie表中选择关注人数数(follow)和单位价格(unit_price),
并且只保留跟随数不等于0的行。根据关注人数和单位价格绘制出散点图,即
可分析其中的关系。
selectfollow,unit_price
fromshlianjie
wherefollow!=0
图5-6关注人数与价格之间的关系
根据数据,可以看出高房价的房屋关注人数较少,低房价的房屋关注人数较
多。
从统计学的角度来看,这个结论得到了很好的支持。房价与关注人数之间的
相关性是负相关的,即房价上涨时,关注人数下降。这种趋势可能与消费者的
心理有关,高房价的房屋一般比低房价的房屋更为昂贵,购买者通常更为谨慎,
关注度较低。另外,低房价的房屋通常更适合购买者的预算,因此更多的购买
者会对其关注和关心。
在未来的房地产市场分析中,这种趋势可以被用来预测购房者的关注点,以
及如何调整营销策略以吸引更多的潜在客户。
19
湖南商务职业技术学院毕业设计
5.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《高原疾病防治知识》课件
- 2025年分期付款化妆品购买合同
- 2025年PPP项目合作物资保障协议
- 二零二五年海洋工程建设项目施工合同6篇
- 二零二五年度PVC管材绿色制造技术合作合同3篇
- 2025年度新能源发电项目租赁合同3篇
- 2025版学校图书馆古籍保护与展示工程合同3篇
- 二零二五年度航空航天器研发与测试合同4篇
- 2025年度住宅小区物业管理权转让与社区安全防范协议
- 二零二五年度文化创意产业经营授权协议
- 2024年云南省中考数学试题含答案解析
- 国家中医药管理局发布的406种中医优势病种诊疗方案和临床路径目录
- 2024年全国甲卷高考化学试卷(真题+答案)
- 汽车修理厂管理方案
- 人教版小学数学一年级上册小学生口算天天练
- (正式版)JBT 5300-2024 工业用阀门材料 选用指南
- 三年级数学添括号去括号加减简便计算练习400道及答案
- 苏教版五年级上册数学简便计算300题及答案
- 澳洲牛肉行业分析
- 计算机江苏对口单招文化综合理论试卷
- 成人学士学位英语单词(史上全面)
评论
0/150
提交评论