基于Python的二手车之家数据采集与分析_第1页
基于Python的二手车之家数据采集与分析_第2页
基于Python的二手车之家数据采集与分析_第3页
基于Python的二手车之家数据采集与分析_第4页
基于Python的二手车之家数据采集与分析_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言...............................................................................................................................1

1.1项目背景............................................................................................................1

1.2开发环境与工具................................................................................................1

1.2.1Python简介............................................................................................1

1.2.2Jypyternotebook简介........................................................................2

1.2.3Python第三方库简介............................................................................2

2需求分析.......................................................................................................................3

2.1可行性需求分析................................................................................................3

2.2采集目标功能分析............................................................................................4

2.3关键技术分析....................................................................................................4

2.3.1网络爬虫技术.........................................................................................4

2.3.2文件存取技术.........................................................................................5

2.3.3可视化技术.............................................................................................5

3数据采集.......................................................................................................................6

3.1采集页面分析....................................................................................................6

3.2字段分析............................................................................................................7

3.3编程实现............................................................................................................9

4数据清洗与处理.........................................................................................................15

4.1数据清洗..........................................................................................................16

4.2数据储存..........................................................................................................17

5数据统计与分析.........................................................................................................18

5.1数据准备..........................................................................................................18

5.2数据展示..........................................................................................................19

5.2.1依据车辆产商进行统计.......................................................................19

5.2.2依据车辆级别进行统计.......................................................................20

I

湖南商务职业技术学院毕业设计

5.2.3依据车辆价格进行统计和分析...........................................................21

5.2.4依据月份上牌数量进行统计...............................................................22

5.3综述..................................................................................................................23

6小结.............................................................................................................................23

参考资料.........................................................................................................................24

II

湖南商务职业技术学院毕业设计

基于Python的二手车之家数据采集与分析

1引言

二手车市场是一个庞大的市场,而且近年来在汽车消费趋势的影响下,二

手车交易市场得到了显著的发展。由于消费者对于二手车交易市场的需求日益

增加,因此二手车交易市场已经成为了汽车行业中的一个新兴且非常有潜力的

领域。而数据采集与分析又是二手车交易市场中的重要环节,对于二手车交易

市场的发展起到至关重要的作用。与此同时,以python为代表的编程语言由于

它的可靠性和易用性,已经得到了广泛的应用。本文将采用python作为主要的

应用工具,对二手车之家网站的数据采集与分析进行研究和探究,从而推动当

前二手车交易市场的健康发展。

1.1项目背景

随着人们生活水平的提高和汽车消费观念的改变,二手车市场逐渐成为一

个备受关注的领域。在中国,二手车市场的规模不断扩大,由于信息不对称、

交易风险大等问题,二手车市场的发展仍面临着一些挑战。

为了解决这些问题,越来越多的企业开始涉足二手车市场,推出了各种二

手车交易平台和服务。这些平台通过整合资源、提供专业的评估、检测、保养

等服务,为消费者提供更加安全、便捷的二手车交易体验。同时,政府也加大

了对二手车市场的监管力度,出台了一系列政策和法规,促进了二手车市场的

规范化和健康发展。我的毕业设计就是基于二手车之家平台公开的数据,对其进

行处理、分析,繁杂的数据经过清洗加分析后然后可视化。

1.2开发环境与工具

1.2.1Python简介

20世纪80年代末,荷兰的龟叔(GuidoRossum)创造了Python。

Python创建的初期并没有引起大多数人们的关注,在21世纪初Google在

大量的项目业务上大规模的开始应用Python,Python也因此走进大众的视野,

从而促使Python的发展。

随着计算机技术的日新月异,2010年后移动互联网的大肆普及。云计算、大

数据等信息技术兴起,其中的大数据技术涉及到的数据获取、清洗处理、可视化

1

湖南商务职业技术学院毕业设计

都有Python的身影存在。云计算中最主要的框架Openstack就是由Python开

发而来,并且Openstack许多接口都支持Python的调用,对于平台实现自动化

极其友好。再到后来人工智能技术的崛起,AI领域使用了更多的Python技术,用

它作为机器学习、关键算法的开发工具。并且Python入门难度相较于JAVA、C++

等面向对象的语言而言更加简单容易入门、所以它很快的便走进了大众的视野

中。

最后,在编程语言排行榜中。Python的排名已经与老牌的C语言和JAVA语

言不相上下,它也逐渐走进非IT行业工作者的视野内。现如今,人们用它开发简

单的小脚本用来做文件的自动化处理或者开发一些小网站打发无聊时光。这也

突出Python的特点就是易学、第三方库足够丰富、并且免费开源、支持跨多平

台且可移植性比较强。

1.2.2Jypyternotebook简介

Jupyternotebook从本质上来说是一种应用程序,是一种基于浏览器的

工具。它将一些解释性文本、数学、计算等结合起来,放在一个交互式的创作型

文档中。并且在这个创作型文档中所有的内容都是可分享并可见的。在一些教

学或者项目的讲解中,jupyternotebook或许是一枝独秀。因为它支持Markdown

标记语言,在浏览器界面编辑代码的同时可以很方便的为代码提供注释。在

jypyternotebook执行代码的同时对于注释性文本并不会执行,这个极大的方便

了教学人员,或者开发人员讲解项目

Jupyternotebook在大数据方面应用比较广泛,特别适合用来做数据的

清洗和处理,在数据挖掘和可视化上的应用也是十分方便的。对于比较高层次的

开发人员来说,这个工具也可以用来做深度的机器学习。

对于初学者来说安装Jupyternotebook的方法就是安装Anaconda,因为

Anaconda的版本中就是自带Jupyternotebook。如果觉得不需要Anaconda,可

以自主选择进入官网下载安装包。

1.2.3Python第三方库简介

requests:最友好的网络爬虫功能库,是Python实现的简单易用的HTTP库,

使用起来比urllib更简洁很多,Python第三方库在使用前要先进行安装。

Re:正则表达式解析和处理功能库,里面包含了多种字符串匹配的方法。

Pprint:他的英文全称为Dataprettyprinter他采用分行打印的方式输出

数据结果。让一些冗长复杂结构的数据输出更加漂亮好看,让开发人员一目了然。

2

湖南商务职业技术学院毕业设计

Csv:csv属于python中的内置模块,它能够读取csv格式的文件或者将数

据存入到csv表格中。并且csv文件是表格和数据库中常见的文件操作格式。

NumPy库是Python数据分析的基础,是处理数组的Python库,NumPy库的

数据结构比Python自带的更加高效。

pandas:数据分析并保存为csv文件,python数据分析高层次应用库,还可

以进行数据清洗。

matplotlib:绘图库,主要是偏向于二维绘图包括折线图、条形图、扇形图、

散点图、直方图等等。

wordcloud、scipy、jieba:生成中文词云的。

pylab:它能设置画图让其能显示中文。

2需求分析

2.1可行性需求分析

1、技术可行性

Python是面向对象语言中的一门通俗易懂的计算机编程语言,本次项目中

使用Python编写程序来实现数据获取,数据清洗预处理,数据可视化。在数据获

取的过程中遇到一些小问题。随后通过抓包分析发现国家药监局网站药品信息

页面的数据是动态传输的,所以我们通过浏览器控制台获取请求和其参数。然后

就可以得到网页面数据的返回值。随后将爬取出来的原始数据暂时以csv格式

储存起来,在后续的数据预处理和可视化中再进行调用。最后我们会将准确的数

据存入MySQL数据库中做持久化储存。

以上为此次项目的技术可行性,我也将在后续的工作中将所有的步骤实现

到位,保证数据的准确性和安全性。

2、项目可行性

二手车网站所展示的信息更多,涵盖了车辆品牌、车型、售价等多个方面,

数据可利用性较高。由于二手车交易网站较为复杂,数据爬取难度较大,需要

建立一套完整的数据获取流程,同时还需进行分析和处理。需要考虑数据清洗

和去重,以确保结果的准确性。

3

湖南商务职业技术学院毕业设计

2.2采集目标功能分析

本次项目的数据集的来源是二手车之家,是通过python爬取湖南省所有城

市的二手车信息。数据清洗后共3764条记录,爬取完成后尽可能的检查数据的

准确性,确定爬取出来的数据无误。数据采集在整个数据分析流程中占据了至关

重要的地位。为了将二手车市场中的所有信息纳入分析,需要对市场上各种二

手车信息进行系统的采集。而对于二手车市场的数据,通过爬取二手车之家网

站可以获取大量的信息。网络爬虫是一种数据获取的技术,可以通过模拟浏览

器行为,实现自动化访问网站,并获取网站上的内容和数据。在爬虫实现中,

首先需要对二手车之家网站的数据结构进行分析,然后编写爬虫代码来模拟用

户行为,实现数据的抓取。此外,在实现过程中,需要考虑网站的反爬虫机制

以及模拟登录的实现等问题。

2.3关键技术分析

2.3.1网络爬虫技术

Python是一种十分流行的网络爬虫开发语言,常用的Python网络爬虫技术

包括:

1.Requests:一个专门用来处理HTTP请求的Python库,可用于发送HTTP

请求及处理相应结果。常用于下层爬虫框架的封装中。

2.Scrapy:一个快速高效的爬虫框架,使用Python语言编写,支持自动化

网站爬行、数据抽取等功能,是一种速度快、易用性好的爬虫框架。

3.BeautifulSoup:一个基于Python的HTML/XML解析库,能够将HTML页

面转化为Python可操作的数据结构,支持解析HTML标签及CSS选择器。

4.Selenium:一个可以通过代码控制浏览器操作的自动化测试工具,能够

解决一些比较复杂的爬虫工作,例如模拟用户登录、爬取JavaScript渲染后的

网页等。

5.PyQuery:基于jQuery语法的Python库,支持解析HTML文档、选择HTML

中的元素、读取和修改HTML文档等。

6.PySpider:一个强大的开源网络爬虫系统,具有强大、易用的web界面,

支持分布式爬虫、源码阅读等功能。

这些技术都是Python下常用的网络爬虫技术,通过将它们组合使用,可以

实现多种不同类型的网络爬虫任务。使用Python进行网络爬虫开发具有高效、

4

湖南商务职业技术学院毕业设计

易用、灵活等特点,是一种十分流行的开发方式。。

2.3.2文件存取技术

文件存储技术指的是将数据存储在物理设备中,文件存取技术指的是如何

读取和处理存储在物理设备中的文件数据,文本文件存取技术:可对文本文件

进行读取、写入、复制和粘贴等操作,能够识别并处理文本编码格式。

二进制文件存取技术:可对二进制文件进行读取、写入、复制和粘贴等操

作,允许以十六进制或二进制形式查看文件内容,但无法直接显示文本信息。

二进制文件存取技术:可对二进制文件进行读取、写入、复制和粘贴等操作,

允许以十六进制或二进制形式查看文件内容,但无法直接显示文本信息。

数据库文件存取技术:将数据结构化存储在磁盘上,并提供了查询、更新

和删除等数据库操作界面,用于有效地管理大量数据。

2.3.3可视化技术

可视化技术指的是通过图形化方式展示数据,将抽象的数据转换成易于理

解和解释的形式,帮助用户更直观的了解数据,从而更好的发现数据中的规律

和趋势,进一步促进数据分析和决策。在现实生活中,可视化技术广泛应用于

商业、政务、科研、教育等领域Python提供了多种可视化技术的工具和库,常

用的包括:

Matplotlib:是Python的主流可视化工具,支持生成各种类型的图表,如

折线图、散点图、直方图、条形图、饼图等,可用于探索性数据分析和呈现分

析结果。

Seaborn:是基于Matplotlib的高级数据可视化库,提供了更多的可视化

类型和样式,适用于快速可视化数据。

Plotly:提供了交互性更强的图形可视化,支持生成多种类型的图表,如

折线图、散点图、直方图、气泡图、3D图、小提琴图等。

Bokeh:是一个交互式可视化工具,支持生成各种类型的图表,如折线图、

散点图、直方图、树状图等,适用于大规模、高维度或实时数据的可视化。

Pandas:是Python主要的数据处理包,支持生成各种类型的可视化图表,

同时还提供了多种常用统计图形。

Ggplot:是R语言中著名的ggplot2可视化系统的Python实现,支持生成

各种类型的图表,如散点图、直方图、箱线图等。

5

湖南商务职业技术学院毕业设计

这些库都有自己的特点和使用场景,根据不同的需要选择不同的库来进行

数据可视化处理。

3数据采集

3.1采集页面分析

我们首先通过浏览器搜索二手车之家的官方网页,然后点击全国,找到湖南

省观察图3-1,其中URL为:

/hunan/a0_0msdgscncgpi1ltocsp1exx0/?pvareaid=1

02179;然后点击页面下方的下一页按钮,同时观察URL,发现URL中

a0_0msdgscncgpi1ltocsp1exx0变为a0_0msdgscncgpi1ltocsp2exx0。如图3-2

图3-1数据网址页面

按F12调出开发者工具,刷新页面,如图2-4。

图3-2页码测试

6

湖南商务职业技术学院毕业设计

利用全局搜索工具定位所需数据位置,点击开发者工具上面的Headers字

段,分析这是个什么请求,发现这个是一个get请求如图3-3,那我们需要寻找它

的的Fromdata往下翻找,在最后找到了表单数据FormData,如图3-4。

图3-3开发者工具

图3-4Cookie,User-Agent

3.2字段分析

我们打开网页按F12打开开发者工具,使用元素面板可以快速审查HTML元

素的代码及其相关属性,你可以通过点击元素面板中的元素来选中网页上的相

应元素。如图3-5我们可以发现a元素中有一个网址点击它可以进入车辆的详

细页面。如图3-6查看网页元素可以发现我们可以用XPath选择器语言从HTML

7

湖南商务职业技术学院毕业设计

页面中提取指定元素的文本内容,匹配所有带有class属性为price的<span>

元素,并使用//text()方法获取它们的文本内容,包括子元素的文本内容。

如图3-7我们可以contains()函数通过匹配指定汽车参数文本的<span>元

素,然后通过../选择器返回到上一个父元素,从而找到包含车身颜色的文本在

同一级别下的元素。最后,通过text()方法提取该元素中包含的文本内容。

图3-5分析数据类型页面

图3-6汽车价格字段

8

湖南商务职业技术学院毕业设计

图3-7汽车参数字段

3.3编程实现

导入所需库,如图3-8

图3-8导入所需库页面

设置请求头,伪装成浏览器访问服务器。如图3-9

图3-9请求头内容页面

代码实现如下:

importjson,random,requests

importscrapy

fromlxmlimportetree

importpandasaspd

9

湖南商务职业技术学院毕业设计

from..confimport*

classSpider(scrapy.Spider):

name='ershouchezhijia_new'

headers={

'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)

AppleWebKit/537.36(KHTML,likeGecko)Chrome/99.0.4844.74Safari/537.36',

'Referer':

'/china/a0_0msdgscncgpi1ltocsp94exf4-3x0/?pvareaid=10

2179',

}

defstart_requests(self):

df1=pd.read_csv(r'car_list.csv')

try:

df2=pd.read_csv(r'result.csv')

df2=json.loads(df2.to_json(orient='records'))

user_new=[]

foriindf2:

user_new.append(i['url'])

except:

user_new=[]

#df1=df1.drop_duplicates(subset='specid',keep='first')

df1=json.loads(df1.to_json(orient='records'))

forid1indf1:

id1['url']

='/dealer/1/{}.html'.format(id1['biz_id'])

ifid1['url']inuser_new:

print('222222222')

continue

url2=

'/CarProduct/GetParam.ashx?specid={}'.format(i

d1['specid'])

print(33333)

yieldscrapy.Request(

url=url2,

callback=self.parse_info,

dont_filter=True,

meta={'buzz':id1}

)

defparse_info(self,response):

if'请求参数格式错误'inresponse.text:

10

湖南商务职业技术学院毕业设计

return

buzz=response.meta['buzz']

try:

data=json.loads(response.text)

except:

return

item1={}

item1['url']=buzz['url']

#item1['img']=buzz['img']

item1['specid']=buzz['specid']

type_List=['车型名称','厂商指导价(元)','厂商','级别','能源类型

','上市时间','纯电续航里程(km)','快充时间(小时)','慢充时间(小时)','快充

电量百分比','最大功率(kW)',"最大扭矩(N?m)",'电动机(Ps)','长*宽*高(mm)','

车身结构','最高车速(km/h)','官方0-100km/h加速(s)','实测0-100km/h加速

(s)','实测100-0km/h制动(m)','实测续航里程(km)','实测快充时间(小时)','实

测慢充时间(小时)','最低荷电状态油耗(L/100km)','整车质保']

fortype2intype_List:

item1[type2]='-'

type_list2=['长度(mm)','宽度(mm)','高度(mm)','轴距(mm)','前轮距(mm)','

后轮距(mm)','最小离地间隙(mm)','车身结构','车门数(个)','座位数(个)','油箱容

积(L)','气罐容积(L)','行李厢容积(L)','整备质量(kg)']

fortype3intype_list2:

item1[type3]='-'

type_list3=['电机类型','电动机总功率(kW)','电动机总扭矩(N?m)','

前电动机最大功率(kW)','前电动机最大扭矩(N?m)','后电动机最大功率(kW)','后电

动机最大扭矩(N?m)','系统综合功率(kW)','系统综合扭矩(N?m)','驱动电机数','

电机布局','电池类型','NEDC纯电续航里程(km)','WLTP纯电续航里程(km)','CLTC

纯电续航里程(km)','EPA纯电续航里程(km)','电池能量(kWh)','百公里耗电量

(kWh/100km)','电池组质保','快充时间(小时)','慢充时间(小时)','快充电量(%)']

fortype3intype_list3:

item1[type3]='-'

type_list4=['挡位个数','变速箱类型','简称']

fortype3intype_list4:

item1[type3]='-'

type_list5=['驱动方式','前悬架类型','后悬架类型','助力类型','车体

结构']

fortype3intype_list5:

item1[type3]='-'

type_list6=['前制动器类型','后制动器类型','驻车制动类型','前轮胎

规格','后轮胎规格','备胎规格']

fortype3intype_list6:

11

湖南商务职业技术学院毕业设计

item1[type3]='-'

fornameindata['result']['paramtypeitems']:

ifname['name']=='基本参数':

type_new_list=type_List

elifname['name']=='车身':

type_new_list=type_list2

elifname['name']=='电动机':

type_new_list=type_list3

elifname['name']=='变速箱':

type_new_list=type_list4

elifname['name']=='底盘转向':

type_new_list=type_list5

elifname['name']=='车轮制动':

type_new_list=type_list6

fortype1inname['paramitems']:

iftype1['name']intype_new_list:

item1[type1['name']]=type1['value']

yieldscrapy.Request(

url=buzz['url'],

callback=self.parse_info_two,

dont_filter=True,

meta={'item1':item1}

)

defparse_info_two(self,response):

item1=response.meta['item1']

tree=etree.HTML(response.text)

title=tree.xpath('//h3/text()')

title=str_replace(title)

info=tree.xpath('//ul[@class="brand-unit-itemfn-clear"]//text()')

try:

item1['标题']=title

#if'浏览了该车的用户还看了'initem1

ifitem1['标题']=='浏览了该车的用户还看了:':

return

item1['表显里程']=info[4]

item1['上牌时间']=info[10]

item1['挡位/排量']=info[16]

item1['车辆所在地']=info[22]

price=tree.xpath('//span[@class="price"]//text()')

12

湖南商务职业技术学院毕业设计

price=str_replace(price).split('万')[0]

item1['价格']=price

exceptExceptionase:

print(e,item1)

return

#price2=tree.xpath('//s[@id="newprice"]/text()')

#price2=str_replace(price2)

#item['新车含税价']=price2.replace('新车含税价:','')

img=tree.xpath(

'//div[@class="swiper-slideswiper-slide-visible

swiper-slide-activeswiper-slide-thumb-active"]/img/@src')

ifimg:

if'http'notinimg:

img='http:'+img

time1=tree.xpath('//span[contains(text(),"发布时间")]/../text()')

time1=str_replace(time1)

item1['发布时间']=time1

#item['图片']=img

guohu=tree.xpath('//span[contains(text(),"过户次数")]/../text()')

guohu=str_replace(guohu)

item1['过户次数']=guohu.replace('次(以车辆登记证为准)','')

item1['车身颜色']=str_replace(tree.xpath('//span[contains(text(),"

车身颜色")]/../text()'))

item1['变速箱']=

is_null(tree.xpath('//ul[@class="basic-item-ul"]/li[3]/text()'))

item1['排放标准']=str_replace(tree.xpath('//span[contains(text(),"

排放标准")]/../text()'))

item1['排量']=

is_null(tree.xpath('//ul[@class="basic-item-ul"]/li[5]/text()'))

item1['年检到期']=str_replace(tree.xpath('//span[contains(text(),"

年检到期")]/../text()'))

item1['保险到期']=str_replace(tree.xpath('//span[contains(text(),"

保险到期")]/../text()'))

item1['质保到期']=str_replace(tree.xpath('//span[contains(text(),"

质保到期")]/../text()'))

item1['发动机']=str_replace(tree.xpath('//span[contains(text(),"

发动机")]/../text()'))

item1['车辆级别']=str_replace(tree.xpath('//span[contains(text(),"

13

湖南商务职业技术学院毕业设计

车辆级别")]/../text()'))

item1['燃油标号']=str_replace(tree.xpath('//span[contains(text(),"

燃油标号")]/../text()'))

item1['驱动方式']=str_replace(tree.xpath('//span[contains(text(),"

驱动方式")]/../text()'))

url3=

'/api/carinfo/specprc?specid={}'.format(item

1['specid'])

yieldscrapy.Request(

url=url3,

callback=self.get_comment,

meta={'item1':item1}

)

defget_comment(self,response):

item1=response.meta['item1']

data=json.loads(response.text)

try:

comment_list=[]

forcommentindata['result']['DimModelPRCTypes'][0]['Summary']:

comment_list.append(str(comment['Combination']))

try:

item1['综合评价']=','.join(comment_list)

except:

item1['综合评价']=''

except:

item1['综合评价']=''

url4=

'/api/NewCarPriceInTax.ashx?_appid=2sc&pid=0&sp

ecid={}&cid={}'.format(item1['specid'],item1['url'].split('/')[-1].replace(

'.html',''))

yieldscrapy.Request(

url=url4,

callback=self.get_price,

meta={'item1':item1}

)

defget_price(self,response):

item1=response.meta['item1']

data=json.loads(response.text)

try:

14

湖南商务职业技术学院毕业设计

item1['原价']=data['result']['newcarprice']

except:

item1['原价']=''

yielditem1

4数据清洗与处理

在数据分析的过程中,数据质量决定了分析结果的准确性和可靠性。因此,

数据清洗和处理是十分关键的环节。Python提供了丰富的数据清洗和处理库,

包括Pandas、NumPy等。这些工具可以帮助我们对数据进行快速、高效的处理

和清洗。

在数据处理过程中,经常会遇到缺失值的情况。缺失值可能会影响数据分

析结果的准确性。因此,需要对缺失值进行处理。重复值是指出现多次的具有

相同特征的数据,它们可能会影响数据分析的准确性。可以使用Pandas库的

duplicated()函数来判断是否存在重复值,并使用drop_duplicates()函数将重

复值进行删除。

总之,数据清洗和处理对于数据分析的准确性和可靠性至关重要。在Python

中,可以使用丰富的数据处理和清洗库来实现数据清洗和处理的任务。需要根

据具体的数据情况和分析需求,选择适当的方法和技术,对数据进行全面、准

确的处理和清洗。

15

湖南商务职业技术学院毕业设计

4.1数据清洗

图4-1数据清洗准备页面

经过比对和检查,发现数据存在缺失,还有空值,那么我们根据需求将有效

数据统一规划去掉不要的行列数据,防止数据冗余。因此我们只需保留需要的数

据,然后整理为原网页格式存入cleaned_car.csv文件中,留存后续作为统计分

析、可视化使用。

图4-2数据筛选界面

16

湖南商务职业技术学院毕业设计

图4-3清洗空值

图4-4数据清洗完成界面

4.2数据储存

数据储存得方法有很多种,常见得可以直接用记事本格式储存(txt),或

者直接用其他文件的形式储存csv、excel、json等,但是以上方法保存的数据

体量普遍都比较小。如果需要储存较大的数据信息就需要用到我们的数据库,数

据库也分为关系型和非关系型数据库。关系型数据库比较典型的有MySQL和

Oracle等,非关系型数据库等以键值对形式储存数据的代表有Mongodb、Redis

等。本次项目我们用到的是csv。

如图4-5所示:

17

湖南商务职业技术学院毕业设计

图4-5数据存储为csv页面

5数据统计与分析

5.1数据准备

导入相关库,使用pandas加载源数据,如图5-1,5-2。

图5-1数据准备页面

18

湖南商务职业技术学院毕业设计

图5-2数据加载页面

5.2数据展示

5.2.1依据车辆产商进行统计

图5-3数据展示页面

从图5-3中将可以看出当前二手车市场上在售的品牌主要集中在进口车、

豪华车和合资车这些品牌上,具体情况如下:

豪华车,进口车:华晨宝马、北京奔驰、一汽奥迪、保时捷、路虎(进口)、

奥迪(进口)、雷克萨斯、比亚迪等豪华车品牌,由于豪车和进口车,品牌知名

度高技术和品质水平高价格昂贵,对于消费者的经济能力要求比较高,所以在

二手车网站上在售的车辆数量多,例如,华晨宝马在售为362辆。这说明豪华

车,进口车销量不是特别高。

19

湖南商务职业技术学院毕业设计

合资车:上汽通用凯迪拉克、上汽大众、上汽通用别克、广汽本田、东风

日产、广汽丰田、东风本田、吉利汽车、一汽丰田、上汽通用雪佛兰等国外知

名汽车品牌与国内知名汽车企业联合生产的车型,合资车企业的生产和销售集

成了国内工人的廉价劳动力和国外企业成熟的管理模式,从而减少了制造成本

和销售成本,能够提供具有价格竞争力的高质量车辆。例如保价性、品质和配

置等。例如,上汽通用凯迪拉克年在售为156辆。这说明合资车价格相对于豪

华进口车更为亲民,而且性能、配置和品质等方面也非常出色,更具有性价比。

自主车:长城汽车、长安汽车、长安福特、广汽乘用车、MINI、长安马自

达都是以汽车生产、销售和研发为主营业务的国内汽车品牌。自主车企业通常

拥有自主研发的技术和产品,可以更快地推出新产品,更好地满足不断变化的

市场需求。价格优势。自主车企业生产成本相对较低,可以通过价格优势赢得

市场。自主车在价格上更加的亲民在二手车网站上的在售车辆一般都在50辆左

右,这可以说明低价格车辆可能有着更优秀的性价比,从而吸引消费者的关注。

5.2.2依据车辆级别进行统计

图5-4数据展示页面

从图5-4中可以看在二手车网站上出售的车型数量对比,中型车、紧凑型

车、中大型车、中型SUV和紧凑型SUV等常规车型的需求相对较高,它们的销

量表现也相对较好。另外,大型车、小型车、跑车、中大型MPV等车型的销量

相对较低,可能是由于其市场定位不够明确或者面对的竞争较为激烈等原因。

对于微型车、紧凑型MPV、轻客、皮卡和微面等车型,销量也比较低,这说明这

些车型的市场份额相对较小。

20

湖南商务职业技术学院毕业设计

紧凑型车是一种兼顾经济性、操控性和实用性的汽车类型,尤其适合在城

市中进行代步和日常行驶

中型车在车身尺寸、内部空间、油耗表现、配置和性价比等方面均处于中

等水平,将舒适性和油耗性能相对平衡,可以说是一种较为全面的车型,符合

大多数消费者所需的基本驾驶性能和舒适体验,因此在市场中有较高的竞争力。

紧凑型车和中型车占据汽车市场超过一半的比例,那么这可能意味着消费

者更倾向于购买较小型号的汽车,或者他们更注重燃油经济性和实用性,因为

较小型号的汽车通常比大型车更为环保和节能。

5.2.3依据车辆价格进行统计和分析

图5-5数据展示页面

从图5-5中这个数据集描述了一个汽车销售平台的销售数据。可以看出,

销售的汽车价格主要分布在10万以下和20万以下的价格区间内(共计2063

辆),约占销售总量的70%。此外,也可以看到销售较高档次的汽车(价格在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论