去哪儿旅游网站景点数据采集与分析_第1页
去哪儿旅游网站景点数据采集与分析_第2页
去哪儿旅游网站景点数据采集与分析_第3页
去哪儿旅游网站景点数据采集与分析_第4页
去哪儿旅游网站景点数据采集与分析_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言1

1.1项目背景1

1.2开发环境与工具2

1.2.1Python简介2

1.2.2JupyterNotebook简介2

1.2.3Python第三方库简介2

2需求分析3

2.1可行性需求分析3

2.2采集目标功能分析4

2.3关键技术分析4

2.3.1网络爬虫技术4

2.3.2文件存取技术5

2.3.3可视化技术5

3数据采集6

3.1采集页面分析6

3.2字段分析8

3.3编程实现8

4数据清洗与处理9

4.1数据清洗10

4.2数据储存11

5数据统计与分析12

5.1数据展示12

5.1.1依据景点特点进行统计12

5.1.2依据景点级别进行统计13

5.1.3据产重庆景点月销量进行统计和分析14

5.2小结14

I

湖南商务职业技术学院毕业设计

6总结15

参考资料16

II

湖南商务职业技术学院毕业设计

去哪儿旅游网站景点数据采集与分析

1引言

从第二次世界大战结束以来至今,网络从诞生初期到现在的壮大经历的过

程就好像绿皮火车向高铁迈进一样,我们现在的社会已经离不开网络和计算机

了,在2008年8月的时候有一个词被正式的赋予了概念,那就是大数据。在那

之后这个名词开始被许多人一直提起熟知直到现在火遍了全球,而现在大数据

得到了越来越多的人关注,现在不管是在哪行哪业里面都是非常热门的话题。

而且随着网络的快速发展,现在的人们早已经不需要面对面才能进行交流

沟通了,人们可以通过各种各样的软件跟自己的亲人和朋友进行交流,比如特

别常见的软件有:QQ、微信。而且当今时代科技发达,信息流通密度非常大,

人们之间的交流也变得越来越密切,生活也变得越来越方便了,人们已经不满

足于普通的日常生活交际,在自己有限的时间和生活轨迹中追求更好更丰富的

生活。越来越多的人喜欢旅行,无论是自由行,跟团行,自驾行都是人们选择

旅游出行的方式之一。

而旅游业是目前世界上发展的最快并且是前景最好的新兴产业之一,因为

游客的飞速增长从而带动了社会经济的发展。自改革开放以来,中国旅游市场

规模越来越大,在社会经济发展和产业组织调整中发挥着重要的作用。

1.1项目背景

经过漫长的资源整合,人们最喜欢使用去哪儿进行旅游目的地进行搜索,

在2012年的时候就成为了最受人们旅游时喜爱用的网站和软件。作为中国人成

立的公司,应该有几个原因俘获人心了,第一:去哪儿网是全球最大的中文在

线旅游网,基本上只要你输入你想去的地方都会有相应的攻略和对应信息,响

应率非常高。第二:在去哪儿网预定的价格非常的便宜,通常都是全网最低的

价格,这使得很多消费者都会心动。第三:在去哪儿网上有很多可选择的方式,

它的覆盖面非常的广泛提供包括了“机票、酒店、会场、度假产品”等一系列

的附加产品,旅行者们可以根据自己的需求进行不同的选择。最后,去哪儿网

的合作伙伴与很多家航空公司和9000家旅行代理商达成深度合作,搜索预订范

围涵盖68万条国际国内航线、200万家酒店和特色民宿,以及超过120万条度

假线路、2万余个目的地门票等玩乐项目。去哪儿作为当今非常热门的旅游搜索

1

湖南商务职业技术学院毕业设计

引擎,其背后的数据具有极高的探索价值。本项目的目的是挖掘并分析去哪儿

网重庆景点的数据,并对其进行内容优化,提高数据的质量。

本项目通过Python数据爬虫,爬取去哪儿网重庆景点的景点名称、景区级

别、热度、地区、热度、地址、特点、价格、月销量等信息,并对其数据进行

数据爬取、清洗处理、数据储存、数据可视化。

1.2开发环境与工具

1.2.1Python简介

Python是一门面向对象的计算机程序设计语言,Python是由来自荷兰阿姆

斯特丹的数学和计算机科学研究学会的吉多·范罗苏姆于1989年发明,是ABC

语言的替代品。Python主要应用于人工智能、web应用开发、计算与数据分析、

网络爬虫、自动化运维、科学计算、云计算、网络编程、游戏开发等多个计算

机相关领域。Python如今已经成为了最受欢迎的程序设计语言之一。

1.2.2JupyterNotebook简介

JupyterNotebook是于2012年的时候被谷歌研究出来的交换式的笔记本,

虽然到现在为止它非常的年轻,但是它强大的功能使得它非常的优秀受到了许

多程序员的喜爱。主要用途是数据清理和转换,数值模拟,统计建模和机器学

习等等,其中对数据进行数据清理是我最熟悉的操作,简单的说就是对不需要

的数据进行处理。

1.2.3Python第三方库简介

requests:requests是一个连接通信的第三方库,它最大的优点是程序编

写过程更接近URL访问过程。这个库建立在Python语言的urllib3库基础上。

request库支持非常的链接访问功能。主要用于编写爬虫和测试服务器响应数据

时使用。

Beautifulsoup:Beautifulsoup是一个网页解析库,简单来说就是当我们

把网页的源代码爬取下来后,使用Beautifulsoup来进行对特定内容的提取。

从HTML或XML文件中,提取数据的Python库。

re:re又名正则表达式,是一种小型语言,其作用范围为字符串,内嵌在

Python中,通过调用re模块实现,其底层通过C语言编写的匹配法则进行匹配。

re常见的方法有compile、match、findall、finditer、search等。在一些字

符串操作方法使用不方便的情况下,使用re模块可以非常方便地完成一些查找

2

湖南商务职业技术学院毕业设计

和替换等操作。

CSV:CSV属于Python中的内置模块,它能够从计算机内读取CSV格式的文

件还可以将Python中数据存入到CSV表格中。并且CSV文件是表格和数据库中

常见的文件操作格式。

NumPy:NumPy是Python的一种开源数值计算扩展的第三方库,用于处理数

据类型相同的多维数组,简称“数组”。这个库可用来储存和处理大型矩阵,比

Python语言提供的列表结构要高效的多。NumPy提供了许多高级的数值编程工

具,如:矩形运算、矢量处理、N维数据变换等。

pandas:pandas是基于NumPy扩展的一个非常重要第三方库,它是为了解

决数据分析任务而创建的。pandas提供了一批标准的数据模型和大量快速便捷

出来数据的函数和方法,提供了高效的操作大型数据集所需要的工具。

Matplotlib:Matplotlib是一个Python2D绘图库,它可以在各种平台上以

各种硬拷贝格式和交互式环境生成出具有出版品质的图形。Matplotlib可用于

Python脚本,Python和IPythonshell,Jupyter笔记本,Web应用程序服务器

和四个图形用户界面工具包。

wordcloud:wordcloud是Python中的一个第三方库,称为词云,可以使用

wordcloud轻松的绘制出词云图,词云图是根据使用文本中的词频,对内容进行

可视化的汇总。

2需求分析

2.1可行性需求分析

1.技术可行性

Python是一门比较通俗易懂的编程语言,并且语法简洁清晰。Python的功

能也很强大,并且是免费开源的,可以跨平台,对Linux和Windows都是支持

的。Python具有强大且丰富的标准库、第三方库和自定义模块。如用于数值计

算的库NumPy等,用于数据可视化的库Matplotlib等,用于网页解析的库

Beautifulsoup等。用于存储数据的库CSV等等。此项目需要使用Python编程

语言来获取数据,存储数据,清洗数据,进行数据可视化一系列的操作。因此

Python对本项目是具有技术可行性的。

2.项目可行性

通过一段旅行,人们可以亲眼的看到当地独特的风景和感受不一样的风土

人情,这是最直观能够感受体会到的。通过实地的旅行可以看到与自己平常生

3

湖南商务职业技术学院毕业设计

活居住不一样的方面,比如饮食习惯,东西南北都有显著的饮食差异;不一样

的风俗人情,傣族人民要过泼水节,蒙古人民有那达慕大会,藏族人民会给自

己尊敬的人进献哈达;不一样的宗教信仰,有信本土道教,有信佛教,有信伊

斯兰教。通过旅行能够接触到平常与自己完全不同的人事物,非常的开豁自己

的见识。

以前放假的时候人们只想待在家里不想出门,而现在随着网络和各种短视

频的不断发酵,在各个节假日来临之际,人们都想着利用空闲的时间看看外面

的世界,通过自己的的亲身体验来看看是否真的如网上所说。现在只要是节假

日哪里都是人山人海。比如像一些网红城市成功的出圈吸引到来自全国四面八

方的游客。那这么多的人都要出行会导致很难获取到有价值的数据。

本次项目通过爬取去哪儿网重庆景点数据并对其进行数据清洗、数据可视化

等操作,让游客可以根据自己的需求快速找到更好的旅游方案。

2.2采集目标功能分析

本次项目的数据集的来源于去哪儿网,通过Python爬取重庆景点的相关信

息。数据清洗后共有1332条记录,爬取完成后尽可能的检查数据的准确性,确定

爬取出来的数据无误是属于去哪儿重庆景点实时存在的信息。

分析去哪儿网站重庆景点网页的信息,明确我们需要爬取的景点参数有景

点名称、景区级别、热度、地区、热度、地址、特点、价格、月销量等数据,在

对原始数据进行预处理后我们会对数据进行分析。例如,从景区级别对其进行分

析,查看有5A级景区、4A级景区、3A级景区和没有级别的景区数量各占比多少。

从景区特点对其进行分析,查看重庆景点有哪些特点等等。

2.3关键技术分析

2.3.1网络爬虫技术

随着互联网的高速发展,越来越多的人都喜欢把自己觉得有用的信息发布

到网上作为分享或者参考。而由于分享的这些信息种类各种各样都被嵌入到各

式各样的网站结构及样式当中,虽然搜索引擎可以辅助我们寻找到信息,但是

搜索引擎搜索出来的数据量非常复制和庞大,因此我们很难得到所需要的信息。

在这种环境和需求下,网络爬虫因此而生,它为互联网数据的应用提供了新的

方法。

网络爬虫也被人们称为网络蜘蛛、网络机器人,顾名思义就是像机器一样,

4

湖南商务职业技术学院毕业设计

不需要人们亲自动手。只需要编写相对应的程序或者脚本就可以自动浏览庞大

复杂的互联网,并且对想要的目标网页去进行精准的数据采集。网络爬虫按照其

系统结构和运行原理分为:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、

深层网络爬虫等。

在大数据的时代背景下,越来越多的市场投入大量的金钱来收集、整理和

挖掘数据。如果网络爬虫不受任何限制,有些人就会将爬取的数据用到不正当

的用途上,所以需要有一定的约束并且对网络爬虫制定协议。当我们需要通过

爬虫爬取网页上的数据时,那么久需要遵守网站所有者对所有爬虫制定的协议,

这个就是我们所熟知的robot.txt协议。由于爬虫爬取网站的数据时是模拟用

户访问的行为,所以我们必须约束自己的行为,遵守网络所有者制定的规定,

避免发生不必要的麻烦。

网站所有者并不欢迎爬虫,当网站所有者从来访者识别出是爬虫,网站所

有者往往会针对爬虫做出一些限制措施,这些限制措施就是我们所熟知的反爬

虫。

2.3.2文件存取技术

使用Python内置CSV模块存储爬取的数据,如图2-1所示:

图2-1Python内置CSV模块

2.3.3可视化技术

人们常说人类是视觉动物,研究表明人类处理图形的速度要比处理文字的

速度快几万倍。将海量的文字转成可视化的图形是非常有必要的,因此数据可

视化成为了数据分析的必修课。

Matplotlib和pyecharts是Python中常见的用于数据可视化的库,有非常

优秀的功能极大的解决了人们对于图形的需求,不仅可以轻松的绘制出折线图、

直方图、饼图、散点图等各种基础图形,而且还可以绘制出一些复杂的图形,

如树形图、误差条形图、日历图、雷达图等等。

Matplotlib可以算的上是Python数据可视化库的泰斗,有十几年的历史了,

5

湖南商务职业技术学院毕业设计

但依然是Python中使用最广泛的绘图库,设计与matlab非常相似。Pyecharts

是一个将Python与Echarts相结合的数据可视化工具,可以非常灵活的配置,

可以轻松的做出精美的图形。

3数据采集

3.1采集页面分析

我们首先通过谷歌浏览器搜索去哪儿网的官方网页,然后找到重庆景点页

面观察图3-1,其中URL为:

/ticket/list_%E9%87%8D%E5%BA%86.html?keyword=%

E9%87%8D%E5%BA%86&page=1#from=home_remen&in_track=qunar_djmp_gnmdd_%

E9%87%8D%E5%BA%86,然后点击页面下方的分页按钮,同时观察URL,发现URL中

的page从1变成的2。

图3-1数据网址页面

观察图3-2,发现第89页的URL的page=89,从而得出结论第几页的page

就等于几。

6

湖南商务职业技术学院毕业设计

图3-2数据网址页面

在页面中右击鼠标,单击检查。如图3-3所示。

图3-3检查页面

利用全局搜索工具定位所需数据位置,点击开发者工具上面的Headers字

段,发现这个是一个GET请求,如图3-4所示。

7

湖南商务职业技术学院毕业设计

图3-4请求页面

3.2字段分析

找到字段所对应的标签,观察后并找出其中的规律,后进行数据的爬取,

通过观察后可以知道我们需要爬取的字段为景点名称、景点等级、景点地区、

景点热度、景点地址、景点特点、景点价格,如图3-5所示。

图3-5字段分析页面

3.3编程实现

导入所需库,如图3-6所示。

8

湖南商务职业技术学院毕业设计

图3-6导入所需库页面

设置请求头,伪装成浏览器访问服务器,如图3-7所示。

图3-7请求头内容页面

获取景点名称、级别、地区、热度、地址等所需数据,如图3-8所示。

图3-8获取数据页面

4数据清洗与处理

由于在爬取下来的大量数据中总会存在不完整、不规范、不准确的数据,

就是所谓的“脏”数据。因此我们在获得庞大的数据集之后需要对数据进行预

处理,也就是清洗和检查,确定爬取下来的数据是否存在无效值和缺失值,要保

证数据的一致性,处理无效值和缺失值等,从而提高数据的质量,这对于整个项

9

湖南商务职业技术学院毕业设计

目来说是一项很重要的操作。

本次项目中我们需要将爬下来的数据和网页原数据进行比对,并且检查爬

取的数据中是否存在空值、缺失值、错值、重复值等对分析数据有影响的值,还

有就是数据的位置是否正确。根据不同的情况我们要对数据进行不同的处理。

4.1数据清洗

通过JupyterNotebook打开爬取下来的数据,并显示出来,如图4-1所示。

图4-1数据清洗准备页面

经过比对和检查,发现数据不存在缺失。有缺失值,但是缺失值情况,符合

分析需求,因此需要对缺失值进行填充的操作,使数据完整,便于分析数据,

如图4-2所示。

图4-2数据清洗完成界面

10

湖南商务职业技术学院毕业设计

4.2数据储存

Python中数据储存常见的有五种,分别是json格式存储、CSV文件存储、

MySQL数据库存储、Redis数据库存储、Mongdb数据库存储,json格式是一种

可以对数据进行交换的格式。CSV文件像是我们平时使用的Excel文件,存储成

CSV文件的话,可以直接在系统磁盘中找到对应的文件进行浏览,方便查看数据。

MySQL数据库存储数据时可以直接对数据进行操作,实现数据的增删改查,是

Python中对数据进行存储时,用的最多的一种方式。Redis数据库存储数据时

比较方便快速。Mongdb数据库的优点是对数据结构的要求不高。此项目中的数

据量不大,因此我在本次项目中使用的是CSV文件存储的方式,如图4-3所示。

图4-3数据存储为CSV页面

11

湖南商务职业技术学院毕业设计

5数据统计与分析

5.1数据展示

5.1.1依据景点特点进行统计

图5-1景点特点词云图

根据爬取去哪儿网重庆市的景点特点数据进行统计,绘制而成的词云图,

如图5-1所示。“娱乐”是出现频率最高的,由此可以看出,人们在在重庆选

择出行的旅游景点时,更加青睐于令人自身愉悦舒适或者令精神放松解压的景

点。其次“竞技”、“战场”、“飞行”等众多脱离现实的关键词也高频出现。

这种特点不仅反映了时下流行的游戏元素也体现了现代人因谋生而奔波忙碌身

心需要得到极大放松的现状。人们基于娱乐之上选择旅游景点时,更刺激大脑

更具吸引力的旅游景点备受关注。

人们的旅行和游玩方式和传统的方式相比发生了巨大改变。重庆自然旅游

资源和地理区位优势明显,可以根据景点特点因地制宜。重庆被人们称为“山

城”,这是天然户外运动的场地土壤,建议相关政府部门借鉴张家界天门山的

开发经验加强重庆户外场地的建设。教育部门出台的研学指令也是另一个发展

12

湖南商务职业技术学院毕业设计

建设重庆旅游景点的契机。把握好自身的旅游资源不失特色还能令学生寓教于

乐也是相关部门需要攻克的一个难点。

5.1.2依据景点级别进行统计

图5-2重庆景区等级占比图

去哪儿网中展示的重庆可旅行的景点一共有1331个,如图5-2所示。不难

比较重庆市景点的占比率,其中没有等级的景点最多,有1174个占比88.2%,

等级为3A的景点有25个占比1.9%,4A的景点有118个占比8.9%,等级为5A

的景点最少,有14个占比为1.1%,但从全国5A级旅游景点角度看重庆市仅作

为直辖市,相比之下5A的景点非常多。景点级别由低到高均覆盖,直观的体现

重庆市旅游景点资源的丰富多样性,人们可以根据自身的需求进行选择。

13

湖南商务职业技术学院毕业设计

5.1.3据产重庆景点月销量进行统计和分析

图5-3重庆景点月销量前十图

比较去哪儿网中重庆市旅游景点的月销量数据,重庆动物园和重庆欢乐谷

景点月销量是最高的,如图5-3所示。

重庆市作为中国西南地区的特大城市之一,拥有千万级人口的数量。在对

于精神文明层次需求的同时,需要一座城市能够体现出与之相匹的软实力。动

物园,森林公园,植物园,游乐园等景点可以满足人们日常生活中游玩的各种

选择,满足人们不同层面的需求。

我们可以很明显的看到月销量排名第一的景点是重庆动物园和和排名第二

的重庆欢乐谷的数据相差很大。说明重庆动物园作为旅游景点较受欢迎,这与重

庆动物园不偏僻地理位置和方便出行抵达观赏的特点密不可分。其次该动物园

拥有稀有动物如大熊猫,金丝猴等国家级的保护动物,并且大熊猫还是我国的

国宝。丰富的生物多样性和国家级保护动物对于人的吸引也是不可忽视的因素。

家长和学校推荐的首选出行地就是重庆动物园,教育意义重大。

根据图5-3显示的排名来看,大多数的景点都集中分布在市中心,可以使

人们的出行相对方便,提高人们日常出游的频率。

5.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论