穷游旅游网站景点数据采集与分析_第1页
穷游旅游网站景点数据采集与分析_第2页
穷游旅游网站景点数据采集与分析_第3页
穷游旅游网站景点数据采集与分析_第4页
穷游旅游网站景点数据采集与分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

湖南商务职业技术学院毕业设计

目录

1引言............................................................................................................................1

1.1项目背景......................................................................................................1

1.2开发环境与工具..........................................................................................2

1.2.1Python简介..........................................................................................2

1.2.2Python第三方库简介..........................................................................3

2需求分析....................................................................................................................3

2.1可行性需求分析..........................................................................................3

2.2采集目标功能分析......................................................................................4

2.3关键技术分析..............................................................................................4

2.3.1网络爬虫技术.......................................................................................4

2.3.2文件存取技术.......................................................................................5

2.3.3可视化技术...........................................................................................5

3数据采集....................................................................................................................6

3.1采集页面分析..............................................................................................6

3.2字段分析......................................................................................................6

3.3编程实现......................................................................................................7

4数据清洗与处理........................................................................................................8

4.1数据清洗......................................................................................................9

4.2数据储存......................................................................................................9

4.3编程实现....................................................................................................10

5数据统计与分析......................................................................................................12

5.1数据准备....................................................................................................12

5.2数据展示....................................................................................................12

5.2.1全国前十旅游城市条形图.................................................................12

5.2.2全国前十旅游城市地理图.................................................................14

5.2.3全国旅游城市前十饼图.....................................................................15

5.3数据分析小结............................................................................................16

I

湖南商务职业技术学院毕业设计

6小结..........................................................................................................................17

7参考资料..................................................................................................................18

II

湖南商务职业技术学院毕业设计

穷游旅游网站景点数据采集与分析

1引言

纵观历史,旅游是人们增长知识,丰富阅历,强身健体的好方法。中国古

代先哲提出“望闻问切”的思想,提倡“读万卷书,行万里路”,游历名山大

川,探寻名胜古迹,吸纳天地之灵气,吸纳山水之精华。20世纪以来,现代旅

游业在世界各地迅速发展,游客数量不断增加,旅游业规模稳步扩大,旅游业

的经济作用也明显增强。人们也将旅游视为放松压力,洗涤心灵的一种方式。

因为人们常常处于高压环境下,就会选择旅游来放松。而怎么旅好游呢?就成

了一个难题。旅游前肯定要做好攻略,而选择去哪旅游,去了之后的住宿,当

地有什么美食,乘坐什么交通工具?这些数据分析就可以帮助我们很好的实

现。那怎样去做数据分析呢?在大数据时代,人们想要做好旅游攻略,首先要

考虑到的是数据来源的问题。如今,互联网已经成为人们生活中不可或缺的一

部分,而随着网络的普及,各种类型的网站层出不穷,而这些网站也是我们获

取信息的重要渠道。然而现在网站有很多,很多人都不知道该如何去选择。其

实也很简单,我们只要用搜索引擎来进行搜索就可以了。搜索出来的结果肯定

会有自己想要的答案。比如你在某宝上买东西,然后搜索“北京”、“故宫”

等关键词,就会出来很多关于北京、故宫、兵马俑等方面的信息。在进行数据

分析之前我们可以先进行关键词搜索。

1.1项目背景

穷游网由肖异在德国留学时期于2004年创立,现已经发展成为中国领先

的出境旅服务平台。在疫情期间,穷游平台为旅行者提供了大量有价值的信息

和攻略,帮助他们了解目的地和旅行相关信息,可以让旅行者更好地规划自己

的旅游行程;另一方面,穷游平台具有强大的社交属性,可以通过与旅行者之

间的互动为旅行者提供社交分享、观点交流等活动,增加旅行者对于目的地的

了解和喜爱程度。这一点不仅适用于国内市场,也适用于境外旅游市场。在国

外市场上,穷游也有一批忠实粉丝。

2007年,穷游网正式成立,其网站以“让旅游更穷更有趣”为宗旨,帮助

游客更加自由,方便地进行出国旅游。穷游网提供餐饮,酒店,旅游线路,购

物等旅游服务信息,有效便利了游客的外出出行。近年来,穷游网也迅速发

展,拥有超过6000万注册用户,其中许多用户利用穷游网安排了跨国旅游计

1

湖南商务职业技术学院毕业设计

划。

穷游网的业务模式主要为“B2B2C”,既从B2B(商业到商业)及B2C(商

业到消费者)两个方面拓展出来:首先,穷游网与国内外旅游供应商合作,以

消除商家与消费者之间的中间环节,同时给予消费者更高品质的服务:其次,

穷游网在中国范围内开展了一系列的旅游营销活动,借此促进旅游业的发展,

也为消费者提供更加具有价值的旅游服务。

我的毕业设计就是针对穷游网网站景点数据的爬取,然后对其进行处理,

分析,然后可视化。繁杂冗余的数据经过处理分析,变得一目了然。所以我的

毕业设计部分包含数据爬取、清洗清洗、储存、可视化。

1.2开发环境与工具

1.2.1Python简介

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990年代

初设计,Python的诞生是极具戏曲性的,据Guido自述记载,Python语言

是在圣诞节期间为了打发无聊的时间而开发的,之所以会选择Python作为该

编程语言的名字,是因为Guido是MontyPython戏剧团的忠实粉丝。

Python是一门面向对象的编程语言,它使得程序开发变得更加容易。它的

对象,继承,多态等机制使代码具有了可移植性,同时也使代码变得更加容易

理解。Python是一种高级编程语言,被广泛应用与web开发和移动应用程序开

发领域。Python语言具有简单易用,面向对象,面向过程等特点,同时,

Python还拥有丰富的库和第三方工具,能够帮助开发者快速构建出各类复杂的

系统。

Python作为一门ABC语言的替代品。它提供了强大的高级数据结构和简

单,高效,基于寡头的编程。Python是一款面向对象编程。同时也是一款易于

学习且功能强大的编程语言。Python简洁的语法与动态输入之特性,加之其解

释性语言的本质,使得它成为一种在多种领域与绝大多数平台都能进行脚本编

写与应用快速开发工作的理想语言。

2

湖南商务职业技术学院毕业设计

1.2.2Python第三方库简介

requests是Python中的一个HTTP请求库,基于Python中的urllib模

块实现。它比urllib库更为容易使用。requests库发送原生的HTTP1.1请

求,不需要手动为URL添加字典查询,也不需要对POST数据进行表单编码。

HTTP库使用Apache2许可的开源协议。它比urllib更加方便,可以为我们节

省大量的工作,完全满足HTTP测需求。

pandas是一个基于Python的NumPy和Matplotlib的第三方数据分析库,

也是Python的核心数据分析支持库。它以快速,灵活和清晰的数据结构提供

关系型,标记化的数据,旨在实现简单和直观的处理。pandas可以从各种文件

格式导入数据,例如,以逗号来分隔的值,JSON,SQL,Microsoft,Excel。

pandas是Python的一个第三方库,需要单独安装才能使用。pandas主要有两

种数据结构,Series(一维数据)与DataFrame(二维数据)。

Pyecharts是一个用于在Echarts中生成图表的类库。Echaets是百度开

源的一个数据可视化库,用Echarts生成的图可视化效果非常棒。使用

Pyecharts库可以在Python中是生成Echarts数据图。Pyecharts是为了与

Python进行对接,方便在Python中直接使用数据生成图。使用Pyecharts可

以生成独立的网页,也可以在Flask,Django中集成使用。

2需求分析

2.1可行性需求分析

近年来,利用大数据进行客流和消费统计已经成为一个重要趋势,大数据

的应用使旅游统计更加及时和准确。大数据可以保证数据的客观性、代表性、

数据覆盖范围大、人数统计相对准确,此外,各国各地都在争相使用大数据统

计,用大数据替代传统统计。但有些地方因为没有按照游客的技术定义排除大

数据,导致数据失真。为了提高旅游统计的质量,需要规范大数据统计的标准

应用。

旅游业将更多的文化产品联系起来,并以独特的方式呈现出来。到一个陌

生的城市旅行,不参观当地的博物馆,不了解当地的历史和文化,似乎都白来

一趟,纯纯浪费时间。曾经少人问津的博物馆,近年来势头正猛,以其厚重的

文化底蕴,吸引着越来越多的游客,仅2018年就有10.08亿人次走进博物

3

湖南商务职业技术学院毕业设计

馆。所以,我决定做一个基于Python爬取穷游网全国旅游城市的数据。

2.2采集目标功能分析

本次项目的数据集的来源是穷游网网站数据,主要针对穷游旅游网站,我

采集网页中旅游城市的详细详细,如城市名字,去过的人数,热门景点,城

市详情页面,图片url地址等内容进行一个数据采集与分析,让用户可以根据

这些主要字段信息,选择自己心仪的旅游去处。通过Python编写城市向浏览

器发送请求,在与浏览器取得通信连接后,取得其页面的基本数据后,通过解

析数据第三方库对响应页面的基础数据进行数据提取,制定相应的规则,进行

批量化操作,得到最后数据存入CSV文件中进行持久化存储。

2.3关键技术分析

2.3.1网络爬虫技术

随着大数据的快速增长,网络爬虫技术在互联网上的地位变得越来越重

要。网络上数据的复杂性和浩瀚性,都让我们想到了网络爬虫,如何自动有效

地获取互联网中的数据,并把它变成我们想要的数据。网络爬虫技术存在就是

为了解决这些难题。网络爬虫就像一个机器人。你设定规则并给它们下达指

令,它就会按照制定的规则自动浏览网页并且收集各种你想要的信息。网络爬

虫将互联网比喻成一张蜘蛛网,通过模拟人的行为(网络用户),自动高效的

抓取网页数据。网络蜘蛛是通过一个网页页面的链接地址对该网页进行寻址操

作,并且爬取该网站上的所有页面信息,从第一个页面开始,阅读该页面的内

容,找到该页面的其他链接地址,从该链接地址找到下一个网页,一直这样反

复循环,一直到把这个网页所有的页面都被爬取完为止。网络爬虫技术应用很

广泛,常见的用于搜索引擎领域。

网络爬虫技术有一个缺点就是需要大量的服务器资源,在使用的过程中要

对服务器资源进行管理,以防止用户访问被限制,还有一个缺点就是网络爬虫

需要对网页进行解析,这个过程中会产生很多的垃圾数据,导致网络爬虫工作

效率低下。同时也存在着许多的安全隐患。为了解决这些问题,可以通过使用

爬虫软件来实现网络爬虫技术。

4

湖南商务职业技术学院毕业设计

2.3.2文件存取技术

本文使用CSV技术和MySQL来存储文件。CSV全称为Comma-Separated

Vaules,也称为逗号分离法,翻译为逗号分离值或字符分离值,其文件以纯文

本格式存储表格数据。在某些情况下,它被用于文件间的文件传输,比如程序

之间的数据转移。由于这个原因,CSV被广泛使用。它是由微软公司开发的一

种文件格式,与XLS文件类似。CSV是一种基于字符的文件格式,而不是基于

表格的格式。微软在20世纪90年代末开始向一些大型公司提供在线服务,因

此开发了许多用于与其他软件互操作的应用程序,而CSV就是其中之一。该公

司为用户提供了一种简单易用的方法来存储和使用CSV文件,其中包括

MicrosoftWord、Excel和PowerPoint等应用程序。使用CSV文件的主要优

点是它具有其他格式所不具备的一些特性。

MySQL是一个关系型数据库,它将数据保存在不同的表中,而不是将所有

数据保存在一个大型仓库里。MySQL使用SQL语言,SQL语言是一种数据库查

询语言和程序设计语言,它是一中非关系型数据库语言,主要用于存取数据,

查询数据和更新数据。

2.3.3可视化技术

数据可视化简单来说就是将数据以图形的方式呈现出来,让人们更直观地

看到数据信息。复杂的数据以图形的方式展现出来就变的不复杂了。数据可视

化就是将人类感知到的信息如视觉、听觉、触觉、嗅觉等,通过可视化手段进

行处理,从而让用户以更容易理解和接受的方式来理解和处理这些信息。数据

可视化可以通过图表、图表组合等方式将数据直观地呈现出来,方便用户理

解、掌握、使用数据,也可以通过各种可视化工具将数据进行更高效的处理。

数据可视化是一个典型的人机交互技术。人机交互是指人与计算机之间的信息

交换过程。在计算机的辅助下,人类能够更高效地获取计算机中存储的信息和

知识,并能通过人的思考来判断信息或知识的价值。

本次项目中仅仅只是将得到的数据用很简单的可视化手段实现数据可视化,

具体的就是用Python第三方库Matplotlib去进行可视化,Matplotlib中包含

了许多库,分别对应饼图、条形图、直方图、折线图等图形,可以很好的将数据

高效率的表现出来,可视化图形呈现出来后对于结果自然一目了然,然后得出结

论。

5

湖南商务职业技术学院毕业设计

3数据采集

3.1采集页面分析

我们首先通过谷歌浏览器搜索穷游网官方网页,然后找到如图3-1所示。

图3-1数据采集页面

我们需要采集的有城市名字,去过的人数,热门景点,图片url,城市详情

页面url。该页面地址为/china/citylist-0-0-

1/。通过点击第二页,第三页发现页面分别变成了

/china/citylist-0-0-2/和

/china/citylist-0-0-3/,目标地址只有后半段有变

化,并且和页面是对应的,是有规律的。因此通过for循环,循环访问该地

址。

3.2字段分析

本文爬取的字段有城市,去过的人数,热门景点,城市详情页面,城市图

片。先爬取第一个页面/china/citylist-0-0-1/的字

段数据,并找到第二个页面的链接地址进行爬取,一直这样反复循环爬取页面

数据。

6

湖南商务职业技术学院毕业设计

3.3编程实现

导入所需库,如图3-2所示。

图3-2导入所需库页面

设置请求头,伪装成浏览器用户,如图3-3所示。

图3-3请求头内容页面

代码实现如下,如图3-4所示。

图3-4具体代码内容

7

湖南商务职业技术学院毕业设计

运行结果展示,如图3-5所示。

图3-5运行结果展示

4数据清洗与处理

数据清洗的目的是为了提高数据的准确性个完整性,以及在分析时的可读

性。数据清洗是在数据处理中非常重要的一步,在许多行业中都得到了广泛应

用,如市场营销、医学研究、金融等。通过对数据进行清理,可以提高数据的

准确性和可靠性,并消除数据中的错误。为了提高数据质量,需要对收集到的

数据进行检查和修正,如删除重复数据、补充缺失值、纠正错误类型和格式

等。对于不同类型的数据,需要采用不同的方式来处理。如对于财务记录,应

该检查是否有未及时更新的日期和金额;对于非财务记录,则应该检查是否有

缺失值、重复日期等。在大多数情况下,清理工作只是为了避免数据之间的不

一致或冲突而采取的措施。

数据清洗可以有多种表述方式,其定义依赖于具体的应用。因此,数据清

洗的定义在不同的应用领域不完全相同。例如,在数据仓库环境下,数据清洗

是抽取转换装卸载过程的一个重要部分,要考虑数据仓库的集成性与面向主题

的需要。不过,现在业界一般认为,数据清洗的含义是检测和去除数据集中的

噪声数据和无关数据,处理遗漏数据,以及去除空白数据。

本次项目中我们需要将爬下来的数据和网页原数据进行比对,并且检查是

否出现空值、错值,还有数据的位置是否正确。根据不同的需求我们要对数据

进行不同的处理。

8

湖南商务职业技术学院毕业设计

4.1数据清洗

经过比对和检查,发现数据不存在缺失,错位还有空值,那么我们根据需求

将有效数据统一规划去掉不要的行列数据,防止数据冗余。因此我们只需保留

需要的数据,然后整理为原网页格式存入CSV文件中,留存后续作为统计分析、

可视化使用。

图4-1数据清洗完成界面

4.2数据储存

数据存储是数据处理的一个环节,是指通过一定的计算机技术将数据存储

在特定的介质中。数据存储即可以保证数据的完整性,又可为随时使用和加工

处理作准备。数据存储的目的是以这样一种方式存储数据,以便在计算机上运

行程序或进行数据处理时可以方便地访问。

数据储存得方法有很多种,常见得可以直接用记事本格式储存.txt文件,或

者直接用其他文件的形式储存CSV、excel、json等,但是以上方法保存的数据

体量普遍都比较小。如果需要储存较大的数据信息就需要用到我们的数据库,

数据库也分为关系型和非关系型数据库。关系型数据库比较典型的有MySQL和

Oracle等,非关系型数据库等以键值对形式储存数据的代表有Mongodb、Redis

等。本次项目我们用到的是CSV、MySQL。

如图4-2和4-3所示。

9

湖南商务职业技术学院毕业设计

图4-2数据存储为CSV页面

图4-3数据存储MySQL页面

4.3编程实现

创建数据库test_qy,如图4-4所示。

图4-4创建数据库页面

创建数据表mytable,如图4-5所示。

图4-5创建数据表页面

10

湖南商务职业技术学院毕业设计

将本地数据上传到虚拟机/root目录下,如图4-6所示。

图4-6上传虚拟机页面

导入数据到数据库,如图4-7所示。

图4-7导入数据页面

查看数据是否导入成功,如图4-8所示。

图4-8数据导入成功页面

11

湖南商务职业技术学院毕业设计

5数据统计与分析

5.1数据准备

本文爬取的是穷游网全国旅游城市数据,源数据如下,如图5-1所示。

图5-1源数据页面

5.2数据展示

5.2.1全国前十旅游城市条形图

代码如图5-2所示。

图5-2前十旅游城市条形图代码

12

湖南商务职业技术学院毕业设计

可视化展示如图5-3所示。

图5-3全国旅游城市柱状图

从图5-3可以看出,香港去的人数最多,其次是澳门。我认为香港之所以

会成为第一的原因是,香港是全世界的“购物天堂”,许多商品免关税进入香

港市场。其商品不仅仅货真价实,而且物美价廉。全世界各种美食及商品在这

里聚集,琳琅满目,应有尽有;从电子产品,首饰,到服装,鞋帽等等,只有

你想不到,几乎没有你找不到的好东西。

香港和澳门的历史渊源我们都知道,这两个城市都是后来才回归的,之前

一直由外国人治理。因此,香港和澳门在早些年发展也很快,加上体制制度的

原因,吸引了很多人到这两个城市。所以,香港和澳门这两个城市的多样性、

包容性更大,你可以在这两个城市看到很多国家的身影,不同的建筑风格,不

同的语言,不同的饮食习惯等等,加上早些年大陆人去香港澳门限制要求很

多,是在回归之后条件才放松,因此这也给大陆人去香港澳门旅游创造了条

件。每一个到香港的游客,不可错失的目的地肯定少不了维多利亚港,作为享

有“世界三大夜景之一”的美誉,这里成就了香港“东方之珠”的赞誉,不仅

汇聚了香港最美的景观:星光大道,天星小轮等等特色为世人周知。在香港可

以找到各式各样的中外美食,港式美味,港式海鲜等等。

13

湖南商务职业技术学院毕业设计

5.2.2全国前十旅游城市地理图

代码如图5-4所示。

图5-4前十旅游城市地理图数据代码

可视化展示如图5-5所示。

图5-5全国旅游城市地理图

从图5-5中可以看出来,人们喜欢去旅游的地方都是一线城市和沿海城

市。地理环境的不同,造就了不同的自然环境和人文景观。选择去沿海城市旅

行可以看到大海,大海的景色是那么迷人,海浪,沙滩,岩石,椰树,日出日

落,还有很多水上项目潜水、水上摩托、水上滑翔等,而且海边沙滩也很空

旷,不像一些登山类景区,很拥挤,也利于度假的人们很够把前一段时间的工

14

湖南商务职业技术学院毕业设计

作生活压力彻底释放。靠海边的城市,因为离市中心离的有些远,不会有很多

车来车往,没什么噪音。看看湛蓝色的大海,再望望无边无迹的蓝天白云,会

觉得自己仿佛来到仙境一般。所有的不愉快,所有的的负面心情都会随着大海

潮起潮落,被带向远方。所以大海很宽广,喜欢大海,喜欢他的瀚海无边。在

海边,你可以尽情游玩,尽情的享受阳光和海滩,可以静静第聆听来自海洋的

声音。去沿海城市旅行,可以吃到非常多美味的海鲜。除了自然景观景点和人

文文化,美食当然也必不可少。所以去沿海城市旅行,品尝海鲜和看海是一定

的。所以人们喜欢去沿海城市是有原因的。

5.2.3全国旅游城市前十饼图

代码如图5-6所示。

图5-6前十旅游城市饼图数据代码

可视化展示如图5-7所示。

图5-7全国旅游城市饼图

15

湖南商务职业技术学院毕业设计

从图5-7可以看出香港占比最多,其次是澳门,台北,台湾。香港是一个

国际大都会,所以在香港你可以吃到很多其他国家的美食,你可以吃到德国的

美食,日本料理,韩国料理等等很多其他地方的美食都做得非常的好。澳门的

话就有比较多的一些典型的建筑,比如说大三巴,还有威尼斯人那些景点都是

比较吸引游客的,而且很多人在电视上也看到过这些景点,向往这些景点。

根据这些可以发现,人们出去旅游都喜欢选择沿海城市和一线城市。因为

沿海城市相对来说经济比较发达,交通比较便利,旅游业也发达,住宿也很发

达,气温也比较舒适。当地各式各样的海鲜,美食很多。当心情不好的时候,

还可以去看看海,我们可以穿着比基尼走在海边,迎面吹着轻轻的海风,心情

都会变得愉快起来,沿海城市的本地人们很好客,很热情,在那里我们可以体

验不一样的民风。

5.3数据分析小结

综上,去过人数最多

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论