版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖南商务职业技术学院毕业设计
目录
1引言...............................................................1
1.1项目背景......................................................1
1.2技术工具......................................................2
1.2.1Python简介..............................................2
1.2.2Jupyternotebook简介....................................2
1.2.3Python第三方库简介......................................3
2需求分析...........................................................4
2.1可行性需求分析................................................4
2.2采集目标功能分析..............................................4
2.3关键技术分析..................................................5
2.3.1网络爬虫技术............................................5
2.3.2文件存取技术............................................6
2.3.3可视化技术..............................................6
3数据采集...........................................................7
3.1采集页面分析..................................................7
3.2字段分析.....................................................10
3.3编程实现.....................................................11
4数据清洗与处理....................................................13
4.1数据清洗.....................................................14
4.2数据储存.....................................................15
5数据统计与分析....................................................16
5.1数据准备.....................................................16
5.2数据展示.....................................................18
5.2.1凭据运营城市进行统计...................................18
5.2.2凭据酒店必住榜类型运营与已满员酒店数量进行统计.........19
5.2.3凭据酒店的价格与评论量进行统计和分析...................20
5.2.4凭据酒店推荐理由进行统计...............................22
I
湖南商务职业技术学院毕业设计
5.3综述.........................................................23
6小结..............................................................23
参考资料............................................................25
II
湖南商务职业技术学院毕业设计
基于Python的去哪儿网酒店数据采集与分析
1引言
年光易逝,岁月盈虚,经过我国人民不懈的努力与奋斗,让国家早就从一个
落后发展的进程步入到了如今领先发展的进程。关于这个变化的进程,青年理
应要牢牢地紧握这个时刻和机缘。科技革命的高度进步与发展开启了专属新时
代大数据的世界,现代各种各样信息的问世与繁杂交互让各种形式技术相关的
应用随着大众的需求不断问世与创新融合,像极了地球上的生物为了适应环境
而不断进化。当今的大数据互联网时代为国民在物质、经济等之类的方面都提
供了依靠科技智能生活的基础,除此之外大众每天的线上线下购物、点外卖、
出行住宿酒店等使用过程中所形成的数据也会给从事计算机互联网就业者和软
件APP开发者等供应各种各样丰富且庞大的数据量,使其可以在足够多的数据
基础上去操作研究和程序开发利用,以及在市场上运用投放与实际应用。
现在由于疫情的解封,使得现代的人们非常热衷于出行旅游等活动,以至
于人们对于衣、食、住、行等各方面的需求量越来越大,也导致其出现的庞大
数据当中蕴含的巨大且有价值的信息也愈演愈多,并且随着时间的流逝而逐步
上升。正好这几年又是大数据技术出现的热潮,刚好让这一代人也一只脚迈上
了响应信息革命的“高铁”上,随着“高铁”的行驶到了一个大数据技术信息管
理的新时代。由于现在社会上互联网计算机技术等从事的工作岗位待遇好,所以
引荐了人们对选择这些专业的热潮和流向。其实从事大数据的工作者都明白,在
庞大的数据里面潜藏着许多价值不菲的珍宝,正安静的呆在那里静候着细心人
去开采。互联网相关信息表明大数据技术现在已经成为一个相对而言比较热门
的专业,相信以后会有更多人选择这个专业。
1.1项目背景
酒店的运营与发展的高低,不能单单只看它呈现出来的信息,还应该从各
个渠道获得更多的数据信息,从而对它进行综合调查与分析,最终得到一个信
息结论。
关于不同城市经营的酒店,它发展的好坏主要取决于以下几点:第一:当地
城市的整体实际经济发展能力和人均消费能力。第二:内部条件:酒店在服务、
住宿环境等各方面的完善。第三:人们在出行住宿时更热衷偏向于哪种酒店类
型的选定等。由此得出,本次项目需要获得不同城市运营的酒店类型榜单、酒
1
湖南商务职业技术学院毕业设计
店数量还有评价等具体数据。通过登录去哪儿网酒店查询相干城市运营的酒店
必住榜单数据信息。
1.2技术工具
1.2.1Python简介
20世纪80年代末,吉多用c语言创造了世界上第一个面对对象的Python
编译器。
Python刚产生的时候对人们的生活并没有造成波动性的影响变化,所以一
开始就有些默默无闻。直到Python在处理代码运行时更加注重且显现其严谨灵
活的编程逻辑性,并对Python内部结构进行修改及优化。正是这一优化吸引了
人们的目光与注意,Python才开始活跃起来。
由于处于大数据计算机互联网的时代。从它的背后可以很清晰的看到属于
Python基础的痕迹与发展。现在大数据等各行业的发展,都非常热衷于使用
Python语言数据结构等方面的技术,又由于Python具有简单易学、高级语言、
可移植性、面向对象、开源、可扩展性、丰富的库等特点,所以对于从未接触
过Python的人来说,其学习难度也不是很大,非常容易理解与掌握。由此Python
得到了更活跃的发展。
1.2.2Jupyternotebook简介
Jupyternotebook从根本上而讲是一款Web应用程序,是大数据计算机各
工作者最喜欢用于编写代码、做笔记等方便使用的软件。其能让使用者将说明
文本、编程代码、数学公式、可视化内容全部组合到一个便于共享的文档中。
将一切集中到一处,可以使用户一目了然。在该文档中用户可以单独执行,这
样极大的提高了用户在执行代码时的准确性,同时也节省了时间,提高了效率。
因此Jupyternotebook的数据分析要比pycharm更和善、效果更直观。
Jupyternotebook是以浏览器为基础从而进行编写、运行代码等操作。它
的灵活性也特别的强,特别适合应用于数据处理与分析,其用途主要包括数据
清理、大数据分析和可视化。
安装Jupyternotebook最简单的方法就是直接安装Anaconda,因为
Anaconda它拥有本身就带有Jupyternotebook的优点。这个方法也更多的用于
刚接触应用程序的学习者而言。当然如果觉得安装Anaconda会占有一定空间,
可以直接进入该官网进行下载。
2
湖南商务职业技术学院毕业设计
1.2.3Python第三方库简介
Requests:是Python的一个很实用的HTTP客户端库,完全满足如今网络爬
虫的需求。与Urllib对比,Requests不仅具备Urllib的全部功能;在开发使
用上,语法简单易懂,完全符合Python优雅、简洁的特性;在兼容性上,完全
兼容Python2和Python3,具有较强的适用性。因为它属于Python的第三方库,
所以使用前可用pip进行安装。
Bs4:是一个可以从HTML或XML文件中提取数据的Python库。其功能简单
而强大,容错能力高,文档相对完善,清晰易懂。
Selenium:可以直接打开浏览器进行网页访问,并对网页进行点击定位等
操作。
Time:是Python中最基础处理时间的标准库。sleep()函数可让运行程
序暂停。
Lxml:是处理XML和HTML最便捷的解析器。它不仅功能种类丰富且使用时
便捷,还可以运用XPath等实现快速找到设定的元素。
NumPy:是Python语言的一个科学计算的第三方模块,NumPy模块可以构建
多维数据的容器,将各种类型的数据快速地整合在一起,完成多维数据的计算
及大型矩阵的存储和处理。因此,Python中的很多模块都是在NumPy模块的基
础上编写的。
Pandas:是基于NumPy开发的,它不仅能直观地展现数据的结构,还具备
强大的数据处理和分析功能。所以,pandas模块是Python成为强大而高效的数
据分析工具的重要因素之一。使用DataFrame函数将数据存为csv文件并可对
其进行处理与清洗等操作。
Tkinter:用于列表形式的转换。
matplotlib:是Python中最常用、最著名的数据可视化模块,该模块的子
模块pyplot包含大量用于绘制各类图表的函数。绘图类型包括条形图、散点图
等。
Wordcloud、Jieba:绘制词云图。
PIL:用于特定样式的词云图。
3
湖南商务职业技术学院毕业设计
2需求分析
2.1可行性需求分析
1、技术可行性
Python是当下时代使用最多的通用编程语言之一。项目的完成主要是通过
数据爬取、数据存储和数据清洗预处理以及数据可视化等部分来实施的,对该
项目的实施是运用Python自身强大的各种功能来实现的。在本次项目实现各部
分前,需要在Python中安装其相对应的库。由于获取的是不同城市地区的酒店
必住榜单类型运营的酒店数据,在通过查看去哪儿网酒店信息页面时,发现要
获取的酒店数据需要对其进行依次点击才可以爬取。所以在本次项目中首先需
要使用selenium对不同的城市以及各城市下的酒店必住榜单类型进行依次点
击,再运用python第三方库解析各城市下的酒店必住榜单类型的酒店数据网页
并将其获得到的数据存入csv文件中。之后再凭据存储的数据进行后期的数据
清洗预处理和数据可视化两部分的实施,又因为数据爬取、存储等各部分间关
系都很密切且层层递进,所以每个部分都要认真完成不能出现差错。
2、项目可行性
之前由于疫情的严重性,使人们在自由和出行等方面都受到了一定程度上
的限制,让往日里热闹的街道、旅游景点变得冷冷清清。几年过去,由于疫情
已经受到控制,国家宣布解封。所以外出游玩、聚餐聊天等等的人数也在大幅
度暴涨,街道等地也在回归或更胜从前的热闹,各地的旅游业、餐饮、酒店等
各行业发展也猛烈活跃起来。因为处于大数据时代,所以随着人们在互联网上
的各种行为表现也相继产生了很多数据,通过对该数据进行处理可以获得需要
的信息与结论。
本次项目是通过采集质量比较可信的去哪儿网酒店数据来分析不同城市运
营上榜的酒店发展等相关情况信息。也将从各地城市地区的实际经济发展能力
与人均消费能力、各酒店必住榜单类型的受欢迎程度以及酒店上榜的推荐理由
词频等各方面来对其进入高难度的挖掘与研究分析,从中获得有用的信息,并凭
据其相关信息进行数据可视化绘图,最后分析得出结论为酒店运营发展提供参
考。
2.2采集目标功能分析
本次项目的数据集是从去哪儿网酒店信息中获取的。它是经过python爬取
4
湖南商务职业技术学院毕业设计
去哪儿网酒店里面不同城市运营的酒店必住榜单类型数据的信息。获得的数据
共有617条,清洗去重后共有564条唯一的数据。所有酒店数据都获取完后要
确保数据的准确性和可行性,并且该数据是属于去哪儿网酒店真实存在的不同
城市运营酒店的数据内容。
经过分析去哪儿网各个城市运营的酒店网页内容,可以明显的知道爬取的
酒店参数有城市酒店榜单名称、酒店名称、评分、评价、评论量、推荐理由、
地址、价格等数据。在对最初的数据进行清洗预处理之后,将从各个方面去对
该数据进行分析及其数据可视化绘图。就好比方,从不同城市地区运营的酒店数
量对其进入深度的分析,获得哪个城市运营的酒店数量占据最多,又或者想要获
得人们在出行住宿时更倾向于选择哪种酒店类型的榜单。这样就可以根据不同
酒店必住榜单类型及其它们的已满客记录去判别哪种酒店必住榜单类型的受欢
迎程度。
2.3关键技术分析
2.3.1网络爬虫技术
在现在的大数据互联网发达的时代当中,如果平时下载的数据体积比较庞
大时,倘若还是人为自行下载的话,不用怀疑这显然是一个不太聪明人运用的
办法。对此要学会借助网络爬虫技术的帮助,让它自动性去爬取数据。
其中selenium库具有直接进行网页访问,以及对网页上的元素进行点击定
位等操作的能力。在查看去哪儿网酒店时,发现要获取的最终酒店信息是需要
首先依次点击各个城市下的酒店必住榜单类型后,才可以对其各个酒店信息进
行获取。所以是需要运用selenium库来完成对不同城市下的酒店必住榜单类型
的点击。
静态网页爬取有:一:requests库。它的代码执行要比urllib3库更简捷
明了,所以是运用它来生成请求。二:BeautifulSoup库。是应用于解析网页,
它的代码运用非常便利简洁,且它具有find_all()和find()函数定位元素
内容。在查看去哪儿网酒店时,发现要获取的酒店信息元素之间是具有联系与
规律的,且数据内容很多,所以是运用BeautifulSoup库来完成各网页解析以
及指定酒店信息的获取。三:lxml:是处理XML和HTML最便捷的解析器,在开
发者工具里右击要获取的酒店信息元素,通过复制Xpath就可以快速找到设定
的元素。在查看去哪儿网酒店时,发现要获取酒店的评价要进入各个酒店的链
接当中才可以实现,又由于只需要定位到酒店评价的元素。所以是运用lxml库
5
湖南商务职业技术学院毕业设计
来完成各网页解析以及指定酒店评价的获取。所以本次项目中就是运用网络爬
虫技术实现数据爬取。
2.3.2文件存取技术
本次项目中是运用Pandas库将获取的数据转化为DataFrame类型,再使用
to_csv()方法存入到csv文件中,如图2-1:
图2-1运用Pandas库存入csv文件
读取文件是运用Pandas中的read_csv()方法从指定csv文件中读取数据,
并使用head()指定读取前几行数据,如图2-2:
图2-2读取csv文件前10行的数据
2.3.3可视化技术
matplotlib是用于python分析数据时的绘图功能库。特点有:第一:让绘
图过程变得更简单和便捷,只运用少量代码就能完成绘图。第二:可运用多个
元素对图形进行自定义设置。第三:可将图形存储jpg等格式。第四:可让数
6
湖南商务职业技术学院毕业设计
据之间更加的直观、清晰,它是python中运用可视化途径最多的之一。
条形图能让用户在图形上直观的对x轴上的数据进行数量大小的比较。查
看csv文件时,由于想要获取不同城市运营的酒店数量的统计,所以必须运用
去重的csv文件和matplotlib中的bar等函数绘制条形图来展示数据。
条形-水平交错图与条形图的差异在:它可用于同一数据在不同方面的数量
比较,用于比较多个数据的数量。在查看csv文件时,由于想要获取各酒店必
住榜类型运营与已满员酒店数量的统计,所以必须运用未去重的csv文件和bar
等函数绘制条形-水平交错图来展示数据。
散点图主要是用于直观式的反映x与y轴数据之间的一个关系趋势。在查
看csv文件时,由于想要获取各酒店价格与其评论量之间存在着的关系趋势,
所以必须运用去重的csv文件和scatter等函数绘制散点图来展示数据。
词云图是一种用于展示高频关键词的图表,它通过文字、颜色、图形的搭
配,产生极具冲击力的视觉效果。所以查看csv文件可知,如果想要获取客户
对上榜各酒店推荐理由中出现频率较高的关键词,就必须运用去重的csv文件
和WordCloud等函数绘制词云图来展示数据。
本次项目中运用matplotlib完成条形图、条形-水平交错图、散点图的绘
制,另外词云图的绘制是运用wordcloud、jieba和PIL库完成的,其中
wordcloud、jieba:绘制词云图及其中文分词,PIL:指定词云图的形状。
3数据采集
3.1采集页面分析
本次项目在谷歌浏览器上搜索去哪儿的官方网页,点击酒店页面观察图3-1,
可以知道URL为:/。然后依次点击页面下面的酒店
必住榜一列的各城市按钮,查看URL是否发生变化,最后发现URL没有任何变化。
7
湖南商务职业技术学院毕业设计
图3-1数据网址页面
按F12,网页右边会出现开发者工具,如图3-2。
图3-2开发者工具
同时按住Ctrl+Shift+C后,再依次点击网址页面上酒店必住榜附近的城市,
这时右边会自动匹配定位到相应的元素中,观察该页面不同城市出现的规律,
右击元素会出现多个选项,选择复制,再选择复制XPath:
//*[@id="root"]/div/section/section[2]/div[1]/ul/li[1]/a。如图3-3。
8
湖南商务职业技术学院毕业设计
在该页面ctrl加f会出现搜索框,将复制的XPath放在搜索框当中。发现它
们只是li[]括号里数字不同,将括号[]删除,可以发现有11条数据。如图
3-4。
图3-3复制XPath
图3-4点击不同城市XPath的规律
9
湖南商务职业技术学院毕业设计
同理,在分别点击不同城市下面的五个不同酒店榜单时,也是通过上述的
方法来寻找XPath的规律,如图3-5。
图3-5不同城市酒店榜单的XPath
3.2字段分析
本次项目来到各城市酒店榜单类型的网页面时,同时按住Ctrl+Shift+C后,
再依次点击每家酒店信息的区域,换言之就是找到本项目中所要获得数据所在
的框架位置。可以发现所有酒店名称下的相关信息数据都是包括在div标签中
class属性为cont_box的框架下,如图3-6。需要先爬取这个大框架并把它赋
值给一个变量,然后再根据for循环依次提取大框架变量中所有关于酒店信息
的名称、地址、价格等数据,并分别把它们放在各自的空列表中。之后再将列
表里的数据存成元组形式转换为数据框(DataFrame类型),再使用pandas库
将爬取下来的酒店所有信息按照顺序存入到具有csv形式的文件中。
10
湖南商务职业技术学院毕业设计
图3-6分析数据框架页面
3.3编程实现
导入项目中所需的库,登录谷歌浏览器,搜索去哪儿网。
图3-7导入项目中所需的库页面,并进入网站
使用for循环和“{}”.format()函数可实现只用几行代码对不同城市依次
进行点击,但由于要获得每一个城市相关的所有酒店数据,若不运用time模块
让程序暂停每次爬取完每个城市的所有数据执行的特定时间,就会出现后面爬
11
湖南商务职业技术学院毕业设计
取数据内容为空的情况。
图3-8“{}”.format()函数使用页面
在函数data_all(s)中创建存放数据的空列表。再用get_attribute()函数
获取不同酒店榜单类型的链接,并对此解析网页,然后通过定位添加等操作,
再for循环爬取不同城市各酒店必住榜下的所有指定酒店数据,最后再将数据
存为csv文件。
图3-9爬取酒店数据页面
12
湖南商务职业技术学院毕业设计
图3-10爬取酒店数据页面
图3-11将酒店数据存为csv文件
4数据清洗与处理
在得到复杂的数据后,必须首先对存进csv文件里的数据内容进行预处理,
直白的来说就是数据清洗、处理和查看。认真对比获取数据的精确性与有效性,
看有没有出现异常值、缺失值和重复值,因为它是本次项目中获得城市酒店信息
质量保证的一个关键性的工作前提。不但这样还应该把数据按照一定规律与原
则进行排列,这样的话,能够让其他人员在后续中运用该数据时更便捷。
在本次项目实施时,要把爬取下来的酒店数据同网页上的原数据进行比照,
再查看csv文件中存进的数据内容是否有误。最后再凭据不同数据分析的要求
对它进行处理。
13
湖南商务职业技术学院毕业设计
4.1数据清洗
图4-1数据清洗准备页面
将获取下来的数据与原数据进行仔细比照后,可以清晰的看到它们除了有
重复值外并没有出现空值、缺失值以及异常值等。因为在后续的一些可视化绘
图中运用的数据是不需要去重的,所以这里只需要凭据drop函数,并指定要删
除的列名和axis=1将没有使用价值的列数据删除掉,这同时也是为了制止数据
冗词的出现。是故必须存留在项目中需要运用到的数据,将它们处理好后,并
重新存进到一个data.csv文件中。然后又因为在另一些分析要求的可视化绘图
中运用的数据是需要去重的,所以这时只要将data.csv文件中的数据使用
drop_duplicates函数进行去重,并重新存进到另一个新的data_qu.csv文件中。
这两个文件将用作后续的不同分析要求的数据统计与可视化绘图中运用。
14
湖南商务职业技术学院毕业设计
图4-2data.csv数据清洗完成界面
图4-3data_qu.csv数据清洗完成界面
4.2数据储存
将爬取的数据进行存储时,有多种保存办法。数据存储大体上有三大类:
一类主要由txt文本格式、json文件形式、excel以及csv文件格式存储等构
成,二类是关系型数据库存储,它比较常见的有MySQL等数据库。三类是非关
系型数据库存储,它比较出名的有Mongodb等。
15
湖南商务职业技术学院毕业设计
在本次项目中运用到的数据存储办法是存为csv文件。如图4-4:
图4-4数据存储为csv形式页面
5数据统计与分析
5.1数据准备
导入同数据有关的库,再运用pandas加载源数据,如图5-1、5-2、5-3。
16
湖南商务职业技术学院毕业设计
图5-1数据准备页面
图5-2数据加载页面
图5-3数据加载页面
17
湖南商务职业技术学院毕业设计
5.2数据展示
5.2.1凭据运营城市进行统计
图5-4各城市上榜的酒店数量数据展示
因为是对各个城市运营的酒店进行统计,所以使用去重后的csv文件。把
文件当中城市酒店榜单名称一列的数据进行指定处理、归总及其再处理后,再
把处理后的不同城市名称进行总计次数,最后将其放入新建的空列表中作为y
轴,再生成条形图。如图5-4中可以清晰的注意到成都运营的酒店数量最高,其
次就是昆明、杭州运营的酒店。能够在去哪儿网酒店的酒店必住榜上榜,也足
够证明它们各自都是当地城市运营酒店整体当中经营质量效果不错的,而且它
是经过综合各方面数据得出的不同城市运营的酒店必住榜。
通过图形观察,还注意到运营的酒店都是上了酒店必住榜的榜单,各城市间
的不同只是酒店上榜数量的差别。从图中上榜酒店数量分析可知成都地区运营
的酒店质量是这几个城市当中发展最朝上的,其它城市运营的上榜酒店发展数
量相差不多。酒店管理结业者或热衷于该倾向的可以尝试到最向上的成都地区
工作,因为在这个城市里他们有可能获得受益匪浅提升学习的机会和发展,而且
这里还有不少有权威的公司在此发展,所以说它关于个人的未来有着无法想象
18
湖南商务职业技术学院毕业设计
的吸引力。各地城市运营的上榜酒店数量占比例越高,从另一个角度上可以知
道:该城市地区的实际经济发展能力比较高以及酒店内部关于人才管理的注重
与重视,所以在该城市运营的酒店里上班的人大程度上比较杰出。
5.2.2凭据酒店必住榜类型运营与已满员酒店数量进行统计
图5-5酒店榜单类型运营与住宿已满员的酒店数量数据展示
从图5-5中可以清晰注意到去哪儿网上榜的酒店必住榜类型占数量最多的
是必住亲子酒店榜单,另外是热门推荐榜。其中必住青旅酒店榜单等酒店必住榜
类型都是占数量相对而言没有那么多。简单的思考一下,为何要将经营的酒店
进行榜单分类?
其实这个答案是贴切人们的实际生活的。不同的酒店必住榜类型是为了满
足适合于各种客户住宿类型而设立运营的。酒店必住榜的类型不仅仅可以转变
酒店运营的发展模式,还可以为客户提供一些更利于他们直接自主选择酒店住
宿的方法。酒店经营者吸引客户住宿所采取的方式,都是在互联网上通过收集
各种客户外出同行的类型以及他们关于住宿酒店环境等各方面的要求信息情况,
来决定把酒店规模类型建设成当下大众客户心目中的发展模式,以便于能更好
的吸引客户和运营酒店的发展。
19
湖南商务职业技术学院毕业设计
就好比如必住亲子酒店榜单,绝大半出去旅游的一家人都是直接在必住亲
子酒店榜单上选择心仪的酒店住宿,而且从这个条形图当中可以很清晰直白的
看到必住亲子酒店榜单在去哪儿网的酒店必住榜类型的酒店数量中占有155,且
该酒店必住榜类型客户住宿已满员的数量也是占据最多的。从中可以分析外出
的群体极大可能是亲子类型的,以至于对必住亲子酒店榜单类型的酒店住宿需
求量相对而言比较大,另外一个方面则反映了必住亲子酒店榜单和热门推荐榜
类型所经营的酒店发展质量在整个酒店必住榜类型行业中占有自身很大优势和
地位的。其中热门推荐榜与必住亲子酒店榜单运营酒店和已满员的数量差不多,
只相差6、4家。从中可以知道这二种酒店必住类型是适用人群类型中对不同客
户受欢迎的程度最高的前二个,虽然试睡员推荐榜和必住度假酒店榜单在酒店
必住榜当中且它们经营的酒店数量要比必住青旅酒店榜单的酒店数量要多,但
是它们已满房的酒店数量却是最低的。从这里可以获得一个结论:一个酒店必
住榜类型经营的酒店数量的多少并不能真正确定受不同群众欢迎程度的高低,
而是要从多个角度去确定,并且它们两者之间的关系并不一定是成正比关系的,
但是在很大水平上也是有联系的。酒店必住榜的类型是运营酒店发展的外部因
素。
5.2.3凭据酒店的价格与评论量进行统计和分析
图5-6各酒店价格与其评论量关系的数据展示
20
湖南商务职业技术学院毕业设计
使用去重后的csv数据文件中读取特定的价格和评论量两列。但是由于文
件中价格一列里面的数据类型为字符串,所以要对其进行相关的处理,然后再
分别对两列数据读取放入到新建的空列表中作为x、y轴上的数据,最后再可视
化绘图成散点图。如从图5-6中可以很清晰的看到评论量最高的可达有1.6万
次评论,价格大概在2200元前后;其中过半数的价格都聚积在2000元以下。
从图中还可以发现在价格普遍来讲比较高的酒店中,它的评论量相对来说
比较低。而相对于价格比较中等优惠的酒店来讲,则它的评论量相对而言处于
中等水准。从中可以知道:当价格超出人们预算消费能力时,去该酒店住宿的
客户就相对而言比较少,以至于其评论量也会比较低下,所以该酒店的运营发
展没有相对于价格比较中等优惠运营的酒店发展更好。因此这里可以清晰的发
现价格是客户外出住宿酒店消费的主导因素。
21
湖南商务职业技术学院毕业设计
5.2.4凭据酒店推荐理由进行统计
图5-7各上榜酒店推荐理由的词频数据展示
把文件当中列名称的推荐理由数据进行归总和处理,再依据总计处理推荐
理由一列中出现率高的词频形成指定的序列,并把指定序列中形成的数据凭据
相应的词频形成词云图。如图5-7中可以清晰的注意到在该图中酒店、房间、
很好、可以等等词出现的次数占比例最高,另外便是方便、环境、干净、服务、
免费等等出现的次数相比较而言比较高。从在去哪儿网上所有上榜酒店名称的
推荐理由上能够出现多次这一点来看,也足够证明这些城市上榜酒店的质量是
值得住宿者信任和选定的。
另外一个角度而言,也可以知道,它们关于酒店内部管理人员在培养和制
定方案上的重视、酒店本身制度的完善以及酒店的自身优势与能力。所以,如
22
湖南商务职业技术学院毕业设计
果想要各城市地区经营的酒店发展好以及同时质量有保证,那么酒店经营者就
应该在酒店内部的环境,服务,房间,住宿等各方面进行查看、自我反省和完
善,向经营好的酒店取其精华的学习。
5.3综述
由上述得知,成都是酒店上榜经营行业数量的领头羊。热门推荐榜与必住亲
子酒店榜单是运营酒店数量最多的酒店必住榜类型,另外便是必住情侣酒店榜
单。热门推荐榜和必住亲子酒店榜单是如今大众外出选择酒店住宿,从而导致
住宿已满员数量排行前二的酒店必住榜类型。推荐理由中相同且出现的评价频
率越高,从而可以知道其上榜酒店的质量是有一定保障和信任的。
经过对去哪儿网酒店必住榜不同城市酒店数据的爬取,获得了不同城市经
营的酒店在酒店必住榜的类型以及相关数据,通过数据解析获得了如下关于酒
店运营发展更好的结论:一:本身地域经济发展因素:成都在酒店上榜经营行
业的数量上遥遥领先。二:外部因素:热门推荐榜和必住亲子酒店榜单是当下
运营酒店数量和大众外出选择酒店住宿受群众欢迎程度都最高的前二种酒店必
住榜类型。三:价格是客户外出住宿酒店消费的主导因素。四:内部因素:凭
据各上榜酒店的推荐理由中出现相同词的频率次数所形成的词云图,可以发现
各上榜酒店的共同点是:酒店内部管理人员的培养与重视、酒店本身制度的完
善以及酒店的自身优势与能力。所以酒店经营者可以凭据上述各结论准备关于
酒店经营发展更好以及质量有保证的参考。
6小结
世界正在争分夺秒的朝上进步,人类也随着时代的发展向美好的未来靠近。
在现在的大数据信息时代的面前,所有事物包括人都将变得透明、无处躲藏。
生活在这个时代的人们关于在网络上的登记、注册,浏览、预定酒店、挂号等
各种行为动作必将出现庞大的数据。正是基于这一方面,让软件
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 将优 质 服务进行到底
- 2024年食品定制加工服务合同版B版
- 酒店商务会议参与者接待标准
- 农民工薪酬支付的社会影响
- 养殖业保险理赔协议书
- 城市供热养护机械租赁
- 企业现金管理策略
- 智能农业项目招投标指南
- 企业文化传播承诺书
- 体育训练捐赠合作规则
- GB/T 1094.7-2024电力变压器第7部分:油浸式电力变压器负载导则
- 电大西方行政学说
- 2024-2025学年人教版数学七年级上册期末复习卷(含答案)
- 2024年度中国PE、VC基金行业CFO白皮书
- 2023年南京市江宁区招聘教师考试真题
- 纪念毛同志诞辰131周年主题班会-缅怀伟大领袖奋斗新的征程课件
- 中南大学《物联网原理及应用》2022-2023学年第一学期期末试卷
- 机动车检测站新换版20241124质量管理手册
- 2025版国家开放大学法律事务专科《法律咨询与调解》期末纸质考试单项选择题题库
- 广东省深圳市2023-2024学年高一上学期期末考试物理试题(含答案)
- 2024小学数学义务教育新课程标准(2022版)必考题库附含答案
评论
0/150
提交评论