




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
湖南商务职业技术学院毕业设计
目录
1引言................................................1
1.1项目背景.................................................1
1.2开发环境与工具...........................................2
1.2.1python简介...........................................2
1.2.2JupyterNotebook简介.................................2
1.2.3第三方库.............................................2
1.2.4Pycharms简介.........................................3
2需求分析............................................3
2.1可行性需求分析...........................................3
2.2采集目标功能分析.........................................4
2.3关键技术分析.............................................5
2.3.1网络爬虫技术.........................................5
2.3.2文件存取技术.........................................5
2.3.3可视化技术...........................................5
3数据采集............................................6
3.1采集页面分析.............................................6
3.2编程实现.................................................7
4数据清洗与处理.....................................10
4.1数据清洗................................................10
4.2数据储存................................................11
5数据统计与分析.....................................12
5.1数据准备................................................12
5.2数据展示................................................13
5.2.1依据北京酒店评价进行统计.............................13
5.2.2依据北京酒店价格进行统计.............................14
I
湖南商务职业技术学院毕业设计
5.2.3依据北京酒店水平进行统计和分析.......................16
5.2.4依据北京酒店点评数进行统计和分析.....................17
5.3综述....................................................17
6小结...............................................18
参考资料.................................................18
II
湖南商务职业技术学院毕业设计
基于Python的住哪儿网北京酒店数据采集与分析
1引言
在当今信息过载的时代,企业面临着海量信息的挑战。这些信息中只有极少
部分有用,大部分都是无关紧要的垃圾信息。要应对这个挑战,企业需要用有用
的措施进行数据分析,根据数据进行处理之后,熟悉客户的需求和行为,提供愈
加个性化和精准的产品和服务,以提升客户满意度和忠诚度,从而实现收入和市
场份额的增长。但是,从海量信息中找出有用的数据进行分析是一个难题。因此,
越来越多的企业开始注重有效信息的采集和收集,进行数据清洗和筛选,以便更
好地利用有价值的信息。这样,企业才能从海量信息中挖掘有用的数据,并进行
精准的分析和利用。挖掘出的有效信息不仅有助于消费者做出选择,也是现代企
业必不可少的发展道路,使两者都受益。因此,数据的采集和分析在生活和生产
过程中是发展极为关键的因素。同时,数据分析还需要结合人工智能和机器学习
等技术,以更好地发现数据之间的关联和趋势,并提供更加准确的预测和建议。
通过数据分析,企业可以发现新的商机和市场机会,挖掘潜在客户,开拓新的业
务领域,提高企业的创新能力和竞争力。在数字化转型的趋势下,数据分析已经
成为企业成功的关键因素之一,未来的重要性将会不断增加。因此,企业需要不
断适应和应对信息的变化,用数据分析技术来优化业务,提高效率和效益,取得
更大的市场份额和利润。
1.1项目背景
随着互联网的不断发展,从最初的信息传递、沟通交流、娱乐消遣,到如今
已经渗透到了我们日常生活的各个方面,互联网的快速发展,带来了很多便利,极
大地改变了我们的生活,各种APP软件也应运而生,这些软件不仅能够满足人们
的需求,而且还能让人们获得更多的知识,丰富自己的见识,例如我们常见的抖音、
小红书、B站各种短视频以及像旅游酒店订购网站、小程序的功能已经非常的完
善与实用。目前,各类短视频涌现出了很多的探店体验和景点打卡视频,让人们
也可以线上了解不同地区的风土人情,萌生了人们对旅游的想法,便会到网上找
攻略与路线。而出门便少不了对酒店或者民宿的订购,作为中国首都的北京,每
年的游客量极为庞大,不管是游客们做攻略,还是企业去迎合游客的口味都离不
开数据的支撑,但是数据多而乱只会让人迷失方向,此刻数据有效数据就显得极
为重要了,因此我的毕业设计基于住哪儿网站爬取了北京地区的酒店信息的相关
数据,并对获取的数据信息进行分析与处理,将数据产生有效价值为企业和消费
1
湖南商务职业技术学院毕业设计
者所用。
1.2开发环境与工具
本次北京地区酒店数据信息的从住哪儿网站爬取,实现的步骤为数据采集、
数据清洗、数据处理、数据存贮以及数据的可视化画图展示,使用了python爬
虫技术、数据预处理技术、可视化技术,本次项目使用的主要开发工具有Pycharm、
JupyterNotebook、MicrosoftExcel。
1.2.1python简介
Python是一种高级编程语言,由GuidovanRossum于1991年发布。Python
是一种解释性语言,具有简单易学、可读性和可扩展性的Python特性。Web开
发、数据科学、人类智能、机器学习、自然语言处理、科学计算、网络编程、游
戏开发等领域。Python有很多优点,包括:
1.语言简单单:Python的语言设计简洁、清澈,易于阅读和学习。
2.开源免费:Python是免费的,可以免费本地使用和分发。
3.库丰富:Python拥有大量的库和框架,可以很方便地实现许多功能,例
如数据分析、图形界面设计等。
4.交互性:Python解析器可以交互方式运行,方方便用户快速测试代码。
5.面向象:Python是一种面向象的语言,支持类、面向象等概念
1.2.2JupyterNotebook简介
JupyterNotebook的强大之处在于它能够让数据科学家、研究人员、工程师
和开发人员快速地进行数据分析、可视化和建模。其强大的交互性和可视化界面,
使得代码的编写、调试和展示都变得更加直观、方便。JupyterNotebook也为学
术研究提供了很大的帮助,研究人员可以轻松地展示他们的工作流程和结果,从
而提高研究的可重复性和可信度。JupyterNotebook也广泛用于机器学习和深度
学习的开发和实验,这些应用通常需要快速迭代和可视化来调整和优化算法。总
的来说,JupyterNotebook使得数据分析和科学计算变得更加高效、直观和易于
共享。
1.2.3第三方库
Request:在Python中,requests库是一个常用的第三方库,用于处理HTTP
请求和响应。它提供了一个简单而易于使用的API,使用得发送HTTP请求请求。
对于网络爬虫来说是很重要的工具。
Numpy:NumPy是Python中一个重要的数学库,NumPy可以有效的处理大型
2
湖南商务职业技术学院毕业设计
数据集,因为它是基于数据组的,可以在内部存储中高效存储和处理大型数据集。
对于爬下来的数据进行处理分析极为重要
Pandas:pandas是一分析库提供了两种主要数据:series和dataframe,
Pandas可以处理表格数据、CSV文件、SQL数据库等,可以读取、转换、替换、
分类。Pandas提供了许多数据清理工具,包括数据重组、重新采集样、去重、
缺失值处理等,可以帮助我们的合理清洗数据
Matplotlib:matplotlib是python中一可视化库,可以生成高质量、精美
的图表,包括复杂的科学图表、统计图表、工程图表等,可定制性强。
Wordcloud:词云词是一种可视化技术将文本出现出现频率较高的单词以云
状图形式展示出来。
1.2.4Pycharms简介
PyCharm它提供了许多工具和功能,可以帮助Python开发者更高效、更方
便地进入Python。
pycharm提供许多工具,包括开发工具,包括代码自动补全,代码格式化,
代码重构,代码审查。PyCharm支持多种Python库和框架,例如NumPy、
Pandas、Django、Flask等,可以方便地进行Python开发和测试。
总之,PyCharm作为一款功用强大、易用性高的Python集成开发环境,能
够协助Python开发者更快速、更高效地开发Python应用程序。
2需求分析
2.1可行性需求分析
1.技术可行性
本次项目通过爬虫requests、Beatifulsoup等库的使用,对数据进行获取,
通过使用数据清洗和预处理的手段,获取有效信息,最后进行数据可视化。主要
获取的是住哪儿网北京地区的酒店信息,此网站的反爬手段较少,获取信息不难。
我们将获取的信息以csv文件进行保存之后,使用juyernotebook对数据进行
查看会更加直观明了,清洗数据方面会更加轻松,最后再通过使用清洗后的数据
进行画图,按照需求的不同画出不同类型的图形即可。
以上为此项目的技术可行性,过程的步骤分为获取信息、数据处理与清洗、
画图共三步,后续会将保证项目的准确性与安全性。
2.项目可行性
酒店业是一个多元化的行业,它不仅提供各种住宿服务,而且还提供多种餐
饮服务,这种多元化服务拉动了社会经济发展,并且酒店业拥有众多的就业机会,
3
湖南商务职业技术学院毕业设计
解决了部分人就业问题。最重要的是酒店业是旅游业发展的重要组成部分,它为
游客提供了住宿服务,有助于游客体验更多的旅游景点,从而促进旅游业的发展。
数据采集有助于酒店企业更好的识别客户的行为模式、了解客户需求,并且数据
采集分析有助于酒店企业更好的掌握市场动态,从而更好的定价和调整服务。
此外,酒店业还是一个具有广泛影响力的行业,它与其他行业如交通、零售、
娱乐等密切相关,互相促进和支持,形成了一个庞大的产业链。酒店业在提供住
宿和餐饮服务的同时,还为社会创造了巨大的经济效益和就业机会。同时,随着
数字化技术的不断发展,酒店业也在积极探索数字化转型之路,将信息化、智能
化等技术应用于酒店服务的方方面面,提高服务效率、提升客户满意度。
因此,经过对酒店信息的采集和分析,酒店企业可以更好地了解客户须要,
不断优化产品和服务,提升提高客户满意度,从而在激烈的市场竞争中立于更高
的地位。同时,酒店企业还可以通过数据分析掌握市场趋势和动态,及时制定和
调整市场策略,实现更好的经济效益和发展。本次项目是通过对酒店信息采集的
数据,分析出北京地区各酒店的评价、价格、服务态度等信息进行比对,调整和
制定最优的解决方案。
2.2采集目标功能分析
本次项目的数据集来源于住哪儿网站,爬取的是北京地区的酒店信息。北京
作为中国的首都,拥有着丰富的历史文化和著名的旅游景点,其客流量一直保持
着较高的状态,为酒店行业贡献了不少的收入。该数据集中包含了1300条有效
的酒店信息,其中每个酒店的数据包括酒店名、酒店地址、酒店评分、酒店水平、
点评数及酒店价格。
通过对这些数据进行清洗和分析,可以得到许多有用的信息。例如,对酒店
的价格进行分析可以发现前十个酒店的价格都比较高,说明北京地区的酒店价格
相对较贵。另外,通过对点评数的分析可以发现前十个酒店的点评数都比较高,
说明这些酒店受到了较多游客的关注和喜爱。此外,对北京酒店最多的评价关键
词进行分析也可以获得有用的信息。通过对评价关键词的分析可以发现,北京酒
店评价关键词中排名前三的是“位置好”、“服务好”和“干净卫生”,这也反映
了北京地区酒店客户的主要需求。最后,对酒店被评价水平的占比进行分析也可
以为酒店行业提供有价值的参考。通过对数据集中酒店被评价水平的占比进行分
析,可以了解北京地区酒店的整体评价水平和客户的满意度。
总的来说,这份数据集提供了有用的信息和洞察,对于酒店行业从业者和旅
游从业者来说都是有价值的参考。通过对数据的分析和应用,可以更好地了解北
京地区酒店行业的状况和客户需求,为行业发展提供有力支持。
4
湖南商务职业技术学院毕业设计
2.3关键技术分析
2.3.1网络爬虫技术
使用爬虫技术去爬取网站的酒店信息,可以快速地获取大量的酒店信息,并
且可以自动化地进行数据处理和分析,并且能够精准的获取你的目标数据,从而
减少人工操作所需的时间和成本,以下是我爬取酒店数据的方案:
确定目标网站:本次项目爬取的酒店信息所在的网站为去哪儿网,它里面提
供了80多万家酒店预定服务,可靠性较高。在爬虫之前需要了解该网站的结构
和内容,以便为后续的爬取做好准备。
确定爬取内容:本次项目爬取的酒店数据为酒店名称、地址、价格、评分等。
确定爬取策略:本次项目使用Requests库向网站发送HTTP请求,使用
BeautifulSoup库解析HTML页面源代码,并从中提取需要的信息。
编写爬虫程序:根据爬取策略,本次项目使用Python语言编写爬虫程序。
需要在程序中设置起始URL,对目标网站进行遍历,按照需要的方式进行解析,
提取所需的信息,并进行数据持久化和存储。
2.3.2文件存取技术
Python使用dataframe存为csv文件如图2-1显示:
图2-1使用dataframe存为csv文件
Python使用dataframe读取csv文件如图2-1显示:
图2-2读取csv文件
2.3.3可视化技术
数据可视化技术是一种将数据通过图形、图表的形式将数据更加清晰及生动
化。它有助于理解数据,从而发现数据中的规律、趋势和关系,对于决策、规划、
预测等方面都具有重要的应用价值。而在酒店行业中,可以帮助管理者了解市场
5
湖南商务职业技术学院毕业设计
需求、竞争情况等信息,从而更好地制定营销策略和业务计划。将爬取后酒店信
息进行数据可视化通常需要经过以下步骤:
数据清洗和整合:将本次项目爬取到的酒店信息进行清洗和整合,处理缺失
值、异常值等,确保数据的准确性和一致性。
选择可视化工具:本次项目所使用的可视化工具为Python中的Matplotlib
画图
选择合适的图表类型:根据数据的特点和目标,选择合适的图表类型,本次
项目所使用的是直方图、饼图及词云图等。
分析和解读可视化结果:根据可视化结果进行分析和解读,发现数据的规律
和趋势,得出结论和建议。
综上所述,本次项目会使用到的画图工具有matplotlib,通过直方图来反
映北京地区酒店各价格区间,使用饼图反映酒店水平的占比,使用词云图统计评
价最多的词并呈现出来。总之,可视化技术在数据分析、决策和沟通方面都具有
重要的应用价值,它可以帮助人们更好地理解和掌握数据,并从中发现有价值的
信息,提高效率和生活品质。
3数据采集
3.1采集页面分析
我们首先通过使用谷歌浏览搜索住哪儿网官方网页,进入页面后搜索关键词
北京网址/点击检查可以看到各页面网址如图3-1、3-2,
可知共有65页。图3-3可以找cookie和user-agent。
图3-1数据网址网页1
6
湖南商务职业技术学院毕业设计
图3-2数据网址网页2
图3-3网址表头信息
3.2编程实现
导入所需库
图3-4导入所需库页面
设置请求头,伪装成浏览器访问服务器。
7
湖南商务职业技术学院毕业设计
图3-5请求头内容页面
完整代码实现如下:
8
湖南商务职业技术学院毕业设计
9
湖南商务职业技术学院毕业设计
4数据清洗与处理
对于数据集而言,数据清洗的重要性更加突出,因为数据集往往来自多个来
源、不同的格式和质量不一的数据源,其中可能包含大量的噪声、缺失值、异常
值和不一致数据等问题,这些问题会对数据分析的准确性和可靠性产生负面影响。
数据清洗可以帮助解决这些问题,从而为数据分析提供更加准确和可靠的基础。
通常可以更容易地被数据可视化,因为数据可视化需要数据是准确、完整、
一致和规范化的数据,所以充分清洗后的数据更加干净和准确,可以提高数据质
量、分析效率和成本效益。
4.1数据清洗
图4-1数据清洗准备页面
经过数据对比和检查,发现数据有空值,那么我们需要将带有空值的行去除,
保留有效数据,最后存为csv文件,便于数据可视化分析。
10
湖南商务职业技术学院毕业设计
图4-2删除带有空值的行
图4-3数据去重
通过对数据清洗后发现数据从1499条数据清洗之后变为1300条数据。
4.2数据储存
使用pandas库中的to_csv函数可以将数据存为CSV文件,该函数可以将
11
湖南商务职业技术学院毕业设计
pandas数据结构(如DataFrame或Series)保存为CSV格式的文件。
图4-4保存为csv文件
图4-5查看保存后的csv文件
5数据统计与分析
5.1数据准备
导入相关库,使用pandas加载源数据
12
湖南商务职业技术学院毕业设计
图5-1数据准备页面
5.2数据展示
5.2.1依据北京酒店评价进行统计
图5-2数据展示页面
词云图是一种基于文本数据的可视化方式,通过以上的词云图可以发现,出
现关键词为“好”、“服务态度”、“方便”、“装修”、“性价比”、“地理位置”、“服
务周到”、“设施”等关键词越大和鲜艳代表文中出现的频率越高,客户强调和最
13
湖南商务职业技术学院毕业设计
在意的地方,便是酒店行业最应该改进和满足的地方。通过以上关键词结出:
地理位置和便利性:消费者通常会选择离商业区、旅游景点、交通枢纽等地
理位置较近且交通便利的酒店。
价格和性价比:消费者会关注酒店的价格水平,并会比较不同酒店的性价比,
以确定自己的预算和需求是否匹配,消费者最害怕的便是‘价不配位’价格很高,
但是却没有达到预想的期望,会严重影响消费者的体验。
酒店的服务态度:消费者会注重酒店的服务质量和体验,酒店需要提供周到、
专业、礼貌的服务,为消费者提供愉悦的住宿体验,包括前台接待、餐饮、房间
服务、安保等方面。
环境质量:保持酒店整洁和卫生是获得良好口碑的基础,消费者会对酒店房
间、公共区域、餐饮等方面的卫生情况进行评估,良好的环境会提升消费者对酒
店的好感度,提升消费者的睡眠质量,使消费者更加安心与放心。
设施和配套服务:消费者会关注酒店的设施和配套服务,如会议室、停车场、
早餐等。
总的来说,消费者对北京地区酒店的评价总体来说挺不错,酒店想要长远发
展需要从多个方面提高服务质量,营造舒适、便利、干净、高品质的住宿环境,
这样才能赢得消费者的信任和好口碑。
5.2.2依据北京酒店价格进行统计
图5-3北京酒店价格直方图数据展示页面
直方图将数据按照一定的价格区间进行分组,然后统计每个区间内数据出现
14
湖南商务职业技术学院毕业设计
的次数或频率,将结果绘制成一个由多个矩形组成的图形,矩形的高度表示该区
间内数据的数量或频率。通过观察直方图的形状,可以了解到数据的分布特征。
从以上图表可以看出,价格在1000元以内的酒店数量是最高的,其次是1000元
到2800元,而价格最高的为7000元,北京地区的酒店价格通常会按照酒店的星
级进行分级,一般来说,酒店的星级越高,价格也就越贵。
北京酒店的价格制定是一个复杂的过程,需要综合考虑多个因素。酒店通常
会根据市场需求、成本和预期利润等因素制定价格策略,以最大程度地提高利润
和市场竞争力。而消费者会根据自身的情况选择不同类型的酒店,但是一般来说,
大部分的旅客会选择性价比较高的酒店,所以酒店大多数酒店以经济舒适为主,
但是此时若出现一种性价比高基础设施又较为高的酒店,更会得到消费者的喜爱。
可以从以下两点入手:
控制成本:控制酒店的成本也是提高性价比的关键。可以通过优化采购、节
约能源、降低人力成本等方式控制成本,以确保酒店可以在提供高质量的服务的
同时,保持合理的价格水平。
提高运营效率:提高运营效率可以有效地降低酒店的成本。可以考虑使用酒
店管理软件来优化预订、结账等流程,提高工作效率,减少人力成本和运营成本。
总之,要做一个性价比高、基础设施较为高的酒店,需要全面考虑酒店的各
个方面,从设施和服务到成本控制和市场推广,不断优化和改进,以提高客人的
满意度和忠诚度。
15
湖南商务职业技术学院毕业设计
5.2.3依据北京酒店水平进行统计和分析
图5-4北京酒店水平饼图展示页面
此饼图是一种用来表示北京酒店水平比例的图表,通过将水平分成若干部分,
每部分所占的比例与总体相应部分的比例成正比来显示数据的比例关系。饼图的
主要用途是展示数据的相对大小或占比关系,适合于呈现分类数据的总体结构和
各部分之间的比例关系。从图中可知,占比最高的为51.4%水平为“超棒”,其
次依次为“棒”、“很好”、“好”,最低的评价为“不错”。说明北京酒店的评价总
体来说不错,但是也存在消费者不太满意的情况,酒店应该重视起来,改进服务
质量,通过消费者的评价,酒店可以了解到客户的真实反馈,从而对服务和设施
进行改进,提高客户满意度和口碑。
16
湖南商务职业技术学院毕业设计
5.2.4依据北京酒店点评数进行统计和分析
图5-5北京酒店点评数直方图展示页面
消费者对酒店的评价数量的多少可以反映酒店的知名度和受欢迎程度。如果
一个酒店收到的评价数量较多,说明该酒店的客源较广,且消费者对该酒店有比
较多的关注和期待。此外,如果一个酒店收到的评价数量较多,也意味着该酒店
的信息流通较快,消费者更容易在网络上了解到该酒店的情况,从而增加预订率。
另外,消费者对酒店的评价数量还可以反映该酒店在客户心目中的重要性。
如果一个酒店收到的评价数量较多,说明该酒店对消费者来说是一个重要的选择,
具有一定的影响力和知名度。这也意味着,该酒店需要更加注重服务质量,不断
提高自身的竞争力,以便在激烈的市场竞争中脱颖而出。
5.3综述
基于以上对酒店统计及分析可以从酒店服务水平、价格、地理位置、评价数、
评价分数及评价内容得出以下结论:
1.高质量的服务水平:消费者往往会关注酒店的服务水平,包括员工的态度、
服务的质量、房间清洁程度等。如果酒店能够提供出色的服务体验,消费者将更
有可能留下积极的评价。
2.合理的价格:消费者对于酒店的价格也非常敏感。如果酒店的价格过高,
可能会导致消费者的不满意和评价下降。因此,价格应该合理,符合市场标准。
17
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粘土砖瓦市场营销策略考核试卷
- 稀有稀土金属压延加工质量控制技术考核试卷
- 民宿的设计与开发
- 空气呼吸器的使用方法
- 耳缘静脉麻醉技术规范
- 外科消毒隔离管理规范
- 慢性疾病防治与管理要点
- 眼睑肿物切除皮瓣设计
- trans-Clopenthixol-E-Clopenthixol-生命科学试剂-MCE
- BMS-309403-Standard-生命科学试剂-MCE
- T-CCIAT 0044-2022 智慧园区以太全光网络建设技术规程
- 2022年全国工会财务知识大赛参考题库精简600题(含各题型)
- 新教材教科版五年级下册科学全册课时练(课后作业设计)(含答案)
- 广西基本医疗保险异地就医备案登记表-示例样表
- 供应商绿色环保环境管理体系评估表
- GB∕T 11344-2021 无损检测 超声测厚
- 外科无菌操作技术PPT学习教案
- 《云南省建筑工程资料管理规程应用指南)(上下册)
- 数列求和中常见放缩方法和技巧(含答案)
- 宝兴县中药材生产现状及发展思路
- 胸外科围手术期的气道管理.ppt
评论
0/150
提交评论