版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目背景餐饮行业历史悠久,伴随着互联网的兴起,餐饮行业不得不从“酒香不怕巷子深”转变为服务至上、用户体验至上的运营模式。外卖行业更是直接把传统的餐饮行业拉进了互联网时代,无论是对外寻找精准客户群,还是对内进销存管理,都需要根据数据分析调整运营策略。越来越多的餐饮广告出现在视频广告,交通工具和城市大街小巷,然而也从来没有哪个时代的餐饮业像今天这样竞争激烈、快进快出,餐饮竞争的加剧使得餐饮品类在持续分化。大数据在这种变化中起到了至关重要的作用,如今的餐饮行业很多都会在抢购热潮来临之前,使用大数据来分析消费趋势,以此在美食热潮中获得更多收益。随着社会经济的快速发展,消费者的需求和偏好一直在改变。餐饮行业需要对地域、受众人群、流行趋势进行总体分析,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客的消费数据做出分析,设定未来市场经营策略,以便获得更好的发展。为完成该项任务,你所在的小组计划选用在业界广泛应用的Python和JAVA语言,作为整个项目的基础语言,并综合利用scrapy框架、MapReduce、MySQL、Flask框架(Jinja2模板引擎)、ECharts组件等技术,提高开发效率并实现项目要求,通过在离线网站上爬取到的相关信息,使用Python等手段对数据进行爬取、清洗、整理、计算、表达、分析,力求实现对未来餐饮重点战略方向提出建议。作为该小组的技术人员,你们是这次技术方案的核心成员,请按照下面步骤完成本次技术展示任务,并进行综合分析。祝你们成功!环境参考信息:编号任务类型用户密码1Hadoop平台部署master主节点rootpasswd2slave1从节点rootpasswd3slave2从节点rootpasswd4数据采集网站5数据清洗分析节点hadooppasswd6数据可视化节点restaurantrestaurant相关软件安装包在/h3cu目录下。任务中涉及的所有命令请均使用绝对路径。相关提交报告模板在桌面文件夹“竞赛提交文档”下,文件名为“2020年山东省大数据技术与应用省赛提交结果文档--工位XX.docx”,根据实际工位号修改文件名中的“XX”,另存为PDF格式提交。任务一环境搭建(15分)HadoopHA部署本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:1.在master节点将/h3cu下的JDK包解压到/usr/local/src,将执行命令复制粘贴至提交结果文档。2.设置JDK环境变量,并使环境变量只对当前root用户生效;将环境变量配置内容复制粘贴至提交结果文档。3.从master节点复制JDK环境变量文件.bash_profile到slave1、slave2节点,命令和结果复制粘贴至提交结果文档。4.配置SSH密钥登录,实现从master节点登录到slave1节点,配置完成后,使用SSH免密登陆slave1节点的命令和结果复制粘贴至提交结果文档。5.Zookeeper配置完毕后,启动Zookeeper,在slave2节点启动Zookeeper,查看Zookeeper状态,将命令和结果复制粘贴至提交结果文档。6.在Zookeeper、HadoopHA配置完毕后,在master节点启动(同时启动datanode节点)并查看进程状态,将命令和结果复制粘贴至提交结果文档。7.HadoopHA配置完毕后,在slave1节点查看进程(slave1节点作为namenodestandby节点),将命令及结果复制粘贴至提交结果文档。二、Sqoop部署说明:master节点MySQL数据库用户名/密码:root/Password123$1.解压/h3cu路径下的Sqoop安装包到“/usr/local/src”路径下,并使用相关命令,修改解压后文件夹名为sqoop,进入sqoop文件夹,查看文件夹内容,并将查看命令及结果复制粘贴至提交结果文档;2.修改只对当前root生效的环境变量,将环境变量配置内容复制粘贴至提交结果文档;3.修改并配置sqoop-env.sh文件,编辑配置文件命令及配置文件内容,将配置文件内容复制粘贴至提交结果文档;4.测试Sqoop连接MySQL数据库是否成功。使用sqoop命令连接MySQL数据库,查询MySQL中所有数据库名称,将命令和结果复制粘贴至提交结果文档。任务二数据采集(20分)1.网站解析,利用chrome查看网页源码,分析餐饮网站网页结构。打开餐饮网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;检查网站:浏览网站源码查看所需内容。2.从餐饮网站中爬取需要数据,按照要求使用Java或Python语言编写并完善爬虫代码,爬取指定数据项,并将代码复制粘贴至提交结果文档。具体步骤如下:创建爬虫项目;构建爬虫请求;按要求定义相关字段;获取有效数据;将爬取到的数据保存到指定位置。至此已从餐饮网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。详细数据描述:已创建scrapy项目CateringScrapy(路径:C:\catering_crawl)。本任务要求从餐饮网站(网站地址在竞赛平台任务二中给出)中抓取数据,提取有效数据项包括实现所属年月、商家名称、主营类型、特色菜、累计评论数、累计销售人次、店铺评分、本月销量、本月销售额、城市、商家地址、电话字段。每条信息请以单独一行保存,信息存储格式为key:value。将相关内容复制并粘贴至提交结果文档。任务三数据清洗与分析(25分)现已从相关网站及平台获取到原始数据集,为保障商户隐私和行业敏感信息,已经对数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在不违反系统规则条件下,对涉及客户安全或商业敏感的真实数据进行改造并提供测试使用,如身份证号、手机号等个人敏感信息都需要进行数据脱敏。本任务已将脱敏后的数据存放于/h3cu。工程所需配置文件pom.xml存放于“C:\任务三程序配置文件”。数据清洗步骤一餐饮行业中销量是对经营状况最直观的体现,商家的成本会随着销量的上升而上升,但一些隐性成本会有所下降,例如人工成本、基础物料成本,所以在利润增加的状况下,成本比例将会下降。增加利润、降低成本是商家的普遍追求,同时销量能够反馈经营策略的有效性、商家在当前形势下的竞争力。因此密切关注订单销量能够使商家对当前经营状况明确定位,在销量下滑时及时分析原因调整经营策略,在销量上升时加强优势倾斜,乘胜追击。请根据任务要求实现对给定源数据中销售数据进行清洗,并写入指定的数据库或数据文件,将相关内容复制并粘贴至提交结果文档。详细描述:数据源文件存放于平台/h3cu/data.csv。请编写spark程序,按照如下要求实现对数据的清洗,并将结果输出至hdfs文件系统中/foodsparktask1,将结果复制并粘贴至提交结果文档。解析数据源文件剔除“本月销量”为空值或0,且“本月销售额”不为空值或0的记录剔除字符串首尾的双引号程序打包并在spark平台上运行,结果输出至hdfs文件系统中/foodsparktask1步骤二店铺评分是综合计算商户名下的用户评分得到商户基础评分。来自不同渠道、不同业务、不同时间的用户评分,可能享有各不相同的计算权重。用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐品服务和及时解决用户问题两方面入手。同时商家可以安排专人负责店铺的评价管理,发现用户给了较低分数,及时沟通采取方法进行补救,从根本上提高店铺评分。同时,积极引导客户留下满意的评价,提升店铺的好评率。请根据任务要求实现对评分数据进行清洗,并写入指定的数据库或数据文件,并保存结果至提交结果文档。详细描述:请编写spark程序,按照如下要求实现对数据的清洗,并将结果输出至hdfs文件系统中/foodsparktask2,将结果复制并粘贴至提交结果文档。解析数据源文件剔除“店铺评分”为非数字及空值的记录程序打包并在spark平台上运行,结果输出至hdfs文件系统中/foodsparktask2数据分析步骤一店铺评分是综合计算商户名下的用户评分得到商户基础评分。来自不同渠道、不同业务、不同时间的用户评分,可能享有各不相同的计算权重。用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐品服务和及时解决用户问题两方面入手。同时商家可以安排专人负责店铺的评价管理,发现用户给了较低分数,及时沟通采取方法进行补救,从根本上提高店铺评分。同时,积极引导客户留下满意的评价,提升店铺的好评率。请根据相关数据集完成分析任务,并保存结果至提交结果文档。详细描述:请根据数据清洗结果数据集,使用HIVE自定义函数及HQL语句,按要求汇总数据集中的本月销量,销售人次,本月销售额,并将数据存入表table1中。将相关内容复制并粘贴至提交结果文档。步骤二餐饮商铺密度反映了地区美食行业的繁荣程度。特定区域内商铺数量多,一方面说明该区域对餐饮消费需求量大,可能是车站等交通枢纽,也可能是公司密集的高新区域,另一方面商铺数量众多既是机遇、也是挑战,需求带动的高商铺密度很可能已经造成商户饱和,新兴店铺难以生存。餐饮行业有着自己的行业特色和要求,不同地段的特征对餐饮业的要求不同。请根据相关数据集完成任务具体要求,并保存结果至提交结果文档。详细描述:请根据分析步骤一的结果数据集,使用HIVE自定义函数及HQL语句,汇总数据集中不同城市中各区的店铺数量,并将数据存入表table2中。将命令及结果复制并粘贴至提交结果文档。任务四数据可视化(20分)请根据Mysql数据库中相关数据表格,使用flask框架,结合echarts完成下列任务。数据库账号:restaurant密码:restaurant代码路径:C:\restaurant_visual注意:代码中临时循环变量请使用r表示。1.城市餐饮消费情况一定程度上反映了该地区的当下的经济状况、就业形势和发展潜力。对于餐饮行业来说,主动贴合客户需求、迎合地方口味,因地制宜地定位店铺经营方向及消费层次至关重要。按任务要求,输出相关图例说明不同城市的餐饮销售情况。详细描述:MySQL数据库中的数据集city_sale_apri,city_sale_may分别为各城市4月份、5月份的餐饮销量,包含id、城市、区、销量4个字段,请根据相关数据各城市餐饮销售表现,并以双柱图例呈现。将结果截图并粘贴至提交结果文档。2.店铺评分是综合计算商户名下的用户评分得到商户基础评分,是顾客对商家出品及服务态度等因素综合满意度的体现,在用户进行消费选择时起到非常重要的作用。按任务要求,输出相关图例,说明不同评分的商铺占比情况。详细描述:MySQL数据库中的数据集restaurant_score_num包含序号id、店铺评分、店铺数量3个字段,请根据相关数据展现不同评分区间店铺的数量对比,并以饼图例呈现。将结果截图并粘贴至提交结果文档。3.餐饮商铺数量反映了地区美食行业的繁荣程度。区域内商铺数量多,说明该区域对餐饮消费需求量大,但商铺数量众多既是机遇、也是挑战,需求带动的高商铺密度很可能已经造成商户饱和,新兴店铺难以生存。按任务要求,输出相关图例对比说明不同地区的商铺存在数量。详细描述:MySQL数据库中的数据集city_restaurant_num包含序号id、城市、店铺数量3个字段,请根据相关数据展现不同地区的店铺数量对比,并以柱状图例呈现。将结果截图并粘贴至提交结果文档。4.餐饮行业需要对地域、受众人群、流行趋势进行总体分析,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客的消费数据做出分析,设定未来市场经营策略,以便获得更好的发展。按任务要求,输出相关图例说明不同主营类型的餐饮销售情况。详细描述:MySQL数据库中的数据集restaurant_type_count为各城市中包含的不同餐饮主营类型的店铺数量,包含序号城市、主营类型、数量3个字段,请根据相关数据展现各种类型餐饮占比情况,并以雷达图例呈现。将结果截图并粘贴至提交结果文档。任务五综合分析(15分)通过以上任务的完成,至此我们已经清晰地了解了餐饮行业的业务背景,得到了相关数据。现在需要在综合理解餐饮行业数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 认识人民币小学数学教案
- 高中物理必修三教案6篇
- 幼师职业生涯规划书
- 食堂年终工作总结(19篇)
- 英文在职证明模版
- DB12-T 1061-2021 律师民事诉讼文书格式
- 2024-2025学年重庆乌江新高考协作体高三上学期二调生物试题及答案
- 上海市县(2024年-2025年小学五年级语文)人教版开学考试(下学期)试卷及答案
- 五年级数学(小数乘法)计算题专项练习及答案汇编
- 荆楚理工学院《软件测试》2022-2023学年期末试卷
- 对数的运算完整版本
- 选煤企业安全生产标准化课件
- 国家开放大学儿童发展问题的咨询与辅导形考周测验三周-周参考答案
- 就业引航筑梦未来
- 电子信息工程专业大学生生涯发展展示
- 生猪买卖合同
- 班会议题探索未来职业的发展趋势
- 跨境电商营销(第2版 慕课版)教案 项目五 社会化媒体营销
- 【年产5000吨氯化苯的工艺设计11000字(论文)】
- 食堂员工培训内容-食堂从业人员培训资料
- 零售督导工作流程
评论
0/150
提交评论