




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1”赛项任务书(B卷)项目背景联网时代,无论是对外寻找精准客户群,还是对内进销存管理,都需要根据数据分析调整运营策大街小巷,然而也从来没有哪个时代的餐饮业像今天这样竞争激烈、快进快出,餐饮竞争的加剧使得餐饮品类在持续分化。了至关重要的作用,如今的餐饮行业很多都会在抢购热潮来临之前,使用大数据来分析消费趋势,以此在美食热潮中获得更多收益。随着社会经济的快速发展,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客更好的发展。模板引擎)、ECharts组件等技术,提高开发效率并实现项目要求,通过在离线网站上爬取求实现对未来餐饮重点战略方向提出建议。2环境参考信息:编号编号任务类型用户密码1master2Hadoop平台部署slave1从节点3slave2从节点4数据采集5数据清洗分析节点6数据可视化节点urantant相关软件安装包在/h3cu目录下。任务中涉及的所有命令请均使用绝对路径。 相关提交报告模板在桌面文件夹“竞赛提交文档”下,文件名为“2020年山东省大数 据技术与应用省赛提交结果文档--工位XX.docx”,根据实际工位号修改文件名中的“XX”, 另存为PDF格式提交。 任务一环境搭建(15分)本环节需要使用root用户完成相关配置,安装Hadoop需要配置前置环境,具体部署要求如下:1.在master节点将/h3cu下的JDK包解压到/usr/local/src,将执行命令复制粘贴至2.设置JDK环境变量,并使环境变量只对当前root用户生效;将环境变量配置内容3至提交结果文档。3.从master节点复制JDK环境变量文件.bash_profile到slave1、slave2节点,命令和结果复制粘贴至提交结果文档。4.配置SSH密钥登录,实现从master节点登录到slave1节点,配置完成后,使用SSH免密登陆slave1节点的命令和结果复制粘贴至提交结果文档。Zookeeper状态,将命令和结果复制粘贴至提交结果文档。de节点)并查看进程状态,将命令和结果复制粘贴至提交结果文档。7.HadoopHA配置完毕后,在slave1节点查看进程(slave1节点作为namenodestandby节点),将命令及结果复制粘贴至提交结果文档。hcuSqoopusrlocal/src”路径下,并使用相关命令,后文件夹名为sqoop,进入sqoop文件夹,查看文件夹内容,并将查看命令及结果复制粘贴至提交结果文档;2.修改只对当前root生效的环境变量,将环境变量配置内容复制粘贴至提交结果文档;3.修改并配置sqoop-env.sh文件,编辑配置文件命令及配置文件内容,将配置文件内容复制粘贴至提交结果文档;查询MySQL中所有数据库名称,将命令和结果复制粘贴至提交结果文档。4任务二数据采集(20分)1.网站解析,利用chrome查看网页源码,分析餐饮网站网页结构。1)打开餐饮网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;2)检查网站:浏览网站源码查看所需内容。2.从餐饮网站中爬取需要数据,按照要求使用Java或Python语言编写并完善爬虫代码,爬取指定数据项,并将代码复制粘贴至提交结果文档。具体步骤如下:1)创建爬虫项目;2)构建爬虫请求;3)按要求定义相关字段;4)获取有效数据;5)将爬取到的数据保存到指定位置。至此已从餐饮网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操详细数据描述:已创建scrapy项目CateringScrapy(路径:C:\catering_crawl)。本任务要求从餐饮网站(网站地址在竞赛平台任务二中给出)中抓取数据,提取有效数据项包括实现所属年本value。将相关内容复制并粘贴至提交结果文档。5任务三数据清洗与分析(25分)现已从相关网站及平台获取到原始数据集,为保障商户隐私和行业敏感信息,已经对数行数据的变形,实现敏感隐私数据的或商业敏感的真实数据进行改造并提的数据存放于/h3cu。工程所需配置文件pom.xml存放于“C:\任务三程序配置文件”。3.1数据清洗步骤一餐饮行业中销量是对经营状况最直观的体现,商家的成本会随着销量的上升而上升,但时销量能够反馈经营策略的有效性、商家在当前形势下的竞争力。因此密切关注订单销量能够使商家对当前经营状况明确定入指定的数据库或数据文件,将相关内容复制并粘贴至提交结果文档。详细描述:数据源文件存放于平台/h3cu/data.csv。请编写spark程序,按照如下要求实现对数据的清洗,并将结果输出至hdfs文件系统中/foodsparktask1,将结果复制并粘贴至提交6解析数据源文件剔除“本月销量”为空值或0,且“本月销售额”不为空值或0的记录剔除字符串首尾的双引号程序打包并在spark平台上运行,结果输出至hdfs文件系统中/foodsparktask1用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐发现导求实现对评分数据进行清洗,并写入指定的数据库或数据文件,并保存结果至提交结果文档。详细描述:解析数据源文件剔除“店铺评分”为非数字及空值的记录程序打包并在spark平台上运行,结果输出至hdfs文件系统中/foodsparktask273.2数据分析步骤一用户的满意度是影响商家综合评分的重要因素,用户满意才会给出较高的评价分数,为了提高用户的满意度,可以从提高店铺餐专人负责店铺的评价管理,发现数据集完成分析任务,并保存结果至提交结果文档。详细描述:请根据数据清洗结果数据集,使用HIVE自定义函数及HQL语句,按要求汇将相关内容复制并粘贴至提交结果文档。成商户饱和,新不同。请根据相关数据集完成任务具体要求,并保存结果至提交结果文档。详细描述:8请根据分析步骤一的结果数据集,使用HIVE自定义函数及HQL语句,汇总数据集中不同城市中各区的店铺数量,并将数据存入表table2中。将命令及结果复制并粘贴至提交任务四数据可视化(20分)请根据Mysql数据库中相关数据表格,使用flask框架,结合echarts完成下列任务。数据库账号:restaurant密码:restaurant注意:代码中临时循环变量请使用r表示。1.城市餐饮消费情况一定程度上反映了该地区的当下的经济状况、就业形势和发展潜及消费层次至关重要。按任务要求,输出相关图例说明不同城市的餐饮销售情况。详细描述:并以双柱图例呈现。将结果截图并粘贴至提交结果文档。2.店铺评分是综合计算商户名下的用户评分得到商户基础评分,是顾客对商家出品及要求,输出相关图例,说明不同评分的商铺占比情况。详细描述:MySQL数据库中的数据集restaurant_score_num包含序号id、店铺评分、店铺数量93个字段,请根据相关数据展现不同评分区间店铺的数量对比,并以饼图例呈现。将结果截3.餐饮商铺数量反映了地区美食行业的繁荣程度。区域内商铺数量多,说明该区域对,需求带动的高商铺密度很可能已关图例对比说明不同地区的商铺详细描述:mid图例呈现。将结果截图并粘贴4.餐饮行业需要对地域、受众人群、流行趋势进行总体分析,通过不同类型店铺的地理分布、店铺经营主类与受众人群相契合、把握美食流行趋势对顾客的消费数据做出分析,型的餐饮销售情况。详细描述:MySQL数据库中的数据集restaurant_type_count为各城市中包含的不同餐饮主营类型的店铺数量,包含序号城市、主营类型、数量3个字段,请根据相关数据展现各种类型餐饮占比情况,并以雷达图例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度电商平台代理佣金服务协议
- 矿山抵押合同范本
- 中国远传压力表行业市场前瞻与投资战略规划分析报告
- 主题六 任务一 初识计算机网络 教学设计 -2023-2024学年桂科版初中信息技术七年级上册
- 2025年奶牛胚胎移植技术项目投资可行性研究分析报告
- 江苏省某工程技术研究中心技改项目可行性研究报告
- Unit 6 How do you feel?PartB (教学设计)-2024-2025学年人教PEP版英语六年级上册
- 2025至2030年中国毛白杨小苗数据监测研究报告
- 2025年障子门项目可行性研究报告
- 2025年过墙手摇杆项目可行性研究报告
- 洋车夫课件教学课件
- 车间锯木材承包合同协议书
- 公司与个人的技术服务合同书范本
- 数字出版概论 课件 第八章 数字出版产品开发与分析
- 高职建筑设计专业《建筑构造与识图》说课课件
- 西师版小学数学四年级下册教案
- 《管理学基础(第2版)》高职全套教学课件
- 国有企业“三定”工作方案-国有企业三定方案
- 清华大学2024年强基计划数学试题(解析)
- 建筑业投标师聘用合同
- 中国非遗文化傩戏详细介绍课件
评论
0/150
提交评论