深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛-大数据技术应用职业技能竞赛技术文件_第1页
深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛-大数据技术应用职业技能竞赛技术文件_第2页
深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛-大数据技术应用职业技能竞赛技术文件_第3页
深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛-大数据技术应用职业技能竞赛技术文件_第4页
深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛-大数据技术应用职业技能竞赛技术文件_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附件2深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛—大数据技术应用职业技能竞赛技术文件深圳市第十二届职工技术创新运动会暨2022年深圳技能大赛大数据技术应用职业技能竞赛执委会2022年8月———一、技术描述(一)竞赛项目大数据技术应用。(二)理论知识与能力要求权重比例理论知识大数据平台基础1.分布式系统基础架构Hadoop及其核心组件知识2.分布式计算框架Spark及其核心组件知识30%数据分析与挖掘基础1.Python基本语法,数据结构运用和程序流程控制等知识2.函数的语法、调用、参数以及自定义函数的编程实现知识3.正则表达式的字符获取、匹配与替换知识4.不同形式的文件/数据读取与存储知识5.Numpy数值计算基础知识6.Pandas统计分析基础知识7.Pandas数据预处理知识网络爬虫1.爬虫发展历史、概念与反爬机制等知识2.网络信息传输过程、HTTP与Cookie的概念与作用3.爬虫环境、爬虫基本流程与网页前端知识4.静态网页与动态网页的爬虫常用技术应用知识5.模拟登录基本流程数据可视化1.Matplotlib可视化图形绘制运用知识2.Pyecharts可视化图形绘制运用知识机器学习原理1.机器学习概念、基本流程与应用场景等知识2.机器学习的常用工具与相关库3.基础的聚类算法思想与模型搭建过程的知识4.基础的分类算法思想与模型搭建过程的知识5.聚类与分类模型的评估方法的知识能力要求大数据平台搭建具备在Linux下安装Java并搭建完全分布式Hadoop集群的能力70%大数据信息采集具备运用Python网络爬虫技术采集指定网页信息,存储采集数据的能力大数据清洗与挖掘具备使用IDEA编写Scala代码,从HDFS加载数据,并结合Spark技术实现基础的数据清洗操作,存储清洗后的数据的能力大数据分析与可视化具备运用Python数据挖掘与可视化知识对数据进行统计与基本图形绘制的能力大数据建模与评估具备运用Python机器学习知识实现数据建模与评估的能力合计100%二、赛题与评判标准(一)初赛1.初赛理论知识复习资料于报名开始后在/→技能竞赛→技能竞赛总览栏目对应项目下公布300个知识点。2.赛前一天由裁判长根据公布的知识点编制初赛赛题,并封存保管。3.竞赛当天由裁判长现场解封初赛赛题并导入竞赛系统。(二)决赛1.决赛样题于报名结束后在/→技能竞赛→技能竞赛总览栏目对应项目下公布。2.根据公布的样题进行编制决赛正式赛题,并封存保管3.竞赛当天由裁判长现场解封正式赛题并组织裁判培训及设备调试。(三)比赛时间及内容参照广东省第二届职业技能大赛大数据技术应用赛项标准,结合新时代行业企业发展情况,适当增加新知识、新技术、新设备、新技能的相关内容,由执委会组织专家制定。本次竞赛为单人赛,分初赛和决赛两个阶段进行,由裁判长组织落实各项技术工作。初赛为理论知识竞赛,决赛为实际操作竞赛。1.初赛。采用理论知识上机考核,取排名前60名选手进入决赛。时间共60分钟,满分为100分,60分为合格。题型为单选题50题,每题1分;多选题10题,每题3分;判断题20题,每题1分;各题型错选、多选或少选均不得分。2.决赛。选手按赛场提供的实操任务书在竞赛专用云主机上以现场实际操作的方式完成五个任务的实际操作,时间共240分钟。满分为100分,60分为合格。具体内容如下:任务一:根据提供的安装包,按照题目要求在Linux下安装Java并搭建完全分布式Hadoop集群。该任务主要考核选手分布式系统基础架构Hadoop相关知识和搭建完全分布式Hadoop集群能力。任务二:按照题目要求,基于Python语言,运用requests、lxml、BeautifulSoup、Selenium等相关库采集指定网页信息并存储采集数据。该任务主要考核选手使用网页信息爬取技术和数据处理、存储的能力。任务三:按照题目要求,使用IDEA编写Scala代码,从HDFS加载数据,并结合Spark技术实现基础的数据清洗操作,存储清洗后的数据。该任务主要考核选手使用Spark技术实现数据加载、清洗和存储的能力。任务四:按照题目要求,基于Python语言,运用Pandas、NumPy、Matplotlib、Pyecharts等相关库,对数据进行统计与基本图形绘制。该任务主要考核选手对数据统计分析和可视化常用工具及技术熟练使用的能力。任务五:按题目要求,基于Python语言,运用Pandas、NumPy、sklearn等相关库实现数据建模与评估。该任务主要考核选手合理运用算法与模型的能力,能调用模型完成训练与预测且能实现模型评估操作。(四)评判标准1.初赛评分标准。采用上机考核,由竞赛系统自动判分,各题型错选、多选或少选均不得分;单选题共50题,每题1分;多选题共10题,每题3分;判断题共20题,每题1分。2.决赛评分标准。竞赛内容评分标准占比大数据平台搭建1.JDK正确部署2.Hadoop集群正确部署25%大数据信息采集1.运用Python相关库采集指定网页信息2.采集数据满足题目要求的数量3.采集数据存放于DataFrame,并更改列名4.将采集数据存储为csv文件或Excel文件20%大数据清洗与挖掘1、在HDFS上实现上传、读取文件等操作2、结合Spark框架,在IDEA编写Scala代码实现数据清洗操作3、编写Scala代码完成数据集DataFrame以csv格式导出至指定路径20%大数据分析与可视化1、运用Python的Pandas、NumPy等库实现数据统计2、运用Python的Matpltlib、Pyecharts等库绘制指定可视化图形20%大数据建模与评估1、运用Python的Pandas、NumPy等库完成数据处理,如类型转换、特征编码、数据标准化2、运用Python的sklearn库实现数据集划分3、运用Python的sklearn库实现模型构建与模型评估15%3.评判方法。(1)参赛选手的成绩评定由竞赛裁判组负责,裁判长对最终成绩签字确认。(2)初赛理论知识竞赛由竞赛系统自动判分。(3)决赛实际操作竞赛由现场裁判组依据参赛选手的实际操作情况按竞赛评分标准集体评判和计分。4.综合排名。选手最终名次依据初赛和决赛两部分成绩按比例累加的综合成绩进行排名,成绩均四舍五入保留两位小数点。其中初赛成绩占30%、决赛成绩占70%,参赛选手赛后综合成绩=初赛成绩×30%+决赛成绩×70%。当综合成绩相同时,以决赛成绩高者名次在前,若仍相同时,决赛用时短者名次在前。三、竞赛细则(一)初赛时间地点。时间:2022年9月24日。地点:广东省深圳市龙岗区五联社区将军帽路1号深圳技师学院。(二)决赛时间地点时间:2022年9月25日。地点:广东省深圳市龙岗区五联社区将军帽路1号深圳技师学院。(三)理论知识竞赛守则1.参赛证由执委会于竞赛开始前统一核发。2.参赛选手需提前20分钟凭有效身份证和参赛证进入赛场,对号入座并将身份证和参赛证放在座位左上角明显位置,以备查验。迟到20分钟不得入场,开赛20分钟后方可交卷离场。3.参赛选手不能携带与竞赛相关的文件资料、通讯工具进入赛场。在赛场上应自觉遵守赛场秩序,保持安静,竞赛进行过程中不允许任何形式的交谈,更不得大声喧哗吵闹,否则将给予警告直至取消竞赛资格。4.冒名顶替、弄虚作假、作弊者,取消竞赛资格及成绩。5.竞赛规定时间结束时,参赛选手应立即停止答题,有秩序的离开赛场。(四)实际操作竞赛赛场守则1.实际操作竞赛选手的出场顺序和实操台位置由抽签决定。2.参赛选手需提前20分钟凭有效身份证和参赛证进入赛场,对竞赛工具设备进行检查。3.开赛迟到30分钟以上者,按自动弃权处理。4.参赛选手按赛题完成各竞赛项目,并主动配合裁判员评分。5.参赛选手应严格遵守赛场纪律,所有的通讯工具、摄像工具不得带入竞赛现场,对竞赛设施设备应爱护,防止丢失和损坏。6.冒名顶替、弄虚作假、作弊者,取消竞赛资格及成绩。7.参赛选手须严格遵守安全操作规程及劳动保护要求,接受裁判员、现场技术服务人员的监督和警示,确保设备及人身安全。8.在实际操作竞赛过程中,裁判应对每名参赛选手的各道工序认真记录,并填写评分表。9.竞赛过程中如果出现安全事故,裁判员应立即中止竞赛。如查实事故责任属参赛选手,即取消参赛选手竞赛资格。(五)赛场规则1.各类赛务人员必须统一佩戴由大赛执委会签发的相应证件,着装整齐。2.各赛场除现场裁判、赛场配备的工作人员以外,其他人员未经允许不得进入赛场。3.新闻媒体等进入赛场必须经过大赛执委会允许,并且听从现场工作人员的安排和管理,不能影响竞赛进行。4.各参赛队的领队、指导老师以及随行人员一律不得进入赛场。5.竞赛期间,参赛选手未经大赛执委会批准,不得接受其他单位和个人对竞赛相关内容的采访。6.参赛选手不得私自公布竞赛相关资料和情况。7.竞赛过程中,参赛选手必须主动配合裁判工作,服从裁判安排,如果对竞赛的裁决有异议,可按规定以书面形式向执委会申诉受理组提出申诉。8.竞赛现场必须配备实时监控系统,对现场赛事进行完整的实时监控和录像,并有专人对竞赛环节进行全程录像。(六)赛事安全要求1.赛场设有安全防卫人员,负责竞赛期间安全事务。主要包括检查竞赛场地及其周围环境的安全防卫;制定紧急应对方案;督导竞赛场地用电等相关安全问题;监督参赛人员食品安全与卫生;分析和处理安全突发事件等工作。赛场配备医务人员及常规药品。2.严格按照安全应急预案加强对竞赛全过程的动态管理,确保竞赛活动安全有序。(七)申诉与仲裁1.参赛选手认为赛场提供的设备、工具不符合规定或工作人员存在违规行为的,均可向执委会申诉受理组提出申诉。2.现场申诉最迟应在竞赛结束后1小时内提出,超过时效将不予受理。申诉时,应以书面形式向申诉受理组提出,技术问题由裁判长与裁判员共同商议解决;非技术问题由组委会办公室进行调查、核实、裁决。3.组委会办公室对违规行为做出的裁决为最终裁决。参赛选手不得因对仲裁处理意见不服而停止比赛或滋事,否则按弃权处理。4.如竞赛出现不可预见的异常情况,由组委会办公室与执委会商议后,做出处理决定。四、竞赛场地、设施设备(一)赛场规格1.初赛。参照计算机类工种职业技能鉴定要求布置赛场,配备与参赛人数相适应的计算机及竞赛答题软件,保证单人单机并留有一定数量的备用机。2.决赛。竞赛工位:各工位之间设置隔板,确保每个工位为相对独立空间,每个工位标示编号,并配备电脑桌1张、座椅1把、计算机1台并安装了所需软件。竞赛场地光线充足,照明良好;供电供气设施正常且安全有保障;场地整洁;场地布置60个工位,备用2个工位。有独立的裁判室、候赛室、赛务室、隔离室等区域。(二)场地布局图(三)设施清单1.初赛。本赛项禁止携带有存储功能的设备,禁止在竞赛用PC机上安装任何软件,也不允许将赛场提供的参赛设施带出赛场。序号名称型号规格参数数量1高性能PC机主机参数:i7-117008G256GB+1TB集显操作系统:Windows11家庭版显示器:23.8寸1502键盘、鼠标标准1503浏览器Chrome版本:100或以上2.决赛。本赛项禁止携带有存储功能的设备,禁止在竞赛用PC机上安装任何软件,也不允许将赛场提供的参赛设施带出赛场。序号名称型号规格参数数量1高性能PC机主机参数:i7-117008G256GB+1TB集显操作系统:Windows11家庭版显示器:23.8寸622键盘、鼠标标准623浏览器Chrome版本:100或以上本赛项赛题涉及如下环境,已在竞赛环境中提前部署。序号赛题编号环境1赛题1CentOS7.9,火狐浏览器2赛题2、4、5Anaconda3(Python3.8.5,JupyterNotebook)、火狐浏览器/Chrome浏览器pandas==1.1.3、numpy==1.18.5、lxml==4.6.2、requests==2.25.1、selenium==3.4.0、beautifulsoup4==4.9.3、matplotlib==3.3.2、pyecharts==1.9.0、scikit-learn==0.23.23赛题3CentOS7.9,Hadoop3.1.4、IDEA2022.2、Spark3.2.1、Scala2.12.16五、主要参考资料1.《大数据工程技术人员国家职业技术技能标准(2021年版)》,职业编码:2-02-10-112.张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.3.肖芳,张良均.Spark

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论