版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录CONTENTS考核方式平台使用课程介绍自我介绍初识Hadoop一、自我介绍(一)基本信息(二)教育背景(三)工作经历(四)教研方向成果(五)指导学生竞赛更高端的学科竞赛(1)Kaggle(数据科学领域竞赛平台)/
Kaggle成立于2010年,是一个进行数据挖掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。Kaggle官方每年举办一次大规模的竞赛,奖金高达一百万美金,可以把它理解为一个众包平台,但不同于传统低层次劳动力需求,Kaggle一直致力于解决业界难题,其创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。竞赛模式通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。同时,每个进行中的竞赛项目都会显示剩余时间、参与队伍数量以及奖金金额,并且还会实时更新选手排位。更高端的学科竞赛(1)Kaggle(数据科学领域竞赛平台)/
竞赛类型面向初学者:GettingStarted(Titanic、HousePrices、DigitalRecognition)、Playground(有奖金)。面向竞赛者:Featured(解决商业问题,有高奖金有奖牌)、Research(解决科研界学术界的前沿问题,一般有奖金有奖牌)。面向求职者:Recruitment(赞助商招聘数据科学家)。更高级的学科竞赛(1)Kaggle(数据科学领域竞赛平台)/
题目类型ComputerVision(计算机视觉)NaturalLanguageProcess(自然语言处理)Optimization(优化)……更高端的学科竞赛(1)Kaggle(数据科学领域竞赛平台)/
如何快速打比赛?学习合适的编程语言:推荐Python、R。掌握至少一种机器学习框架:常用的机器学习或深度学习框架包括Tensorflow、Pytorch、scikit-learn、Theano、Caffe、Keras等,深入学习其中1个。选择合适的比赛类型:例如面向初学者的GettingStarted和Playground。更高端的学科竞赛(1)Kaggle(数据科学领域竞赛平台)/
更高端的学科竞赛(2)LeetCode(算法题库)/
大型互联网工厂面试的题库集。每周1次周赛,每2周2次双周赛。90分钟4个题目,一般1题easy、2题medium、1题hard,难度不同分值不同,比赛有实时排名,根据分值和时间计算排名,每个错误提交罚时5分钟。更高端的学科竞赛(2)LeetCode(算法题库)/
更高端的学科竞赛(3)阿里天池大数据竞赛(算法竞赛)/competition/gameList/activeList
初衷:打造国际高端算法竞赛,让选手用算法解决社会或业务问题。【课堂讨论1】当今IT界的热门技术有哪些?作答可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。参考答案:大数据(BigData),云计算,物联网,人工智能(AI,ArtificialIntelligence),5G,AR(AugmentedReality,增强现实技术)……参考答案:大数据(BigData),云计算,物联网,人工智能(AI,ArtificialIntelligence),5G,AR(AugmentedReality,增强现实技术)……答案解析主观题10分【课堂讨论2】你平时用的哪些应用使用到了大数据技术?作答参考答案:今日头条,高德地图,滴滴打车,淘宝,美团,疫情防控……可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。答案解析主观题10分【课堂讨论3】目前,大数据技术在新冠疫情防控中发挥了哪些作用?作答参考答案:疫情期间各部门用大数据工具开展疫情筛查、轨迹分析、数据统计等一系列工作,大数据分析在疫情态势研判、疫情防控部署等任务中发挥了重要的作用。阿里云向全球公共科研机构,免费开放一切AI算力。百度研究院免费开放线性时间算法及RNA结构预测网站,LinearFold算法可将此次新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒,提速120倍,节省了两个数量级的等待时间。【思考】大数据在疫情防控中还能发挥哪些作用?可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。参考答案:疫情期间各部门用大数据工具开展疫情筛查、轨迹分析、数据统计等一系列工作,大数据分析在疫情态势研判、疫情防控部署等任务中发挥了重要的作用。答案解析主观题10分健康码健康码出自一名杭州科技警察,钟毅,健康码开发团队的核心骨干2020年2月6日,钟毅团队接到开发“杭州健康码”任务3天,完成第一个测试版5天,杭州健康码正式上线7天,从杭州“跑”向全国200个城市除了阿里人,还有杭州各行各业互联网人,他们都是“义务抗疫人”阿里云研发的健康码系统第一行代码、引擎第一行代码、阿里巴巴达摩院研发的新冠肺炎CT影像AI辅助诊断产品第一行代码以及制作人员签名一起被国家博物馆收藏。二、课程介绍(一)课程地位(二)课程目标(三)课程内容(四)教材、参考资料、上机软件(五)学习建议(一)课程地位《大数据技术原理及应用》是计算机科学与技术、数据科学与大数据技术等专业的一门专业核心课程。该课程着重讲述大数据技术的知识体系,阐明其基本原理,引导学生进行初级实践和了解相关应用,培养学生运用大数据平台搭建、数据采集与迁移、大数据存储与管理、大数据处理与分析等方法和技术工具完成大数据应用的能力,在整个大数据课程体系中起着承前启后重要作用。该课程由理论教学和实验教学两个部分组成,先修课程包括Java语言程序设计、Python语言程序设计、Scala语言程序设计、Linux操作系统、数据库原理等.后续课程包括机器学习、Spark大数据开发技术、Flink大数据开发技术、数据可视化技术等。先修知识测试雨课堂活动章节测试0-让我了解你的过去(《大数据技术原理及应用》先修知识测试)(二)课程目标情感目标能力目标知识目标知识目标1.理解大数据处理平台Hadoop的生态系统和体系架构,熟练掌握在Linux环境下部署全分布模式Hadoop集群;2.理解分布式文件系统HDFS的体系架构、文件存储机制和数据读写过程,熟练掌握通过HDFSWebUI、HDFSShell、HDFSJavaAPI三大接口实现HDFS文件的操作和管理;3.理解分布式计算框架MapReduce的编程思想和作业执行流程,了解MapReduceWebUI和MapReduceShell接口,熟练掌握通过Java语言编写MapReduce程序,完成海量数据的离线分析;4.理解分布式协调框架ZooKeeper的工作原理和数据模型,熟练掌握在Linux环境下部署ZooKeeper集群、使用ZooKeeperShell服务端命令和客户端命令;知识目标5.理解Hive的体系架构和数据模型,熟练掌握在Linux环境下部署本地模式Hive,综合运用HiveQL语句进行海量结构化数据的离线分析;6.理解Flume的体系架构,熟练掌握在Linux环境下部署Flume,灵活编写Agent属性文件和使用FlumeShell命令进行实时日志收集;7.理解Kafka的体系架构,熟练掌握在Linux环境下部署Kafka集群,使用KafkaShell命令完成分布式消息的发布和订阅;8.理解Spark的生态系统、运行架构,理解RDD设计思想,掌握RDD创建和操作,熟练掌握在Linux环境下部署Spark集群,使用Python、Java或Scala进行RDD编程、SparkStreaming编程,实现海量数据的离线处理和实时处理;知识目标9.理解Flink的技术栈、运行架构、编程模型和应用程序结构,熟练掌握在Linux环境下部署FlinkStandalone集群,使用Python、Java或Scala语言进行DataSetAPI编程、DataStreamAPI编程,实现海量数据的批处理和流计算。(三)课程内容开学第一课(理论1学时)第1章部署全分布模式Hadoop集群(理论3学时+实验2学时)第2章HDFS实战(理论4学时+实验2学时)第3章MapReduce编程(理论4学时+实验2学时)第4章部署ZooKeeper集群和ZooKeeper实战(理论4学时+实验2学时)第5章部署本地模式Hive和Hive实战(理论4学时+实验2学时)第6章Flume实战(理论4学时+实验2学时)第7章Kafka实战(理论4学时+实验2学时)第8章Spark集群部署和基本编程(理论4学时+实验2学时)第9章Flink集群部署和基本编程(选修)实验项目内容与学时分配序号实验名称学时实验类型实验要求1实验1部署全分布模式Hadoop集群2综合型必修2实验2HDFS实战2设计型必修3实验3MapReduce编程2设计型必修4实验4部署ZooKeeper集群和实战ZooKeeper2综合型必修5实验5部署本地模式Hive和Hive实战2设计型必修6实验6Flume实战2综合型必修7实验7Kafka实战2综合型必修8实验8Spark集群部署和基本编程2设计型必修9实验9FlinkStandalone集群部署和基本编程0设计型选修合计学时16(四)教材、参考资料、上机软件教材徐鲁辉.大数据技术实战案例教程[M].西安:西安电子科技大学出版社,2022.(四)教材、参考资料、上机软件参考资料[1]徐鲁辉.Hadoop大数据原理与应用[M].西安:西安电子科技大学出版社,2020.[2]徐鲁辉.Hadoop大数据原理与应用实验教程[M].西安:西安电子科技大学出版社,2020.[3]林子雨.大数据技术原理与应用(第3版)[M].北京:人民邮电出版社,2021.[4]维克托·迈尔-舍恩伯格,肯尼思·库克耶.盛杨燕等译.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.(四)教材、参考资料、上机软件参考资料[5]TomWhite.Hadoop:TheDefinitiveGuide(4thEdition)[M].O’ReillyMedia,April2015.[6]TomWhite,著.王海,译.Hadoop权威指南(第4版)[M].北京:清华大学出版社,2017.[7]BillChambers,MateiZaharia.Spark:TheDefinitiveGuide[M].O’ReillyMedia,February2018.[8]BillChambers,MateiZaharia,著.张岩峰,译.Spark权威指南[M].北京:中国电力出版社,2020.(四)教材、参考资料、上机软件参考资料[9]EdwardCapriolo,DeanWampler,JasonRutherglen.ProgrammingHive[M].O’ReillyMedia,September2012.[10]EdwardCapriolo,DeanWampler,JasonRutherglen,著.曹坤,译.Hive编程指南[M].北京:人民邮电出版社,2013.[11]杨俊.实战大数据(Hadoop+Spark+Flink)——从平台构建到交互式数据分析(离线/实时)[M].北京:机械工业出版社,2022.[12]蔡斌.Hadoop技术内幕:深入解析HadoopCommon和HDFS架构设计与实现原理[M].北京:机械工业出版社,2013.(四)教材、参考资料、上机软件参考资料[13]董西成.Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M].北京:机械工业出版社,2013.[14]倪超.从Paxos到ZooKeeper:分布式一致性原理与实践[M].北京:电子工业出版社,2015.[15]ApacheHadoop[EB/OL]./.[16]ApacheZooKeeper[EB/OL]./releases.html(四)教材、参考资料、上机软件参考资料[17]ApacheHive[EB/OL]./[18]ApacheFlume[EB/OL]./[19]ApacheKafka[EB/OL]./[20]ApacheSpark[EB/OL]./[21]ApacheFlink[EB/OL]./(四)教材、参考资料、上机软件上机软件序号软件名称软件版本发布日期下载地址安装文件名1VMwareWorkstationProVMwareWorkstation12.5.7ProforWindows2017.6.22/products/workstation-pro.htmlVMware-workstation-full-12.5.7-5813279.exe2CentOSCentOS7.6.18102018.11.26/download/CentOS-7-x86_64-DVD-1810.iso3JavaOracleJDK8u1912018.10.16/technetwork/java/javase/downloads/index.htmljdk-8u191-linux-x64.tar.gz4HadoopHadoop2.9.22018.11.19/releases.htmlhadoop-2.9.2.tar.gz5EclipseEclipseIDE2018-09forJavaDevelopers2018.9/downloads/packageseclipse-java-2018-09-linux-gtk-x86_64.tar.gz6ZooKeeperZooKeeper3.4.132018.7.15/releases.htmlzookeeper-3.4.13.tar.gz7MySQLConnector/JMySQLConnector/J5.1.482019.7.29/downloads/connector/j/mysql-connector-java-5.1.48.tar.gz(四)教材、参考资料、上机软件上机软件序号软件名称软件版本发布日期下载地址安装文件名8MySQLCommunityServerMySQLCommunity5.7.272019.7.22/get/mysql57-community-release-el7-11.noarch.rpmmysql57-community-release-el7-11.noarch.rpm(YumRepository)9HiveHive2.3.42018.11.7/downloads.htmlapache-hive-2.3.4-bin.tar.gz10FlumeFlume1.9.02019.1.8/download.htmlapache-flume-1.9.0-bin.tar.gz11KafkaKafka2.1.12019.2.15/downloadskafka_2.12-2.1.1.tgz12PythonPython3.6.72018.10.20/downloads/source/Python-3.6.7.tgz13SparkSpark2.4.72020.9.12/downloads.htmls
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度企业办公设备及用品采购框架合同
- 电视接收器电视机市场发展预测和趋势分析
- 2024年度教育培训合同标的为课程开设与师资派遣
- 2024年度特许经营及技术服务合同标的详细描述
- 2024年度成都二手房屋买卖合同
- 2024年度家具行业物流运输合同
- 2024年度版权转让合同著作财产权变动
- 2024年度图书租赁合同:某大学图书馆与出版社之间的图书租赁
- 跨运车市场环境与对策分析
- 浮式生产储卸油装置市场需求与消费特点分析
- 低蛋白血症的护理查房
- 解决方案部规章制度
- 河海大学开题报告
- 【建筑学课件】建筑设计的基本要素与设计流程
- GB/T 43370-2023民用无人机地理围栏数据技术规范
- 电梯安全质量管理体系建立
- 大学美育 第2版 课件 第四章 形式美与美育
- 医疗机构高警示药品风险管理规范(2023版)
- Wow English S4-S6单词可直接打印
- 小区不锈钢宣传栏施工方案
- 国家开放大学《财政与金融(农)》形考任务1-4参考答案
评论
0/150
提交评论