大数据技术与应用专业讲课稿_第1页
大数据技术与应用专业讲课稿_第2页
大数据技术与应用专业讲课稿_第3页
大数据技术与应用专业讲课稿_第4页
大数据技术与应用专业讲课稿_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术与应用专业建设方案北京四合天地科技有限公司2018年6月目录 TOC o 1-5 h z HYPERLINK l bookmark63 o Current Document 项目背景4 HYPERLINK l bookmark66 o Current Document 行业背景4 HYPERLINK l bookmark69 o Current Document 政策导向5 HYPERLINK l bookmark72 o Current Document 人才培养方案6 HYPERLINK l bookmark75 o Current Document 行业人才需求6 HYPERL

2、INK l bookmark78 o Current Document 大数据岗位设置9 HYPERLINK l bookmark81 o Current Document Hadoop运维工程师9大数据开发工程师.9数据采集工程师10系统开发工程师11 HYPERLINK l bookmark84 o Current Document 大数据人才基本技能要求11 HYPERLINK l bookmark91 o Current Document 人才培养目标12 HYPERLINK l bookmark94 o Current Document 人才培养策略12 HYPERLINK l bo

3、okmark97 o Current Document 教学现状分析13 HYPERLINK l bookmark100 o Current Document 教学科研难以保证13 HYPERLINK l bookmark103 o Current Document 实训环境缺失13 HYPERLINK l bookmark106 o Current Document 实训内容不足13 HYPERLINK l bookmark109 o Current Document 课程体系建设14 HYPERLINK l bookmark112 o Current Document 培养目标14 HYP

4、ERLINK l bookmark115 o Current Document 课程设置14实训室建设错误!未定义书签。5.1 设计理念错误!未定义书签。以就业为导向错误!未定义书签。以能力为本错误!未定义书签。坚持创新错误!未定义书签。产学研一体化错误!未定义书签。拓展专业广度和深度错误!未定义书签。整体架构错误!未定义书签。硬件环境错误!未定义书签。大数据实训服务器错误!未定义书签。学生终端错误!未定义书签。软件环境错误!未定义书签。四合天地云计算平台错误!未定义书签。四合天地大数据教学实训管理平台错误!未定义书签。四合天地数据采集与预处理实训系统错误!未定义书签。四合天地大数据离线分析实

5、训系统错误!未定义书签。四合天地数据可视化实训系统错误!未定义书签。实训资源体系错误!未定义书签。大数据离线分析环境部署教学实训包错误!未定义书签。数据采集与预处理教学实训包错误!未定义书签。大数据离线存储与分析教学实训包错误!未定义书签。数据可视化教学实训包错误!未定义书签。方案优势.错误!未定义书签。web形式开展实训,实现无所不在的网络访问错误!未定义书签。基于资源的负载均衡,实现实训资源弹性分配错误!未定义书签。增量存储技术,实现用户实训环境的独立性和延续性错误!未定义书签。项目驱动式实训设计,培养学生的综合云能力错误!未定义书签。资源的开放性及复用性,可支持科研等其他用途错误!未定义

6、书签。完善的课程体系,丰富的教学内容错误!未定义书签。项目建设成效错误!未定义书签。完全契合工程实践,明确专业定位错误!未定义书签。采用“任务驱动教学方式,引领教学方式创新错误!未定义书签。聚焦工程技术人才培养,协助专业改革创新错误!未定义书签。1项目背景1.1行业背景Volume数据规模大 Velocity数据流蜻快大数据(big data)是指无法在可承受的实践范围内用常规软件工具进行捕捉、管理 和处理的数据集合,是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力的 海量、高增长率和多样化的信息资产。在维克托迈尔.舍恩伯格及肯尼斯.库克编写的大 数据时代中,大数据指不用随机分析法

7、(抽样调查)这样的捷径,而采用所有数据进行分 析处理。麦肯锡提出的大数据4V特点包括:Volume (大量)、Velocity (高速)、Variety (多样)、Value (低价值密度)。1秒定律:要在秒爆时间范囿内 始出分析给果,超帷个时间, 数话就失去忻谊了.Variety3数据类型多Value价值密度低除了以文本为主的给肉物据、 以网页散匣为代表的半嬉构数据, 也存在大原阿增日寂 音牌、视图片、地驰诣息等非皓 啕化数魅海昼数据中r蝴可通圈大的机 器算法.更曜有效地完顾据 的价值”提姓.已成为目前太 数更背景下亟*击薜决的酷题.因果关系4相关关系由 IDC 和 EMC 联合发布的The

8、 Digital Universe of Opportunities : Rich Data and the Increasing Value of Internet of Things研究报告中指出, 2011年全球数据总量已达到1.8ZB,并将以每两年翻一番的速度增长,般020年,全球 数据量将达到40ZB,均摊到每个人身上达到5200GB以上。在“2017年世界电信和信息化 社会日大会”上,工信部总工程师张峰指出,我国的数据总量正在以年均50%的速度持续增 长,预计到2020年,我国数据总量在全球占比将达到21%。美国市场研究公司IDC发布 的报告称,全球大数据技术和服务市场将在未来几年

9、保持31.7%的年复合增长率,2016年 总规模达到238亿美元。根据中国信息通信院(原工信部电信研究院)发布的中国大数据发展调查报告(2017) 指出,2016年中国大数据市场规模为168亿元,增速达45%,预计20172020年增速 保持在30%以上,预计到2020年中国大数据市场规模将达到578亿元。国s中国大bi居市场现楔厘单速(单位:iz元)市场规模一厝速 数据趣:中国信息虺信研究院图1-2:中国大数据市场对于规模及增速自2008年以来,我国出台多项规定,促进数据开放共享,引领大数据产业的健康发展。 从行业来看,互联网行业是大数据应用的领跑者,其次,大数据应用水平较高的主要是电信、

10、金融等行业,而医疗、零售、交通、物流等传统行业也逐渐开始进行大数据方面的探索,并 且已出现了部分相对成熟的应用类型。虽然各行业的数字化进程并不均衡,部分传统行业的 大数据技术与应用渗透率还较低,但增长空间巨大。1.2政策导向自党的十八大以来,我国提出了实施国家大数据战略的重大决策。国务院和相关部门先 后印发了促进大数据发展行动纲要、大数据产业发展规划(20162020年)等指 导性文件。据不完全统计,我国已有20多个省级地方和10余个部委出台了本地区、本行 业大数据发展规划,我国大数据发展已经正式驶入快车道。2015年9月5日经李克强总理签批,国务院日前印发促进大数据发展行动纲要(以 下简称纲

11、要),系统指导我国大数据发展的国家。顶层设计和总体部署大数据发展工作。 纲要提出从政府大数据、新兴产业大数据、安全保障体系三个方面着手推进大数据领域 十大工程建设,将我国大数据发展推向了另一个制高点。同时,纲要中明确指出,要加强专业人才培养,创新人才培养模式,建立健全多层 次、多类型的大数据人才培养体系。鼓励采取跨校联合培养等方式开展跨学科大数据综合型 人才培养,鼓励高等院校、职业院校和企业合作,加强职业技能人才实践培养,积极培育大 数据技术和应用创新型人才。依托社会化教育资源,开展大数据知识普及和教育培训,提高 社会整体认知和应用水平。2015年10月,国务院中华人民共和国国民经济和社会发展

12、第十三个五年规划纲要(简 称“十三五”规划(20162020 )中提出:“实施国家大数据战略,推进数据资源开放 共享。”、“未来五年信息化建设将重点实施网络强国战略,实施国家大数据战略。”将 我国大数据上升到国家战略层面。2015年是大数据政策顶层设计年,2016年是大数据政策细化落地年。国家发改委、 环保部、工信部、国家林业局、农业部等均推出大数据发展意见和方案。大数据政策从全面、 总体规划逐渐向各大行业、各细分领域延伸,大数据发展也逐步从理论研究步入实际应用之 路。文件名称发文单位发文日期大数据产业发展规划(20162020)工信部2016.12.30农业农村大数据试点方案农业部2016.

13、10.14关于推进全国发展改革系统大数据工作的指导意见国家发改委2016.09.09关于推进交通运输行业数据资源开发共享的实施意见交通部2016.09.02关于加快中国林业大数据发展的指导意见林业局2016.07.13促进国土资源大数据应用发展实施意见国土资源部2016.07.04关于促进和规范健康医疗大数据应用发展的指导意见国务院办公厅2016.06.24促进大数据发展三年工作方案(20162018)国家发改委等部委2016.04.13生态环境大数据建设总体方案环保部2016.03.08国家林业局落实促进大数据发展行动纲要的三年工作方案林业局2016.02.24表1-1 2016年中央及部委

14、大数据领域最受关注的十大政策2016年,各省市相继出台相关政策举措,强调研发及公共领域的大数据应用,促进相 关政策法规的完善;重视通过大数据引领产业转型升级,与企业合作共建地区大数据生态; 建立大数据基地,吸纳优秀企业、人才落户扎根。伴随着宏观政策环境的逐步完善,我国大 数据产业正在茁壮发展。2人才培养方案2.1行业人才需求美国人才招聘市场的数据分析领先者WANTED Analytics和Forbes对来自150个 国家的10亿个岗位信息进行了统计,基于“数据分析”、“数据采集”、“数据挖掘”和 “数据结构”四项技能的大数据专业人才市场需求分析,在对过去12个月美国就业市场“大 数据”相关岗位

15、的分析中发现:需要“大数据”技能的岗位空缺呈现高速增长,其中“大数 据”解决方案的销售人员、计算机系统分析师、管理分析师、IT项目经理和信息安全分析 师岗位的增幅都在100%以上,这一增长趋势也将延续到2016年。麦肯锡全球研究所(MGI)和麦肯锡商业技术办公室在对医疗、公共、零售、制造业和 个人定位等五个领域内详细研究了大数据发展趋势后发布的研究报告预测:由于大数据的引 入,会造成信息分析人才的缺乏,预计到2018年,仅美国就需要1419万信息分析专业 人才以及150万懂得大数据的管理人员和分析师。大数据不仅提高了产业价值,还能够大 幅度的拉动就业。国外著名职业人士社交网站LinkIn对全球

16、超过3.3亿用户的工作经历和技能进行分 析并公布了最炙手可热的25项技能中,统计分析和数据挖掘技能位列榜首。根据中国信息通信院(原工信部电信研究院)发布的中国大数据发展调查报告(2017) 中指出,超过三分之一的受访企业认为数据人才短缺是企业发展大数据所面临的主要问题之数闻来海:中国传息通信研究院图2-1制约企业大数据发展的主要因素国家信息中心和南海大数据应用研究院联合发布的2017中国大数据发展报告显示, 数据分析、系统研发等技术类岗位大多供不应求,数据分析类岗位工作机会最丰富,虽然求 职人数占比第一,但人才供给仍然相对不足。三牌歌昂tf;L 求职人纹日比图1-4大数据岗位招聘、求职人数统计

17、图我国大数据产品正处于起步阶段,市场对技能型、操作性的人才需求相对较高,从统计 数据上看,大数据行业求职者学历与招聘需求出现错位,主要表现为大专的招聘需求高于求 职者占比,而硕士以上的需求则正好相反。为了适应大数据产业的快速发展,2016年9月,教育部向普通高等学校、高等职业教 育(专科)专业目录增补13个专业,其中就包括大数据技术与应用专业(专业代码610215)。大数据技术与应用是一门多学科融合的交叉学科,高职院校应从应用型、技能型角度建 设大数据学科方向的课程体系与学生培养方案。提高学生的学科交叉能力、实践能力和创新 创业能力。适应我国经济体制转轨、产业结构调整和高新技术发展的需要,培养

18、出企业和社 会急需的创新型、实用型、复合型人才。从教学体系建设上,应体现“应用”二字,其核心是实践教学,重点引导学生将科学知 识应用于实践工作中,对已有科学知识与技术进行创新并直接应用于社会生产活动,提高自 身的创新创业能力。2.2大数据岗位设置根据对大数据行业市场需求的深度调研,结合国内外大数据行业人才需求的实际情况分 析,依据学生对于大数据相关软件工具以及数据分析及建模方法的掌握情况,主要以下几个 类型的岗位:,废计:* MI T 推迎 I IJI I l.E敖朝显团略洒师I叔殿枷 I g涵昨I用户研掘,础宕畛时.,: H “.5 I ; :、七 I : e ; ,蚤技术研专类111111

19、11 I11i11111 1系快开安工程帅工程好啊:古开发工程片大数据架拘.1币技技买生工呼师11 111111 . _ _-=J基础平白韭1 1 ( 1 1 ( 111i f11f f11网ta工孕里,巾Hadtx叩 iS继 工程陌岬$访避 工师兼您因唯工程1.0四备天地| 1 H E T 1 HI P 12.2.1 Hadoop运维工程师作为大数据产业下的一个新型职位,Hadoop运维工程师是大数据系统稳定运行最重要 的保障,其主要职责是维护高性能的Hadoop分布式数据存储系统,并为业务系统提供稳 定的数据访问服务,开发新接口和维护原有系统。由于Hadoop技术生态组件绝大部分是由Jav

20、a语言实现并且基于Linux操作系统运 行的,对于该职位来说,首要要精通Java编程和Linux操作系统;其次要精通Map/Reduce 运行机制、Hadoop集群的硬件资源(CPU、内存、存储)配置与管理、Hadoop各组件(如 HDFS、Hive、HBase、Impala等)的运行原理、集群组件监控、集群节点故障解决方案 等;另外还需要懂得如何保证数据安全、数据存储效率、计算效率、运维效率的优化与提高 等。如果觉得Hadoop集群的性能差时,绝大部分责任是运维工程师对Hadoop的了解太 少,Hadoop的效率没有被发挥出来。2.2.2大数据开发工程师大数据相关的技术组件包括分布式存储(结

21、构化与非结构化)、缓存、查询、计算(实 时与离线)、监控与管理、资源调度等,为了保障各技术开发的专业性,一般以开发工作的 内容进行划分:Hadoop开发工程师(离线计算)、实时计算工程师、数据处理工程师、文 本挖掘工程师(非结构化数据处理)等。Hadoop 开发工程师需要精通包括:HDFS、HBase、Hive、Impala、Zookeeper、 YARN、Map/Reduce等在内的所有组件部署、调优与开发。Hadoop技术应用广泛,开发 过程中还会涉及Hadoop版本的快速迭代升级,需要和Hadoop运维工程师协同开展工作。实时计算所涉及的技术包括Spark、Storm两大核心组件,而Sp

22、ark与Storm组件 的开发语言都各自不尽相同,这无疑大大增加了实时计算工程师的开发难度,除了精通Java 之夕卜,还必须精通 Scala(Spark 是由 Scala 写成)、SparkSQL 和 SparkStreaming。以上技术都是针对结构化和半结构化数据的开发处理,非结构化数据的开发处理一直都 是相对更繁琐的工作。比如,文本挖掘工程师的工作是对非结构化数据进行抽取、解析、建 立全文索引等,使非结构化数据转化为有价值的结构化或半结构化数据。数据处理工程师主 要负责分布式存储与计算平台中的数据处理与传输,承担着“数据搬运工”的角色,不管是 结构化或半结构化数据还是非结构化数据,一般都

23、会使用到Kafka或MQ等组件进行数据 的解析与传输。2.2.3数据采集工程师数据采集工程师的主要职责是收集和处理海量原始数据,工作内容包括:脚本编写、网 页获取、调用APIs、编写SQL查询等。由于数据源的存储及展现方式不同,数据采集分为外部数据采集和内部数据采集,外部 数据采集通常指的是互联网网页采集(也称网络爬虫),工作任务是通过搜索引擎网络爬虫 相关技术和正则表达式,从抓取下来的HTML页面数据中提取网页数据信息,这要求工程师 必须精通互联网内容搜索产品(例如百度、谷歌)的设计和架构,熟悉搜索引擎、互联网网 页及反爬虫技术的工作原理,熟悉Linux操作系统,具备搜索引擎开发的研究能力,

24、使用 至U的开源技术工具有: Nutch、Heritrix、larbin、HtmlParse、Scrapy、Lucene 等。内部数据采集是指存储在企业内部数据系统(如Oracle、MySQL、NoSQL、Log日志) 中的主数据/业务数据和企业网站/App端中用户行为数据的采集。企业内部数据采集的工 作任务是通过数据库抽取相关技术(Java、Sqoop、GoldenGate、Canal)把存储在企 业数据库系统中的数据抽取出来,重新整合、同步与存储;企业网站/App数据采集是通过JS/SDK等技术手段,把网页/App端的用户登录、点击、查看等行为收集起来,同步到后 端的数据存储系统中。通过内

25、部、外部数据采集到的数据最终都会存到分布式文件系统(Hadoop、Spark) 中统一存储,便于后续的数据分析与挖掘。这些工作要求工程师了解企业数据流通机制,精 通Oracle、MySQL、NoSQL等数据库的工作原理和主流的大数据接入技术(Kafka、Storm、 Flume、MQ、SparkStreaming),熟悉Nginx日志、算法设计、数据结构、Java和 Scala 等。2.2.4系统开发工程师大数据系统按应用类型分为数据可视化类与数据应用类。可视化类系统包括:商业智能、数据监测、舆情监控、用户画像等,该类系统一般使用 前端技术结合可视化组件开发,要求工程师精通JavaScript

26、、Ajax/JQuery、HTML、 CSS等Web前端技术,以及数据可视化技能和工具,例如D3、Echarts、HighCharts、 Tableau等。熟悉各主流浏览器(IE/Chrome/Firefox/Safari)兼容性问题解决方案 和Oracle、MySQL、MongoDB、Hive、HBase等数据库查询能力,另外还需了解各种调 试、抓包工具如HTML类、CSS类、Debug类等。数据应用类系统包括:互联网广告精准投放系统(DSP)、精准营销系统、征信/风控 系统、个性化推荐系统、大数据管理平台(DMP)等。该类系统除了会使用前端技术和可视 化组件外,还需要结合大数据分布式算法、

27、高并发查询、负载均衡等技术,更侧重Redis. Nginx、MQ、Zookeeper、Hadoop等技术。熟悉TCP/IP协议和多线程并发技术,同时 也要兼具可视化系统开发所应用到的Web前端技术、数据可视化技术、浏览器兼容等。2.3大数据人才基本技能要求结合对上述三个主要岗位的分析,市场对于大数据人才的基本要求主要体现在以下几个 方面:掌握Linux操作系统的配置、管理及优化,能够独立排查及解决操作系统的问题;熟悉 Hadoop、Hive、Kafka、HBase、Yarn、Storm 等 Hadoop 生态系统软件的配置及 管理方式;至少精通Shell/Python/Java中的一种开发语言

28、;具有良好的算法相关知识,能够对完成简单的算法优化。2.4人才培养目标高职院校开展“大数据技术与应用”专业强调培养具有大数据实践能力的大数据人才。 针对大数据产业现状及发展要求,坚持交叉学科学习与实践案例教学,通过与大数据企业的 交流合作,利用丰富的社会化资源,培养大量具有大数据思维方式的技术人才。在坚持理论 与实践相结合,实践与技术相结合的基础上,重点培养学生的数据分析能力,通过企业级案 例分析和实训项目联系,培养学生大数据平台搭建、数据分析和解决方案的能力,让学生能 够成为灵活运用数据分析手段,为企业数据分析、管理决策提供价值的大数据人才。高职院校“大数据技术与应用”专业重点强调培养具有大

29、数据实践能力的大数据人才。 主要关注两方面的核心素质:一方面要能够掌握数据采集、数据分析、数据可视化等基本工 具;另一方面能够掌握使用数据分析和初步数据建模的能力。培养目标职业方向岗位定位熟练掌握Linux操作系统的配置、管理及优化熟练掌握 Hadoop、Hive、Kafka、HBase、Yarn、Storm 等Hadoop生态系统软件的配置及管理方式。具备Shell/Python/Java中一门编程语言的初级编程能力。系统开发类大数据运维工程师精通Shell/Python/Java中的一门编程语言,能够独立完成 程序编写。熟悉 Hadoop、Hive、Kafka、HBase、Yarn、Sto

30、rm 等 Hadoop 生态系统软件的配置及管理方式;熟悉Linux开发和运行环境。系统开发类大数据开发工程师精通Shell/Python/Java中的一门编程语言,能够独立完成MapReduce 的开发;熟悉 Hadoop、Hive、Kafka、HBase、Yarn、Storm 等 Hadoop生态系统软件的配置及管理方式;具备基本的主流算法知识,了解算法原理。数据处理类ETL工程师2.5人才培养策略根据就业前景,加大人才培养力度。各高职院校应该建立专业的大数据实训环境,尤其 是要满足当前学生需求的实训系统,整合高性能计算和大数据的基本功能,灵活支持大数据 的相关实训操作。注重实操,开拓新型

31、教育方式。大数据是“技术+管理”的一门多学科交叉课程,不但 需要通过教师的授课提高学生对于大数据理论的认识,更需要加强学生的动手能力及实战经 验。通过构建大数据实训环境,提高实践教学内容在整个教学体系中的比重,增强学生的实 践动手能力,从而大幅提高教学质量,增强学生动手能力。采用项目驱动型的教学方式。应通过采用项目驱动、任务引领的方式完成授课、实训过 程,选用真实案例作为实训项目,提升学生的工作能力,切实培养实用型人才。3教学现状分析2016年9月教育部研究决定,正式批准“高职”大数据技术与应用专业作为普 通高等学校高等职业教育(专科)专业目录2016年增补专业(专业代码:610215)。 经过新一轮的探索后,国家开始加大力度,扩大面积,积极寻找和催生大数据专业人才的培 养方式来填补人才缺口。“大数据技术与应用”专业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论