《大数据处理算法概论》课程教学大纲_第1页
《大数据处理算法概论》课程教学大纲_第2页
《大数据处理算法概论》课程教学大纲_第3页
《大数据处理算法概论》课程教学大纲_第4页
《大数据处理算法概论》课程教学大纲_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据处理算法概论》课程教学大纲课程编号:ABXX0524课程名称:大数据处理算法概论英文名称:AlgorithmsofProcessingBigData课程性质:选修课程学分数:3课程学时数:48(32+16)授课对象:信息与计算科学专业本课程的前导课程:数学分析或高等数学一、课程简介大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。它的特点包括四个层面的“大”,首先,数据体量巨大,其量从TB级别跃升到PB级别;其次,数据\o"类型"类型繁多;再次,价值密度低,商业价值高;最后,处理大数据的速度必须快。用于分析大数据的工具主要有开源与商用两个生态圈。其中,开源大数据生态圈包括:HadoopHDFS、HadoopMapReduce,HBase、Hive、Hypertable、NoSQL,membase、MongoDb;商用大数据生态圈包括:IBMPureData(Netezza),OracleExadata,SAPHana等一体机数据库/数据仓库、TeradataAsterData,EMCGreenPlum,HPVertica等数据仓库和QlikView、Tableau、以及国内的YonghongDataMart等数据集市。因此,《大数据处理算法概论》作为一门介绍新兴的计算机技术的课程,它将对培养信息科学技术专业学生在数据分析方面的能力发挥着积极的作用。本课程教学内容包括大数据相关的基本概念和常用技术,希望通过32学时的理论教学和16学时的实践,使学生能从理论和技术两方面系统地认知大数据及相关内容,为学习有关专业课程奠定必要的技术基础,并为将来从事数据处理等实际工作打好基础。二、教学基本内容和要求(一)大数据概述基本内容:大数据概念、大数据的产生和应用、大数据作用、大数据与大规模数据、海量数据的差别、典型的大数据应用实例、从数据库到大数据、大数据与云计算、大数据与物联网、对大数据的错误认识、大数据技术、大数据存储和管理技术、大数据生态系统。重点:大数据相关概念。难点:无。课程教学要求:理解掌握大数据相关概念,基本技术;了解大数据的应用及相关认识。(二)大数据关键技术与挑战基本内容:大数据处理基本流程、大数据处理模型、大数据关键技术、大数据处理工具、大数据时代面临的挑战。重点:大数据处理的基本流程、常用模型及相关问题。难点:无。课程教学要求:理解掌握大数据处理的基本流程、常用模型,了解大数据关键技术和常用处理工具、大数据处理会遇到的问题。(三)Hadoop基本内容:Hadoop概述、Hadoop的功能与作用、Hadoop的优点、Hadoop的应用现状和发展趋势、Hadoop项目及其结构、Hadoop的体系结构、Hadoop与分布式开发、Hadoop应用案例、Hadoop平台上的海量数据排序重点:Hadoop的结构、功能及作用。难点:Hadoop的功能与作用。课程教学要求:理解掌握Hadoop的结构、功能及作用;了解Hadoop的体系结构、Hadoop与分布式开发、Hadoop应用案例。(四)MapReduce基本内容:分布式并行编程:编程方式的变革、MapReduce模型概述、Map和Reduce函数、MapReduce工作流程、并行计算的实现;实例分析:WordCount、新MapReduce框架Yarn。重点:MapReduce模型概述、MapReduce工作流程、并行计算的实现。难点:MapReduce工作流程、并行计算的实现。课程教学要求:理解掌握MapReduce模型及工作流程,熟悉其相关案例分析过程。(五)HDFS基本内容:HDFS的假设与目标、HDFS的相关概念、HDFS体系结构、HDFS命名空间、HDFS存储原理、通讯协议、数据错误与异常、从HDFS看分布式文件系统的设计需求。重点:HDFS的相关概念及体系结构难点:HDFS体系结构课程教学要求:理解HDFS的假设与目标及相关概念;掌握HDFS体系结构、HDFS命名空间、HDFS存储原理、通讯协议、数据错误与异常。(六)Zookeeper基本内容:Zookeeper简介(系统架构、设计目的和特点)、Zookeeper的工作原理、Zookeeper的数据模型、Zookeeper的典型应用场景。重点:Zookeeper的工作原理。难点:Zookeeper的工作原理及数据模型。课程教学要求:了解Zookeeper的系统架构、设计目的和特点;理解掌握Zookeeper的工作原理和数据模型,熟悉Zookeeper的典型应用场景。(七)HBase基本内容:HBase简介、HBase使用场景和成功案例、HBase和传统关系数据库的对比分析、HBase访问接口、HBase数据模型、HBase系统架构、HBase存储格式、读写数据、MapReduceonHBase。重点:HBase数据模型、系统架构及数据存储格式。难点:HBase数据模型和系统架构。课程教学要求:了解HBase的相关概念;理解掌握HBase数据模型、系统架构及数据存储格式和数据的读写。(八)流计算与图计算基本内容:流计算概述、流计算处理流程、流计算应用、流计算框架Storm;图计算简介、GooglePregel简介、GooglePregel图计算模型、Pregel的C++API、Pregel模型的基本体系结构、Pregel模型的应用实例、改进的图计算模型重点:流计算处理流程、流计算应用、流计算框架GooglePregel图计算模型、Pregel模型的基本体系结构、Pregel模型的应用实例。难点:流计算处理流程、应用及计算框架;GooglePregel图计算和Pregel模型的基本体系结构。课程教学要求:理解掌握流计算与图计算的基本体系结构和处理流程;了解流计算与图计算的相关概念与应用。(九)NoSQL数据库基本内容:NoSQL简介、NoSQL现状、为什么要使用NoSQL数据库、NoSQL数据库的特点、NoSQL的五大挑战、对NoSQL的质疑、NoSQL的三大基石、NoSQL数据库与关系数据库的比较、典型的NoSQL数据库分类、NoSQL数据库开源软件。重点:NoSQL数据库的特点、面临的挑战与质疑NoSQL数据库与关系数据库的比较。难点:NoSQL的三大基石;NoSQL数据库与关系数据库的比较。课程教学要求:了解NoSQL数据库相关概念、特点和面临的挑战;理解掌握NoSQL的基石、NoSQL数据库与关系数据库的比较;熟悉典型的NoSQL数据库分类、NoSQL数据库开源软件。(十)云数据库基本内容:云数据库概述、云数据库的特性、云数据库是海量存储需求的必然选择、云数据库与传统的分布式数据库、云数据库的影响、云数据库产品、数据模型、数据访问方法、编程模型重点:云数据库的特性、云数据库与传统的分布式数据库的关系、数据模型与访问方法。难点:云数据库与传统的分布式数据库关系、数据模型与访问方法。课程教学要求:了解云数据库相关概念、影响与特性;理解云数据库是海量存储需求的必然选择、云数据库与传统的分布式数据库之间的关系;理解数据模型与访问方法;熟悉编程模型和云数据库产品。(十一)GoogleSpanner与GoogleDremel基本内容:Spanner背景、与BigTable、Megastore的对比、Spanner的功能、体系结构、Spanserver、Directory、数据模型、TrueTime、Spanner的并发控制;Dremel概述、Dremel的数据模型、嵌套列式存储、查询语言、查询的执行。重点:Spanner的功能、体系结构和数据模型、Dremel的数据模型、查询语言、查询的执行。难点:Spanner的功能、体系结构、TrueTime、Spanner的并发控制;Dremel概述、Dremel的数据模型、嵌套列式存储、查询语言、查询的执行。课程教学要求:了解Spanner背景和Dremel的相关概念;理解Spanner与BigTable、Megastore的差别、Spanner的功能、体系结构、Spanserver、Directory;掌握TrueTime、Spanner的并发控制、Dremel的数据模型、嵌套列式存储、查询语言、查询的执行。三、实验教学内容及基本要求序号内容基本要求学时1大数据概述了解大数据的基本概念、关键技术等22Hadoop掌握Hadoop的结构、功能及作用23MapReduce掌握MapReduce模型及工作流程24Zookeeper掌握Zookeeper的工作原理和数据模型25HBase掌握HBase数据模型、系统架构及数据存储格式和数据的读写。26流计算与图计算掌握流计算与图计算的基本体系结构和处理流程27NoSQL数据库了解NoSQL数据库开源软件28GoogleSpanner与GoogleDremel理解Spanner的功能、体系结构;掌握TrueTime、Spanner的并发控制、Dremel的数据模型、嵌套列式存储、查询语言、查询的执行。2合计16四、教学方法与手段本课程以课堂讲授为主,采用启发式教学法。为加强学生对所学内容的理解,掌握解题方法、技巧,教师应推荐相应的参考书,补充适当的课外练习。课后留作业,按时辅导答疑。五、各教学环节学时分配序号章节与内容课时作业量备注1大数据概述222大数据关键技术与挑战223Hadoop464MapReduce245HDFS246Zookeeper257HBase468流计算与图计算449NoSQL数据库4610云数据库2311GoogleSpanner与GoogleDremel46合计3248六、考核方式与成绩评定标准1、考核方法:闭卷(或开卷)考试,由平时成绩和期末考试成绩按一定比例总评成绩。2、成绩评定:平时成绩(作业,考勤,实验)占40%,期末成绩占60%。七、教学参考资源1、参考书目:[1].(英)特金顿,张治起(译),《Hadoop基础教程》,人民邮电出版社,2014年1月。[2].Tom

White,Hadoop,华东师范大学数据科学与工程学院译权威指南(第3版),清华大学出版社,2015年1月。[3].迪米达克(NickDimidu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论