本科课程教学大纲《数据科学导论》_第1页
本科课程教学大纲《数据科学导论》_第2页
本科课程教学大纲《数据科学导论》_第3页
本科课程教学大纲《数据科学导论》_第4页
本科课程教学大纲《数据科学导论》_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据科学导论》教学大纲课程及教师基本信息课程名称(中/英文)数据科学导论introductiontodatascience学分4+2总学时17×4=68是/否含实验(实践)教学环节是实验(实践)教学环节学时4(折算2学分)课程编号21020066周学时4课程性质学科基础授课对象理科实验班授课教室/授课时间星期二(1-2)星期五(7-8)先修课程要求高等数学、高等代数、概论论与数理统计任课教师信息姓名覃雄派职称讲师办公时间及地点:星期一至星期五,9:00am-5:00pm办公电话:邮箱地址:助教信息姓名:/助教办公(答疑或辅导)时间:习题课地点、时间:星期五(11-14)助教联系电话、邮箱地址:/考核方式平时考核占总考核比例(60%)考核类型课程作业研讨交流期中考试占总考核比例///期末考核占总考核比例(40%)请写明具体的考核形式,如开卷考试、闭卷考试、论文写作等。强调诚信考试。见如下说明。注1:平时考核(100%)=15%平时作业+15%project1流数据处理/结构化数据分析+15%project2文本分析+15%project3图数据分析;2:平时考核应占总成绩的40-70%。考核办法说明:本课程的考核分为三个方面,包括平时上机实践、3个大作业(即流数据处理/结构化数据分析、文本分析、图数据分析)和期末闭卷考试。平时上机实践,学生必须完成上机练习题目,并提交上机实验报告;大作业锻炼学生综合运用所学知识、解决复杂问题的能力;期末考试考查学生对知识点的掌握和灵活运用能力。最终成绩的计算按照平时成绩:大作业1:大作业2:大作业3:期末成绩=15:15:15:15:40的比例产生。二、任课教师简介三、课程简介课程简介:“数据科学导论”是一门入门课程,同时也是“数据科学”课程群统领式的课程,把学生引进数据科学的大门。它的目标有两个:一个是扩展学生在数据科学方面的视野培养兴趣,另一个是为学习后续课程打下坚实的基础,培养数据科学家。教学内容分为四大模块,分别是基础(base)模块、关系数据/流数据处理(relational&stream)模块、文本数据处理和分析(text)模块、图数据处理和分析(graph)模块。基础模块为后续的3个实践模块的基础,内容包括:概念:数据科学概论,主要介绍数据科学的基本概念、大数据及其价值、数据处理的全生命周期,包括数据的采集和获取、数据预处理/清洗和集成、数据管理、数据分析、可视化和解释等;方法:包括各种数据模型、数据处理的不同模式(批处理和流式处理)、通用的数据分析方法、数据可视化等;平台和工具:包括分布式计算与大数据平台(Hadoop&Spark)以及Python语言。其中Python语言部分,包括对Python语言基础以及Python的几个重要的库(数据预处理库pandas、机器学习库Scikit-Learn、可视化库Matplotlib)的介绍。基础模块的内容划分如表1所示。表1数据科学导论课程内容的基础模块构成子模块内容base1数据科学概论、数据处理的全生命周期(从数据到大数据,再到大数据应用)base2数据科学语言Python与数据可视化入门base3分布式计算与大数据平台Hadoop/Spark,解决大数据的规模(volume)问题base4各种数据模型、通用的数据分析方法入门,解决大数据类型多样(variety)的问题base5数据处理的不同模式(批处理和流式处理),数据清洗和数据质量保证、数据集成,解决大数据速度快(velocity)和类型多样(veracity)的问题关系数据/流数据处理模块提供两个选项,可以根据需要进行选择。第一个选项侧重于介绍大数据的实时流式处理,内容包括流式处理基础、流式处理工具和流式处理应用,可以选择Storm作为典型流式数据处理系统加以介绍,大作业(project)部分可以针对传感器数据,实现实时汇总和可视化。第二个选项侧重于介绍关系模型、SQL语言以及分布式大数据多维分析(OLAP),工具部分可以选择MySQL以及SQLonHadoop系统加以介绍,会用即可,大作业部分可以针对销售数据进行多维分析以及可视化。文本数据处理和分析模块介绍相关的处理平台和分析工具,引导学生使用相关的工具实现文本的获取、处理、分词、索引与检索、分类、可视化等关键任务。大作业部分基于短文本数据实现垃圾信息的自动过滤。图数据处理和分析模块依赖于GraphXonSpark平台(工具)或者Neo4J数据库,对图数据进行创建、查询、路径分析、PageRank、社区检测等。大作业部分可以基于公开数据集进行重要节点排名、社区检测等,甚至可以扩展到金融领域,实现欺诈团伙的检测。这3个模块都带有很强的实践性,老师在讲解平台、方法和应用的基础上,给学生交代大作业,要求学生熟练使用上述平台和工具,对数据集进行处理、分析和可视化,并且解释结果,体现数据的价值。课程目标:教学目标集中于两个方面:一个是理论方法的学习,即掌握数据分析的基本思路、基本理论与基本方法;一个是实践应用能力培养,即面向实际应用中典型的行业需求,能够设计并实现合理的解决方案。课程特点:“数据科学导论”是一门入门性质的课程,内容安排上尽量达到广度和深度的合理取舍,既避免泛泛而谈、没有重点,也避免只及一点、不及其余。从广度上来讲,通过课程帮助学生构建起一个相对完整的数据科学知识体系。理论部分包括了数据科学的基本概念、技术和方法,讨论了对不同类型数据(包括:文本、社交网络、社交媒体、时间序列、轨迹数据、音频/图像和视频等)的的处理流程、生命周期、处理模式、主要分析方法等。在应用部分,介绍了数据处理的基础设施、平台、工具以及行业案例。在深度上,在介绍完数据科学的基本概念、技术和方法以及主要的数据类型及其分析方法之后,课程选择关系数据/流数据、文本数据和图数据进行深入介绍,并且在应用部分设计了相应的实际案例,要求学生结合实际数据进行上机实践。四、学习要求与建议包括预习、复习、课堂讨论(或实验(实践)操作)、课外交流、作业和文献阅读等自主学习、课堂(或实验(实践)教学环节)纪律、课程考核等方面的要求与建议。1、掌握数据分析的基本思路、基本理论与基本方法。2、熟悉数据分析相关平台和工具的使用。3、加强动手实践,通过知识点案例和综合案例的学习以及3个大作业的完成,切实提高分析问题、解决问题的能力。五、教学内容和要求教学内容分为四大模块,分别是基础(base)模块、关系数据/流数据处理(relational&stream)模块、文本数据处理和分析(text)模块、图数据处理和分析(graph)模块。基础模块为后续的3个实践模块做准备工作。它的内容包括以下几方面。概念:数据科学概论,主要介绍数据科学的基本概念、大数据及其价值、数据处理的全生命周期,包括数据的采集和获取、数据预处理/清洗和集成、数据管理、数据分析、可视化和解释等。方法:包括各种数据模型、数据处理的不同模式(批处理和流式处理)、通用的数据分析方法、数据可视化等。平台和工具:包括分布式计算与大数据平台(Hadoop&Spark)以及Python语言。其中Python语言部分,包括对Python语言基础以及Python的几个重要的库(数据预处理库pandas、机器学习库Scikit-Learn、可视化库Matplotlib)的介绍。大数据具有4个关键的特点,分别是数据量大(volume)、数据类型多样(variety)、数据价值密度低(variety)以及速率快(velocity)。上述内容完全体现了大数据的这些特点。换个角度,从大数据处理的4个V来看,其中的分布式计算与大数据平台体现了数据量大,数据模型体现了数据类型多样,数据的清洗和集成体现了数据价值密度低,数据处理的不同模式体现了速率快。经过模块内部整理以后,base模块的内容可以划分成如下子模块,见表1。表1数据科学导论课程内容的模块与子模块子模块内容base1数据科学概论、数据处理的全生命周期(从数据到大数据,再到大数据应用)base2数据科学语言Python与数据可视化入门base3volume:分布式计算与大数据平台Hadoop/Sparkbase4variety:各种数据模型、通用的数据分析方法入门base5velocity&veracity:数据处理的不同模式(批处理和流式处理),数据清洗和数据质量保证、数据集成后续的3个模块除了理论介绍之外,还要介绍平台、方法和应用。由于是导论课程,其主要目的是把学生引进数据科学的大门,培养其对数据的感觉和兴趣,基础理论不必讲得太深入(可以放在后续专业选修课程中深入介绍),而是偏向工具的使用和应用的开发,让学生迅速获得数据处理分析和数据价值的感觉。特别注意的是,需要准备好必要的数据集,以便学生可以利用一些工具进行处理和分析。关系数据/流数据处理模块提供两个选项,可以根据需要进行选择。第一个选项侧重于介绍大数据的实时流式处理,内容包括流式处理基础、流式处理工具和流式处理应用,可以选择Storm作为典型流式数据处理系统加以介绍,大作业(project)部分可以针对传感器数据,实现实时汇总和可视化。第二个选项侧重于介绍关系模型、SQL语言以及分布式大数据多维分析(OLAP),工具部分可以选择MySQL以及SQLonHadoop系统加以介绍,会用即可,大作业部分可以针对销售数据进行多维分析以及可视化。文本数据处理和分析模块依赖于分布式的大数据处理平台和分析工具,包括Hadoop/Spark、NLTKforSpark、ScikitLearnforSpark等,使用各种文本分析方法,实现对文本的分词、索引与检索、情感分析、实体识别、可视化等关键任务。大作业部分可以针对产品评论进行情感分析,并且从产品维度、时间维度进行汇总,最后进行可视化,让用户了解热门产品及客户对不同产品的态度变化等。图数据处理和分析模块依赖于GraphXonSpark平台(工具)或者Neo4J数据库,对图数据进行创建、查询、路径分析、PageRank、社区检测等。大作业部分可以基于公开数据集进行重要节点排名、社区检测等,甚至可以扩展到金融领域,实现欺诈团伙的检测。这3个模块都带有很强的实践性,老师在讲解平台、方法和应用的基础上,给学生交代大作业,要求学生熟练使用上述平台和工具,对数据集进行处理、分析和可视化,并且解释结果,体现数据的价值。周内容备注1数据科学概论数据科学概论,主要介绍数据科学的基本概念、大数据及其价值、数据处理的全生命周期,包括数据的采集和获取、数据预处理/清洗和集成、数据管理、数据分析、可视化和解释等2数据科学语言Python数据科学语言Python与数据可视化入门3数据科学语言Python数据科学语言Python与数据可视化入门4分布式计算与大数据处理平台(volume)分布式计算与大数据平台Hadoop/Spark介绍6数据模型与通用数据处理方法(variety)各种数据模型、通用的数据分析方法入门5数据处理的不同模式、数据清洗与数据集成(velocity&veracity)数据处理的不同模式(批处理和流式处理),数据清洗和数据质量保证、数据集成7关系数据/流数据处理模块(relational/stream)与Project1关系数据/流数据处理模块提供两个选项,可以根据需要进行选择。第一个选项侧重于介绍大数据的实时流式处理,内容包括流式处理基础、流式处理工具和流式处理应用,可以选择Storm作为典型流式数据处理系统加以介绍,大作业(project)部分可以针对传感器数据,实现实时汇总和可视化。第二个选项侧重于介绍关系模型、SQL语言以及分布式大数据多维分析(OLAP),工具部分可以选择MySQL以及SQLonHadoop系统加以介绍,会用即可,大作业部分可以针对销售数据进行多维分析以及可视化。8关系数据/流数据处理模块(relational/stream)与Project1同上9关系数据/流数据处理模块(relational/stream)与Project1同上10文本数据处理和分析模块(text)与大作业2介绍与文本数据处理相关的处理平台和分析工具,引导学生使用相关的工具实现文本的获取、处理、分词、索引与检索、分类、可视化等关键任务。大作业部分基于短文本数据实现垃圾信息的自动过滤文本数据处理和分析模块依赖于分布式的大数据处理平台和分析工具,包括Hadoop/Spark、NLTKforSpark、ScikitLearnforSpark等,使用各种文本分析方法,实现对文本的分词、索引与检索、情感分析、实体识别、可视化等关键任务。大作业部分可以针对产品评论进行情感分析,并且从产品维度、时间维度进行汇总,最后进行可视化,让用户了解热门产品及客户对不同产品的态度变化等。11文本数据处理和分析模块(text)与Project2同上12文本数据处理和分析模块(text)与Project2同上13图数据处理和分析模块(graph)与Project3图数据处理和分析模块依赖于GraphXonSpark平台(工具)或者Neo4J数据库,对图数据进行创建、查询、路径分析、PageRank、社区检测等。大作业部分可以基于公开数据集进行重要节点排名、社区检测等,甚至可以扩展到金融领域,实现欺诈团伙的检测。14图数据处理和分析模块(graph)与Project3同上15图数据处理和分析模块(graph)与Project3同上16Project1、Project2、Project3演示与点评各个项目小组演示开发的软件系统,并且提交项目报告17Project1、Project

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论