版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
XXX大学
数据科学与大数据
技术专业
建设方案目录TOC\o"1-5"\h\z\o"CurrentDocument"基本信息 1专业名称 1 专业代码 1 \o"CurrentDocument"学制与学历 1...招生对象 1 \o"CurrentDocument"培养目标和规格 1培养目标 1 人才规格 2 就业面向 4 \o"CurrentDocument"课程体系构建 6\o"CurrentDocument"公共基础课 6...\o"CurrentDocument"专业基础课 6...\o"CurrentDocument"Java程序设计 6\o"CurrentDocument"Linux操作系统 6\o"CurrentDocument"Mysql数据库 7\o"CurrentDocument"专业核心课 7...大数据导论 7\o"CurrentDocument"大数据开发技术(上) 7\o"CurrentDocument"大数据开发技术(下) 8\o"CurrentDocument"阿里云大数据基础 8\o"CurrentDocument"网络爬虫技术与应用 9\o"CurrentDocument"数据仓库理论与实践 9R语言入门 10数据分析 10\o"CurrentDocument"数据可视化 11\o"CurrentDocument"项目实训课 1...1\o"CurrentDocument"天猫品牌推荐实训 11\o"CurrentDocument"电商评价数据采集及分析 12\o"CurrentDocument"基于数据仓库的RFM用户画像项目 12\o"CurrentDocument"农场物联网数据分析项目 12\o"CurrentDocument"教学进程计划 16\o"CurrentDocument"教学计划表 1...6\o"CurrentDocument"综合实践进程表 1.6\o"CurrentDocument"实践教学体系 17\o"CurrentDocument"公共实践环节 17\o"CurrentDocument"课程实践环节 17\o"CurrentDocument"专业实践环节 17\o"CurrentDocument"毕业条件 17\o"CurrentDocument"学分规定 1..7.\o"CurrentDocument"证书规定 1..7.1基本信息专业名称数据科学与大数据技术专业代码080910T学制与学历授予学位:工学学士学历层次:本科学制:四年招生对象高中毕业生2培养目标和规格培养目标“数据科学与大数据技术”专业,培养德、智、体、美全面发展,掌握数据科学的基础知识、理论、及技术,包括面向大数据应用的数学、统计,计算机等学科基础知识,数据建模、高效分析与处理,统计学推断的基本理论、基本方法和基本技能。对自然科学和社会科学等应用领域中大数据的了解,具有较强的专业能力和良好外语运用能力,能胜任数据分析与挖掘算法研究和大数据系统开发的研究型和技术型人才。人才规格本专业是一门涉及应用数学、统计学、计算机科学等多领域的交叉学科。大学本科四年期间,本专业学生主要学习应用数学、统计学、计算机科学的基本理论和基本知识,打好坚实的数学基础,受到系统而扎实的计算机编程训练,具备较强的数据分析和信息处理能力,能在大数据科学与工程技术领域从事数据分析管理、系统设计开发、大数据处理应用、科学研究等方面的工作,具备综合运用所学知识分析和解决实际问题的能力。“数据科学与大数据技术”专业强调培养具有多学科交叉能力的大数据人才。该专业重点培养具有以下三方面素质的人才:一是理论性的,主要是对数据科学中模型的理解和运用;二是实践性的,主要是处理实际数据的能力。三是应用性的,主要是利用大数据的方法解决具体行业应用问题的能力。(一)毕业生应获得以下四方面素质:.思想道德素质坚持四项基本原则,坚持社会主义核心价值体系,热爱社会主义祖国,热爱中国共产党,努力学习马列主义、毛泽东思想、邓小平理论、“三个代表”和“以人为本”的科学发展观重要思想理论;具有科学的世界观、人生观和价值观;具有良好的思想品德、社会公德、职业道德和敬业爱岗、艰苦奋斗、热爱劳动、团结协作的精神;能够团结互助、乐于奉献和遵纪守法。.专业素质(1)熟练掌握大数据技术与应用技术核心专业知识和应用技术。包括信息论与编码、计算思维和数据科学、数据采集技术、大数据与数据中心、数据挖掘、大型数据库技术、数据可视化技术等。(2)具备从事大数据应用系统设计与实现的能力、特别在数据分析、数据管理、数据存储等方面有系统的学习,能发现、分析和解决实际工程技术问题。有良好的沟通能力,能够维护和管理大数据系统。(3)掌握相关文献检索方法、具有基本的专业资料分析与综合的能力,良好的文档与科学论文撰写能力。有较强的创新意识和创新能力。.文化素质具有深厚的人文底蕴、强烈的时代精神、民族精神;具有健全的心智和现代化、国际化视野;具有创新意识、创新精神和创新能力;具有团队精神、合作意识、竞争意识和与人交往的能力;树立正确的审美观念,具有良好的文化素质和一定的艺术审美修养。.身心素质规格掌握科学锻炼身体的方法,养成良好的体育锻炼和卫生习惯,达到国家规定的大学生健康测试标准;具有健康的体魄、良好的心理素质以及交流沟通能力和社会适应能力;树立正确的劳动观念,养成热爱劳动的习惯。(二)毕业生达到如下要求.具有人文社会科学素养、社会责任感和工程职业道德;.具有从事大数据工作所需的相关数学、分析以及实践管理知识;.掌握工程基础知识和本专业的基本理论知识,具有系统的实践学习经历;了解本专业的前沿发展现状和趋势;.具备设计和实施实验的能力,并能够对实验结果进行分析;.掌握基本的创新方法,具有追求创新的态度和意识;具有综合运用理论和技术手段设计系统和过程的能力,设计过程中能够综合考虑经济、环境、法律、安全、健康、伦理等制约因素;.掌握文献检索、资料查询及运用现代信息技术获取相关信息的基本方法;.了解与本专业相关的职业和行业的生产、设计、研究与开发、环境保护和可持续发展等方面的方针、政策和法津、法规,能正确认识对于客观世界和社会的影响;.具有一定的组织管理能力、表达能力和人际交往能力以及在团队中发挥作用的能力;.对终身学习有正确认识,具有不断学习和适应发展的能力;.具有国际视野和跨文化的交流、竞争与合作能力。(三)专业能力1、知识要求(1)掌握计算机基本结构、工作原理,计算机网络的基本概念和技术;(2)掌握软件工程的基本知识,熟悉软件工程每个阶段的任务和工具;(3)掌握操作系统的特点及功能,熟悉存储系统,网络系统的结构和原理;(4)掌握数据库系统的特点及功能,熟悉数据库表的设计和操作;(5)熟悉面向对象的程序设计方法,包含C#语言或JAVA或.NET语言、HTML语言、PHP语言、或Python语言;(6)熟悉网络应用部署、网址建设及维护的相关技术;(7)熟悉分布式系统的特点和核心技术,熟悉HTTP、REST、SOAP协议;(8)了解虚拟化、大数据相关的技术;(9)熟悉大数据分析处理相关技术、包括数据获取和预处理、数据存储、数据应用开发、数据挖掘和分析、数据可视化等;(10)熟悉大数据相关系统的技术架构,工作原理和使用技术,包括Hadoop、HBase、Hive、Spark等;(11)掌握大数据分析项目的调研,方案设计,项目管理以及绩效评定方法。;(12)了解业内大数据系统的常用架构,以及企业级的解决方案(13)熟悉信息安全相关标准及法规。2、能力要求(1)具有设计、开发、测试和部署Web应用的能力;(2)具有为软件系统开发REST接口的能力;(3)具有操作和使用大数据相关系统的能力,包括Hadoop、HBase、Hive、Spark,阿里云大数据平台等;(4)具有使用ETL工具对数据进行预处理的能力;(5)具有保障质量的完成数据分析项目的能力;(6)具有合理有效的设计数据可视化展示系统的能力;(7)具有根据企业行业场景,设计方案,完成数据清洗,数据编程,数据分析,效果评估的能力。2.3就业面向大数据不仅用来描述大量的数据,还涵盖了处理数据的速度。大数据是数据分析的前沿技术,从各种各样类型的数据中快速获取有价值信息的能力就是大数据技术。只有在真实的应用场景中才能让企业对大数据的价值有一个直观感受,目前来看,大数据主要有五个方面的应用场景,分别是:(1)利用大数据实现庞大知识库:金融、客户服务、保险、交通运输、医药等行业需要储备规模巨大的知识库;(2)利用大数据实现客户交互改进:电信、零售、旅游、金融服务和交通等行业将快速抓取客户信息,从而了解客户需求作为首要任务;(3)利用大数据实现运营分析优化:制造、能源、公共事业、电信、旅游和运输等行业需要实时关注突发事件、通过监控提升运营效率并预测潜在风险;(4)利用大数据实现IT效率和规模效益:企业要增强现有数据仓库基础架构,实现大
数据传输、快速查询的需求,确保有效利用预测分析和实现商业智能;(5)利用大数据实现智能安全防范:政府、保险等行业亟待利用大数据技术补充和加强传统的安全解决方案。尽管大数据行业刚刚进入发展期,但市场竞争已经相当激烈。企业在竞争中保持领先优势,需要不断扩充人才库。为适合信息社会的人才需求大致分为三个方向,如下:大数据相关的职业发展方向序号核心方向专业能力1大数据开发方向1、熟练Hadoop、Spark、Storm等主流大数据平台的核心框架;2、深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法;3、熟练掌握Hadoop整个生态系统的组件如:Yarn,HBase、Hive等重要组件,能够实现对平台监控、辅助运维系统的开发。通过学习一系列面向开发者的Hadoop、阿里云等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,能够从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工作,如性能改进、功能扩展、故障分析等。2大数据分析方向1、理解并熟练掌握统计学、数据挖掘算法和技术;2、精通SPSSClementine/SASEM等数据挖掘平台,熟悉hive,精通SQL;3、运用阿里云的产品服务,为客户搭建符合业务需求的数据分析策略与执行方法;4、熟悉运用Matlab/R/Python/ExcelVBA或JAVA等编程语言从事数据统计及大数据分析,有Nosql/Hadoop等开发经验;5、具有丰富的海量数据挖掘项目实施经验,能独立完成挖掘项目的规划和实施。通过对数据的深度分析,挖掘出用户及客户需求、收入增长点、系统改进点。通过对业务和运营的全面理解,不断完善核心数据的建设,结合实际设计数据挖掘模型,优化业务指标体系。3大数据运维方向1、了解Hadoop、Spark、Storm等主流大数据平台的核心框架;2、熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具备大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建;3、熟悉各种大数据平台的部署方式,集群搭建,故障诊断、日常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化;4、熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,通过管理工具分配集群资源实现多用户协同使用集群资源。通过灵活、易扩展的Hadoop平台转变了传统的数据库和数据仓库系统架构,从Hadoop部署实施到运行全程的状态监控,保证大数据业务应用的安全性、快速响应及扩展能力!3课程体系构建公共基础课各个学校根据本身情况进行安排;专业基础课以下基础课为大数据专业需要包含的基础课程,其他扩展延伸类课程学校可以根据情况。Java程序设计本课程主要讲述了Java语言概述、面向对象编程初步、Java的基本语法、类库与数组、面向对象编程深入、异常处理和输入输出及多线程编程,包含JavaWeb开发和Android移动应用开发入门。Linux操作系统本课程是一门专业基础课程,主要讲述了Linux操作系统的安装,网络的配置方法及ftp、dns、web等服务器的配置和使用。学生通过该课程学习能够掌握linux操作系统下的基本应用,能够掌握作为系统管理员的职责和任务,能够通过将独立的命令衔接起来组成一个完整的操作。Mysql数据库面向计算机相关专业的一门专业基础课,涉及数据库基础知识、MySQL数据库的安装和配置、数据库和表的操作、事务管理、锁管理、存储过程管理、视图管理、函数管理、应用程序开发等内容,通过本课程的学习,学生能够了解数据库的基础知识,掌握MySQL数据库的开发和管理技术,并初步具备应用程序开发能力3.3专业核心课3.3.1大数据导论课程名称大数据导论课程内容本课程首先从宏观上讲述了大数据的特点,商业应用,发展和职业前景。然后对主流的大数据技术和生态圈进行了介绍,了解其他和大数据技术之间关系,最后对不同类型的大数据的分析和处理系统,解决方案和行业案例进行剖析和讲解。课程特色学生完成课程后的总体目标是:(1)清晰了解大数据的概念,了解行业发展和现状(2)清晰了解主流的大数据技术体系和生态,理解主要模块的功能和作用(3)理解大数据分析和处理系统架构和处理流程,了解主要的方法和原则(4)了解大数据系统在行业中的应用,能够理解实际案例3.3.2大数据开发技术(上)课程名称大数据开发技术(上)课程内容本课程详细讲解了大数据生态体系的各个模块的功能和开发技术。包括Hadoop体系中的HDFS,Hbase进行数据操作,MapReduce进行数据开发,YARN进行资源配置,Hive完成数据仓库,Pig进行数据分析,理解其基本原理,并通过实验掌握其操作和编程开发。
课程特色学生完成课程后的总体目标是:(1)掌握大数据主流技术体系各个模块的功能和基本原理(2)掌握各个技术模块的安装,基本操作与开发(3)能够根据需求,完成对应模块上的应用开发(4)理解大数据解决方案中的技术框架,能够基于已有的框架完成一般项目的大数据应用开发3.3.3大数据开发技术(下)课程名称大数据开发技术(上)课程内容本课程详细讲解了大数据生态体系的各个模块的功能和开发技术。包括Oozie完成工作流设计,Zookeeper完成分布式进程协调,Sqoop完成数据传输,Flume完成日志收集等模块,最后介绍Spark生态体系,及其Scala基础和SparkSQL开发。理解其基本原理,并通过实验掌握其操作和编程开发。课程特色学生完成课程后的总体目标是:(1)掌握大数据主流技术体系各个模块的功能和基本原理(2)掌握各个技术模块的安装,基本操作与开发(3)能够根据需求,完成对应模块上的应用开发(4)理解大数据解决方案中的技术框架,能够基于已有的框架完成一般项目的大数据应用开发3.3.4阿里云大数据基础课程名称阿里云大数据技术
课程内容本课程全面的讲解阿里云大数据平台的产品,包括大数据计算服务MaxCompute,分析型数据库AnalyticDB,表格存储TableStore和大数据开发平台DataIDE,以及典型的大数据应用产品。包括每个产品的使用场景,技术特点,以及实际操作实验。并结合具体场景,阐述基于阿里云平台上的数据开发和口实际数据分析项目的流程。课程特色本课程基于真实的阿里云大数据开发环境,配合丰富的实验能够让学生上手实验各类大数据产品的开发和操作,提供对实际工作环境的真实演练。另一方面,根据大数据开发平台,掌握真实项目中的数据开发和口运维工作的操作,提升对实际数据项目的认识,并结合真实案例,理解和掌握真实的数据开发工程中的流程。3.3.5网络爬虫技术与应用课程名称网络爬虫课程内容课程包括网络爬虫基本理论知识的介绍,深入剖析网络爬虫进行数据采集的过程和策略,如何抓取不同类型的数据和文档内容,以及爬取过程中的优化。通过一种常见工具完成对指定任务的爬取,并存储本地系统中。课程特色系统介绍了网络爬虫的处理过程、工具、方法。并通过一个实例完成对指定任务的爬取工作。3.3.6数据仓库理论与实践课程名称数据仓库理论与实践课程内容数据仓库理论与实践作为大数据应用基础往往易被忽视,为了能够更加有效衔接数据仓库与大数据的知识体系,《数据仓库理论与实践》课程从数据库基础开始,通过对基本概念回顾及介绍,进一步阐述数据仓库相关概念,形成较为完整的方法论体系,有效指导数据仓库的设计开发,并进一步指导项目的实施落地,通过介绍数据ETL过程、数据汇总过程、关键绩效指标分析、报表与即席查询、OLAP分析、数据挖掘等方法,使学员学到数据处理的思路与能力方法;通过介绍数据质量及元数据管理,使学员了解数据应用的本质,并将其有效运用于数据集市及数据仓库解决方案中,最后将大数据与数据仓库相结合,使学员了解影响大数据解决方案的关键因素,并对大数
据技术体系、大数据管理方法及未来发展方向作简要介绍课程特色数据仓库作为传统数据库的发展和延续,具备解决基础数据及汇总数据问题的能力;同时数据仓库作为大数据技术应用的前提,又具备承载大数据应用及相关场景问题的解决能力。课程通过将数据库、数据仓库以及大数据技术三者紧密结合,从数据处理到数据管理的角度构建了清晰的技术学习路线,从知识体系和能力体系两个角度对有志于从事相关职业发展的学员提供了有效指导3.3.7R语言入门课程名称R语言入门课程内容本门课程从下载安装R开始,讲解了如何通过R完成数据的导入导出,和常见的数据处理。然后重点讲解了如何熟练运用R的函数和方法,完成常见的数据分析和可视化展示。课程目的通过本课程学习,能够掌握1)R的安装和工作台使用2)导入导出数据,并进行简单的数据处理3)利用R中的函数和包进行简单的数据分析4)利用R进行数据可视化展示3.3.8数据分析课程名称数据分析课程内容通过课程的学习,理解数据收集的重要性,以及数据收集方法的局限,认清这些因素是如何影响分析推断的。掌握分析推断的统计技术,熟练使用数据软件(Python)来分析数据,利用Excel制作分析图表,具备良好的数据呈现技能。对数据分析报告的撰写有一定程度的掌握,便于在工作中实际操作。通过本课程的学习,应认识数据分析在企业经营和价值增值中的地位和作用,掌握数据分析的基本理论与方法,熟练地进行基本的数据处理、分析、报告撰写等活动。课程特色数据分析是以业务数据及其他相关数据为依据,采用一系列专门的分析技术和方法,对企业等经济组织过去和现在有关营销活动、投资活动、经营活动、社会活动的盈利能力、营运能力和增长能力状况等进行分析与评价,为企业的经营管理者了解企业过去、评价企业现状、预测企业未来、做出正确决策提供准确的信息或依据的应用学科。3.3.9数据可视化课程名称数据可视化课程内容本课程从数据可视化的发展,理解数据和可视化的作用入手,介绍可视化的工具和设计的方法。具体结合Tableau和D3.js的工具,让学生掌握可视化的组件,以及各种组合成为的可视化图表。并结合不同类型的数据和场景,介绍各中设计方法和最佳实践,学生如何产生的合适的可视化内容。最后结合案例,理解可视化在各个领域的实际应用。课程特色通过到数据可视化开源技术的导入,让学生深入学习数据可视化的概念和实操方法。3.4项目实训课3.4.1天猫品牌推荐实训课程名称天猫品牌推荐课程内容基于海量真实的天猫用户数据,通过阿里云MaxCompute和DatalDE平台,完成对用户进行品牌推荐的系统设计和工程项目。整个项目由浅入深,引导学生通过随机推荐,热销推荐,以及机器学习建立模型等不同方式设计推荐系统。并要求学生基于对数据的理解,完成从数据导入,数据处理,算法设计,到生成特征,进行模型训练和验证模型的全部过程。基于阿里云大数据开发平台,完成一个完整的大数据项目的流程。课程特色本项目基于真实的用户数据,指导学生完成一个常见的商用推荐系统的设计和开发。一方面能够让学生理解和体验真实的大数据项目中,必须首先要理解问题,理解数据,再对数据进行加工处理后,才能开展适合的分析,建模和开发的工作。另一方面,基于阿里云大数据平台,学生能够完成完整的项目级的大数据分析和开发工作,实践和训练多种分析和开发的方法。
3.4.2电商评价数据采集及分析项目名称使用Nutch/WebController工具实现电商评价数据的爬取项目介绍使用通用爬虫框架和工具(Nutch/WebController),通过编程实现抓取互联网主要电商(可指定配置)的商品售卖的评价数据,并对这些数据进行整理、存储,用于后续的数据分析。基于通用爬虫框架,让学员在实现过程中可以深刻掌握爬虫原理,并能融会贯通,可以通过同样的技术手段实现互联网数据的采集和加工。项目特色通过一个实例完整实现限定数据的爬取,并取于本地系统。3.4.3基于数据仓库的RFM用户画像项目项目名称利用数据仓库构建电信客户画像标签系统使用阿里云MaxComputer和DatalDE平台大数据技术。基于手机用户基础数据,精准、快速地分析客户行为特征、消费习惯、需求偏好等重要商业信息,形成客户3600标签画像,帮助企业洞察客户、发现商机、提升决策能力,实现“以客户为中心”的精准营销和个性化服务。项目介绍项目应用场景:应用一、电信行业可用用户画像指导厅台、客服营销应用二、电信行业可用标签系统帮助广告平台筛选目标客户应用三、金融行业可以和游戏跨界用户画像数据整合,助力运营创新应用四、公共安全行业的智慧城市可以以此打造更加安全的公众场所采用RFM模型技术生成用户生活标签。通过扩充的数据源,引入流量数据,通项目特色过统计流量相关数据,包含APP、网站、关键字、内容,并结合语音和行业短信数据,利用RFM模型对近度、频度、深度分别进行评价,标示出用户对该标签表征属性的强弱程度,筛选出最佳目标客户群。3.4.4农场物联网数据分析项目项目名称关于农场物联网大数据的实际应用项目项目介绍项目描述:某蔬菜农场种植的蔬菜种类有500多种,不同的蔬菜种植的时间、生长周期、病虫种类、施肥好周期、土壤成分等均不相同,3年以来农场盈利微薄,蔬菜销售市场一直供不应求,现农场可以提供所有的数据源,请帮助农场优化种植蔬菜的种类,提高利润。农场建设了物联网数据采集系统,所有传感器采集的数据均存储在数据仓库中;
同时农科院提供所有蔬菜科学种植的标准数据。确定项目目的后,根据分析需要采集数据,明确数据种类和来源;导入数据,进行数据质量检查、数据清洗,数据比对、确保数据的质量;寻找数据特征和关联性,设计算法、建立多个模型进行训练,得出最佳结果;再通过倒推法进行分析检查数据结果的精确性;最后形成报表。项目特色通过此项目的实战,学生能整体了解大数据分析项目的流程和思路;能从项目立项分析、确定分析目标到项目分析设计。从项目实战本身能从数据采集、数据导入、数据质量控制、数据关联分析、数据比对、算法设计、模型建立、数据报表等方面得到动手训练。3.4.5基于大数据可视化的城市通勤特征分析研究项目名称基于大数据可视化的城市通勤特征分析研究项目介绍项目描述:本案例目的是通过对某地区公共交通卡刷卡数据的汇总分析和可视化展示,来实现对城市通勤特征、城市功能区分布的现状了解,并分析给出城市交通未来发展方向。项目流程:1)实际问题的定义;2)实际问题与刷卡数据的匹配;3)数据的读入与并行处理过程;4)利用空间聚类分析方法、词云分析等模型及技术,以及地图展示等可视化方法来分析数据。项目特色在本案例中,学生可以学习到如下技能:1)如何匹配数据和需解决的实际问题;2)GB级数据的单机处理和分布式处理方案;3)城市运营型大数据的特点与获取;4)词云分析与地图匹配等可视化方法的R或者Python实现;5)空间聚类等统计模型与方法。3.4.6上市公司新闻情感与股票价格的关系项目名称上市公司新闻情感与股票价格的关系项目描述:本案例目的是基于对某股市新闻网站的爬虫数据分析,对上市公司新项目介绍闻情感与股票价格的关系进行分析,得出哪些舆情会影响股票价格。项目流程:1)对网站爬取的数据进行清洗与预处理;2)以实时新闻作为情感提取的语料源,利用文本挖掘方法对网站爬虫数据进行提取和分析;3)运用支持向量机等方法建立情感分析模型;4)利用数据可视化技术对分析结果进行展示。项目特色在本案例中,学生可以学习到如下技能:1)舆情分析类问题的解决思路和方法;2)情感分析模型构建的方法;3)对网络爬虫获取的数据的认识和处理方法;4)文本挖掘分析方法;5)数据可视化展示技术。3.4.7某能源企业工厂生产参数优化项目名称某能源企业工厂生产参数优化项目介绍项目描述:本案例目的是通过对工厂生产参数和产品良品率之间的关系分析,找出影响产品良品率的因素,同时精确的预测出每一批产品的良品率,最后给出生产参数的最优初始值参数,最终提升产品的良品率。项目流程:1)数据清洗和预处理;2)特征选取,在所有生产参数中选出影响良品率的关键特征;3)特征分类,对所选特征用分类算法进行分类;4)建立回归模型,来预测每一批次产品的良品率;5)算法应用,将模型应用到实际生产参数调整中。项目特色在本案例中,学生可以学习到如下技能:1)工厂生产参数优化类问题的解决思路和方法,这类问题对稳定性要求比较高;2)分类算法、缺失值处理、异常值处理等数据清洗和预处理的方法;3)特征选取的方法;4)特征分类的方法;5)回归模型的建立和验证方法。3.4.8某地区电力公司欠费预测项目名称某地区电力公司欠费预测
项目介绍本案例目的是根据电力公司的用户用电历史数据和缴费历史数据,预测未来三个月哪一个大客户会发生欠费行为,提前做好风险控制。项目需要给出每一个客户未来三个月可能欠款的概率,对于高风险客户进行介入,使得电力公司风险最小化。项目流程:.建模客户选取:选择怎样的客户作为建模客户(有2年以上完整历史数据的客户);.客户标签化:并对每一个客户的每一个阶段是否有欠费行为打标签;.建立模型:使用SVM,logistic回归等算法进行建模;.模型验证:进行模型验证,确定最后模型,用来对未来欠费行为进行预测。项目特色在本案例中,学生可以学习到如下技能:1)电力行业预测类问题的解决思路和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论