人工智能导论-项目10-数据挖掘_第1页
人工智能导论-项目10-数据挖掘_第2页
人工智能导论-项目10-数据挖掘_第3页
人工智能导论-项目10-数据挖掘_第4页
人工智能导论-项目10-数据挖掘_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能导论项目十

数据挖掘01项目背景02思维导图03思政聚焦04项目相关知识05项目任务目录CONTENTS06项目小结与展望01项目概述数据挖掘技术介绍数据挖掘则是机器学习中的一个重要分支,即从大量的数据中挖掘出有价值、关键的信息来帮助决策。从商业的角度上看,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。数据挖掘相关应用数据挖掘是人工智能领域非常重要的一个分支,通常也称为数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),数据发掘在零售业、制造业、财务金融保险、通讯及医疗服务等相关领域都有非常广泛的应用。并且,很多公司运用数据挖掘技术取得了很多成功的案例,比如,电子商务网站(淘宝、京东、苏宁等等)对网站数据进行分析,识别用户的行为模式,对用户进行个性化推荐,优化网站设计02思维导图项目十思维导图03项目知识准备数据挖掘的基本步骤数据挖掘步骤神经网络算法010203040506数据挖掘常用方法决策树算法遗传算法关联规则算法相关回归模型聚类算法07分类算法数据挖掘经典算法神经网络算法神经网络技术起源于上世纪五六十年代,拥有输入层、隐藏层以及输出层。图10-15显示了基本了神经网络结构。由基本的神经网络可以组合、变换得到各种各样更加复杂的深度网络,比如卷积神经网络、循环神经网络、深度信念网络、生成对抗网络等等基于整幅人决策树算法决策树算法起源于E.B.Hunt等人于1966年发表的论文“experimentsinInduction”,改论文详细介绍了决策树的构建、应用的全过程。之后,(罗斯.昆兰)等人提出了ID3决策树算法,使得决策树算法的相关研究进入高潮,并由此衍生出C4.5、CART等相关决策树算法。顾名思义,决策树就是一棵树,一颗决策树包含一个根节点、若干个内部结点和若干个叶结点数据挖掘经典算法04课程思政数据挖掘技术应用传统的成绩管理系统可以对学生各科成绩进行统计,但是一门课程的成绩与不同科目之间的联系以及与上课老师讲授的方法,平时表现等这些隐藏信息可以用数据挖掘的方法建立模型来得到,并通过数据展示来看到这些因素是如何对成绩产生影响。通过数据挖掘从学生的成绩中找到隐含在其中的有效信息,这样既可以帮助老师了解学生的学习情况,又可以帮助学生了解学习重点,达到教学相长的目的。数据挖掘技术应用教师在上课的过程当中,很难对班上的每一位同学监管到。利用数据挖掘的知识,我们可以通过安装摄像头、对学生随机提问、课中完成一些小案例的方式统计出每一堂课上每个学生的行为、动作。根据这些统计的数据,可利用数据挖掘相关算法建立良好的模型,来分析每位同学的课上是否认值听课,每种教学方法对教学起到多大的作用进行对比。总之,这样一来,可以对教师的每堂课进行实时评价,进而帮助每位教师对自己的课堂质量很好的把控,提高教学质量。04项目任务任务1:人脸利用数据挖掘相关技术进行电影票房预测1、任务描述

该任务是利用数据挖掘相关技术对电影票房进行预测的一个案例。这个数据集train集中的数据训练模型,将test集数据导入模型得出目标值revenue即票房。数据集包含电影id,拍摄年份,预算,语言,名称,类型,总票房等53个字段。数据集可以从/kamalchhirang/tmdb-competition-additional-features和/kamalchhirang/tmdb-box-office-prediction-more-training-data进行下载2、技术分析本项目中主要使用的编程语言、编译工具以及python库总结如下:编程语言:Python编译工具:Pycharm本项目中涉及到的python库主要包括:pandas,numpy,matplotlib,sklearn,seaborn,datetime,dateutil任务1:人脸利用数据挖掘相关技术进行电影票房预测3、实验结果图任务1:人脸利用数据挖掘相关技术进行电影票房预测每年电影的总量每年电影的总量预算与票房之间的关系任务2:基于决策树的分类实践1、任务描述该任务主要是利用决策树对一个给定的数据集进行分类。这个数据集是企鹅数据集,包含企鹅的三种类别,分别是AdeliePenguin(Pygoscelisadeliae)、Gentoopenguin(Pygoscelispapua)以及Chinstrappenguin(Pygoscelisantarctica)。数据集可以从/DSW/6tree/penguins_raw.csv网址下载,下载的格式是csv格式。该数据集包含17个字段,其中主要的字段分别是:企鹅的种类、所属区域、CulmenLength、CulmenDepth(mm)、FlipperLength(mm)以及BodyMass(g)等。这里也是作为分类的字段组成特征向量输入到决策树中对决策树进行训练,然后对测试集进行检验。2、技术分析涉及技术包括python的numpy库、pandas库、seaborn库、graphviz库以及sklearn库。利用sklearn库结合其它的库训练一个决策树模型利用训练好的决策模型对测试样本进行分类测试,并得到一个分类混淆矩阵。任务2:基于决策树的分类实践3、实验结果图任务2:基于决策树的分类实践分类混淆矩阵分类决策树模型04项目小结与展望项目小结

在本章节我们主要介绍了数据挖掘定义、应用背景、基本步骤、经典算法以及两个数据挖掘的案例。通过本章的学习,同学们应该从这几个方面去把握和理解,尤其是两个案例的学习,需要按照本章的实验步骤一步一步去完成,最后得到一个完整结果展示出来。项目展望

数据挖掘在实际应用中能够很好的得到体现

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论