数据挖掘的步骤_第1页
数据挖掘的步骤_第2页
数据挖掘的步骤_第3页
数据挖掘的步骤_第4页
数据挖掘的步骤_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘的步骤2知识目标对数据的预处理数据的集成01能力目标了解数据集选取掌握数据清理掌握数据变换和数据离散化02学习目标3学习任务数据集选取数据预处理数据分析算法分析总结改进4目录01数据集选取02数据预处理03模型建立03分析总结改进5

公共数据集

许多的高校与政府部门会公布一些开源的公开数据集,这些数据集都是经过处理的高质量数据集。公共数据集一般是用于科研,研究算法实验项目。爬虫获取

目前各大网站提供大量信息,知乎提供各个话题的优质回答、豆瓣提供电影等娱乐信息的评分与评论。数据集选取6当我们得到原始数据之后,就需要对数据进行预处理,为后续建模奠定基础。数据清洗

数据清洗的主要目的去除数据集中的重复值、缺失值、异常值等。数据变换

数据变换指某些特殊的数据需要转换为其他形式。比如通过归一化降属性放入0-1的区间内、图像数据的标准化处理等。特征工程

特征工程作为模型的输入,决定了模型好坏的上限,是一个非常重要的部分。特征工程可分为人工特征与机器特征。数据预处理7集成学习两大原则:模型建立个体学习器之间强依赖关系、必须串行生成序列化方法,Boosting。个体学习器不存在强依赖关系、可同时生成的并行化方法,Bagging、RF。8模型的选择与调参就是为了逼近这个上限。模型的建立指为了挖掘出有用的信息所选用的各种算法,无论是传统的机器学习算法,还是近年比较流行的深度学习算法。按照学习的方式不同,机器学习算法可分为:监督学习、非监督学习、半监督学习、强化学习。面对不同的数据情况、可选用分类、回归、聚类、关联分析等不同的算法。目前单模型都不能得到很好的结果,都采用集成学习的理念,将模型进行融合。模型建立9在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。分析总结改进10目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web数据挖掘等。这些方法从不同的角度对数据进行挖掘。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论