数据挖掘数据预处理实验_第1页
数据挖掘数据预处理实验_第2页
数据挖掘数据预处理实验_第3页
数据挖掘数据预处理实验_第4页
数据挖掘数据预处理实验_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘预处理By何博威Clementine基本操作1.读入数据2.查看数据3.简单分析数据4.对数据的操作–

Sample,Balance,Aggregate,Sort,Merge,Append,Di

e对属性的处理Type,Filter,Dervive统计图的生成Plot,Distribution,Histogram示例建立流–选中的为数据导入模块

Type模块,查看以及修改属性项的类别和值域

数据审查模块,可以显示数据的一些基本信息在quality选项中,我们可以设置检测缺失值离群值和极值

由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段

点击Quality选项,我们可以看见每个属性是否有极值、离群值和缺失值

对于缺失值的处理,我们可以选择使用一定的算法或自己定义表达式或者产生随机数等方法这里,我们可以生成超节点来处理缺失值生成超节点超节点是由这些节点组成的可以进一步进行离群值和特征值的筛选数据地址/s/1zMmty数据介绍1.csv,校园区域用户语音交往记录

(u_id,ou_id,count,time),14,762,483条记录任务:1.统计通话记录中有很多条记录的通话次数为空的填充为0,并输出这些记录2.因为通话是具有双向性的(A给B电话与B给A打电话是相同的),对表1进行处理,消除所有冗余记录,i.e:<a,b,x,y>,<b,a,x,y>这样的一对就是冗余的,只要保留一个3.统计表中出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论