已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘预处理By何博威Clementine基本操作1.读入数据2.查看数据3.简单分析数据4.对数据的操作–
Sample,Balance,Aggregate,Sort,Merge,Append,Di
e对属性的处理Type,Filter,Dervive统计图的生成Plot,Distribution,Histogram示例建立流–选中的为数据导入模块
Type模块,查看以及修改属性项的类别和值域
数据审查模块,可以显示数据的一些基本信息在quality选项中,我们可以设置检测缺失值离群值和极值
由于churn是类型节点中定义的唯一目标字段,系统会自动将其用作交叠字段
点击Quality选项,我们可以看见每个属性是否有极值、离群值和缺失值
对于缺失值的处理,我们可以选择使用一定的算法或自己定义表达式或者产生随机数等方法这里,我们可以生成超节点来处理缺失值生成超节点超节点是由这些节点组成的可以进一步进行离群值和特征值的筛选数据地址/s/1zMmty数据介绍1.csv,校园区域用户语音交往记录
(u_id,ou_id,count,time),14,762,483条记录任务:1.统计通话记录中有很多条记录的通话次数为空的填充为0,并输出这些记录2.因为通话是具有双向性的(A给B电话与B给A打电话是相同的),对表1进行处理,消除所有冗余记录,i.e:<a,b,x,y>,<b,a,x,y>这样的一对就是冗余的,只要保留一个3.统计表中出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新解读《GBT 41032-2021宇航用元器件结构分析通 用指南》
- 2024年汽车销售代理合同范本
- 2024年各类顾问劳动合同范本
- 万科物业服务合同x2024年
- 中级经济法第五章合同法律制度2024年
- 新疆行政职业能力测验模拟41
- 北京申论模拟57
- 2024年软件购买合同范本
- 2009年7月12日西安市公务员面试真题
- 2024年光盘复制协议
- 传统文化的现代化表达创新手法和工具
- Unit 1 Assessing Your Progress P20高一英语新人教必修Book 1
- 2年级下册小学语文校本教材(二)
- 热干面介绍课件
- 医疗器械代理居间协议书:免修版模板范本
- 文言文实虚词复习语文八年级上册
- 员工(车辆)外出申请单
- 第三单元整体教学课件七年级语文上册
- 结合实际-谈谈怎样做一名人民满意的公务员
- 统编版语文二年级上册第五单元大单元教学设计
- 【数学】苏教六数第七单元制定旅游计划教案小学数学苏教版六年级下册
评论
0/150
提交评论