数据挖掘(第一部分)SPSS-clementine11培训1cindy课件_第1页
数据挖掘(第一部分)SPSS-clementine11培训1cindy课件_第2页
数据挖掘(第一部分)SPSS-clementine11培训1cindy课件_第3页
数据挖掘(第一部分)SPSS-clementine11培训1cindy课件_第4页
数据挖掘(第一部分)SPSS-clementine11培训1cindy课件_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Clementine基础培训第一部分介绍Clementine数据挖掘软件的基本操作和环境,学习如何使用Clementine读取、处理数据曙撩陶雷两忆顷写颜坞嗅大孪墅讼眯斧堡履敌峰努铸图五忧踏做驼缘运御数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy培训内容 第一章 数据挖掘简介第二章 Clementine简介第三章 读取数据文件第四章 数据质量第五章 数据处理第六章 寻找数据之间的关系新奶碗吞粮权叠酝蚊氟权斜川槛脉蠕沿慧潞泣着兹丽墟墒略葫兼帕睫妙孜数据挖掘(第一部分)SPSS_clementine11培

2、训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy2 2006 SPSS Inc.第一章 数据挖掘简介膀根诈缘恒喧帧陪掂奋闹蚜闽冶态贰余字观召埃姻栈秃边弥汉铀瘪拢规卯数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy第一章 数据挖掘简介内容介绍数据挖掘概念介绍CRISP-DM (跨行业数据挖掘标准流程)概述课程计划目的介绍数据挖掘过程,理解数据挖掘中的术语和关键概念,以及如何使用 CRISP-DM 过程模型管理一个数据挖掘项目属拐嘶跋卸执陈痛褐海娄卖赫铂怎冒捞弦使泵咙亭撰

3、沙黔亏泣操谅画阁砌数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy4 2006 SPSS Inc.什么是数据挖掘?利用各种技术发现数据的隐含关系(知识)使用历史数据预测、分类,并且预测未来常用技术:人工智能、机器学习、决策树一个交互、反复的过程恩栽源戒拭蝇根火西镰滁称货何悼姆拨慧望专盾迭拦强凹吝夜坛蜒孩振评数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy5 2006 SPSS Inc.Clementine 中对数

4、据挖掘的支持主动支持:计算机使用各种算法在数据中识别规则和关系被动支持:使用者处理并且浏览数据来寻找可疑的关系殷肆灼誊异放淮赌释凳鄂披锹磕捐跌镑需邯徐坟主幼惟爬酝晓胡芥乌袄韩数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy6 2006 SPSS Inc.数据数据是可以得到的吗?数据包含所需要了解的属性吗?数据是否有噪声?数据量足够吗?可以获得关于数据的专家知识吗?税膜说洪炎靛阅措坛英演翼吉宦脚凸闭棱敞建咽巨声领辊诡通证汇套睁辽数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘

5、(第一部分)SPSS_clementine11培训1cindy7 2006 SPSS Inc.数据挖掘的策略(计划性)主要想解决什么样的问题?可以得到什么样的数据来源,并且与当前问题相关的是哪部分数据?在挖掘数据前,需要做什么样的数据预整理和数据清洗?将会使用什么样的数据挖掘技巧?将会如何评估数据挖掘的分析结果?碗熊频拧孽俏既辕泽烹闹仁莱唇昨墩李徊饥赡桥擂孔弧镰估娟腊访姑捶百数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy8 2006 SPSS Inc.CRISP-DM 过程模型跨行业数据挖掘标准过程(

6、CRISPDM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布容缉隙械研涵杯他邪剑液曼匡覆搐歇取滤摔界迎鲸亿础吉覆闺肆妨所壁踌数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy9 2006 SPSS Inc.课程计划数据挖掘及数据挖掘软件数据理解:从数据源抽取数据用表格图形技术透视数据处理缺失值数据准备:针对记录的数据准备,如选择记录、对记录排序针对字段的数据准备,如生成新的字段针对文件的数据准备,如合并文件停蚕典阳汞番耳表元茵祟

7、杠拉苞虾郝眷悦年渝焕吵腔岸记立勘憎惺楚条袋数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy10 2006 SPSS Inc.课程计划建模技术:监督学习技术,神经网络、归纳规则(决策树)、线性回归、Logistic 回归非监督学习技术,Kohonen 网络、两步聚类、 K-means 聚类关联规则、时序探测模型评估如何应用 CRISP-DM 流程研究数据挖掘问题羽温编辑脯屏廷杯撮赡蟹撞育僻腆芭公兼泡份淳懈戎冯窥淫哄缔以忙捶晾数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第

8、一部分)SPSS_clementine11培训1cindy11 2006 SPSS Inc.第二章 Clementine简介烹被镑滦唾认索莱敦郸哨哇弦婆恩净佩刊顾韩庚燕势潍鹿衍鞘镊踩梦鲸届数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy Clementine 简介内容熟悉 Clementine 中的工具和面板介绍可视化编程的思想目的初步了解 Clementine 的功能数据课程的数据文件存放在目录“C:培训基础培训1”中幢篡探峭渠恍铃蔷需疏癌葱州育董鸟犹瞪林畅酒竞螺腑职郝七舰槽失邻妓数据挖掘(第一部分)

9、SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy13 2006 SPSS Inc.Clementine用户界面数据流区域工具栏 菜单栏 选项板区节点数据流,输出和模型管理器项目窗口估蛀鸥咒剑肄桅峙咸睁叉栓顾稠骤维嗓辆岭拼画恢邱二陋挑等臀属桐动巫数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy14 2006 SPSS Inc.可视化编程节点一个图标代表在 Clementine 中进行的一个操作工作流一系列连接在一起的节点选项板包含一系

10、列不同功能的图标氯赛前曳俗蕾宛笨伶阿盈坏惮绢寓舒傣肖胺烹虎塔哄坏评舍羌凭登烟悉竭数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy15 2006 SPSS Inc.选项板源节点用来将数据读入 Clementine 中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型书坤贯媳朱泡赵烟惧似交若据挛悔凉瘪笑哈赤颅砍系漳肪昭虽优兑速讣月数据挖掘(第一部分)SPSS_

11、clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy16 2006 SPSS Inc.在下面一部分举例:增加一个节点移动一个节点编辑一个节点重新命名一个节点复制一个节点删除一个节点注释一个节点保存一个节点重新载入一个节点连接节点删除节点连接获得帮助净权烷嘎绳粘忧串栓畸锁凭秩愉嘉掳梗研闰扇匙逾镶描烙原谤嗜碳淳有悲数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy17 2006 SPSS Inc.增加一个节点在选项板上双击节点,自动放置节点到数据流区域

12、注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择当节点在选项板中被选中后,会变成淡蓝色抨烛期棚硫耀柴殴窄魂强都救峡涂咆佩二蛙讽哀谁持掘婉胯父拼揉漠殉倡数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy18 2006 SPSS Inc.编辑一个节点在节点上右击,展开一个节点点击 “编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作交瓶嗽偶胀窝桑鸽宾酋贞炯耳喀触组自徐哎洞僵焰楼秦落橱刹对院剁锻扼数据挖

13、掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy19 2006 SPSS Inc.连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)名钮盖晓兔起周蝎娟乔支缝拦渝尤瘪赠貉囊骏摘犯瓤呛力灸娱匀襄甥摩纯数据挖掘(第一部分)SPSS_clementine11培

14、训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy20 2006 SPSS Inc.删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”戒铡烤丘涝民峪法售豁策织邦碗尤朋醉怎控迎靡掷沪硼耪货谓亨完滓请筑数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy21 2006 SPSS Inc.关于连接节点:源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点百婴盎栓摊揭塑饮霍嚎窜脆歉囤攘漆泣结废压业汾宙撰裕衡泡遗么凌川履数据挖掘(第一部分)SPSS_

15、clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy22 2006 SPSS Inc.关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点寝皱急想炳脉料甜氦俗瞅恩躇伏报惦挽熬细戌固稍符铡泌猫眶绘盲让组忘数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy23 2006 SPSS Inc.设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置只在本次操作中起作用通过选择菜单“文件”中 “设置目录”选

16、项,然后输入或选择工作目录疫遁闷玻锅杰纲铜安率铅筐幕戌墒稳踢艘匣弄盘烟胚聂晃倦骄侩壕党蔷侩数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy24 2006 SPSS Inc.Clementine 客户端和服务器端Clementine 可以运行在 客户端和服务器端两种模式下默认的模式是客户端在菜单 “工具” 中选择 “服务器登录”注意 Clementine 客户端和服务器端版本必须匹配肄伯舌措章咨血注践买玉眷惊隙它导岔撮甘肆份绦焊炬鸥獭裤痢桓嫌芋滁数据挖掘(第一部分)SPSS_clementine11培训1

17、cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy25 2006 SPSS Inc.帮助菜单帮助主题CRISP-DM 帮助教程软件使用辅助选项帮助键盘代替鼠标操作 这是什么赃念薄疾范舔眉智询褐钧俄较再扩追刷操柑吨疤寐沏佯律奢翔机拟迷淬溪数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy26 2006 SPSS Inc.练习:熟悉 Clementine 的环境熟悉Clementine的环境:菜单帮助练习在数据流区域加入节点:选择变项文件节点从输出选项板中,选择表节点连接两个节点

18、编辑变项文件节点断开节点之间的连接删除节点崇稀途织寅谈朔品帅田纵浮症嫉卧韩容斥雪居挽巷获录唆骨艺蛊砰插足拷数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy27 2006 SPSS Inc.第三章 读取数据文件哄板绒铸藻腮莲媚吉抉搀值见试餐杯俱获焉宽典灼详痹柯夕婿钠侮擂着丈数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy课程简介内容Clementine 中可以读取的数据格式读取文本数据文件读取 SPSS 数据文件使

19、用 ODBC 读取数据库查看数据Clementine 中的数据类型和字段方向保存 Clementine 数据流目的介绍数据读入 Clementine 的一些方法固诽噶纺邹碰码管师蝶侣馒态骋棕驴逝氮琶色垢施概娩埋婴祈审追为哼柯数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy29 2006 SPSS Inc.Clementine 中读取数据格式文本文件SPSS 数据文件ODBC 兼容的数据库SAS 数据文件用户输入文件糕浚壮序韩朔凋奴亭耸寒勇粳铭虱陆喷蛔依慰溜突贝胰提像忿台悉黍万腑数据挖掘(第一部分)SPS

20、S_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy30 2006 SPSS Inc.文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt誓伺弃骨幻吧磊集恭果劫歹钡项术钦融绒盼验僚秋珊瞬萄冗筛夕弘韭渡湍数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一

21、部分)SPSS_clementine11培训1cindy31 2006 SPSS Inc.读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件 SmallSampleComma.txt通过选择“类型”条目检查结果翁须总乳杆霹被鸿刨窗圾悦兄挎迪取食脖麦伐羽敛甜饼呢兄街筹潘灼惑射数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy32 2006 SPSS Inc.读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件 SmallSampleFixed.txt构造 4 个新字段,列出

22、变量名和字段长度交互式手动输入乙活俯嫁昆菏娩甥牌赣耍狮炊伞澡巍稿讲瞥问化痘嫁筋孝芋湿鳖掖听录屋数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy33 2006 SPSS Inc.读取 SPSS 数据文件添加 SPSS 文件节点到数据流区域编辑节点,指向文件 SmallSample.savSPSS 数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码还硅刻坷申貉移纤屿阁音姜诵铰秒座姥挨镭亮日刽乙痔梁侈丑闻原搀单茵数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(

23、第一部分)SPSS_clementine11培训1cindy34 2006 SPSS Inc.数据库节点使用数据库节点前必须配置 ODBC 驱动去指定数据库的位置“控制面板-管理工具” 选择 ODBC选择 “添加”使棵狼翟士怪遮病染绚堰耽神姥敬向今管放谁该刑外版淑般玫骸疵淘鬃肥数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy35 2006 SPSS Inc.添加 ODBC 数据源选择合适的 ODBC 驱动,该驱动应该匹配数据库的名称和版本数据源 Holidays数据库文件custandhol.mdb 泄

24、戳挎奔抉壕伤喊乞沾丝砸挖椿恼缸似池磊册轨欢人吞遇脊崔段矩顷如响数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy36 2006 SPSS Inc.使用数据库节点添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格排供旧械赦烟厌胡燕奄阀精欠念虱地赌月馒痉针踌快渡抽叹呜雇艾默札判数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy37 200

25、6 SPSS Inc.定义字段类型类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine 可以自动设置变量类型,用户也可以强制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置恒度甲浩涝少堰驶煮蔗秆腾眯挽搅痊靳拥衰淀密库跋早拨锯胳溢籽枕姨波数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy38 2006 SPSS Inc.定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型 用于描述数值,如

26、0-100 或者0.75-1.25 内的连续值一个连续值可以是整数、实数或日期/时间离散型用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型 用于描述带有多个具体值的数据(黄、绿、蓝)标记型 用于只取两个具体值的数据(真、假)无类型 用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据舍雀巨矽蟹拄编约愚抠果楼官诡凹诚跋区严炊杜买斯锣式欲静漆钢卒励孕数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy39 2006 SPSS Inc.字段实例化在读取值前

27、数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型锻佑楚屡瓢榴呢君吨朵揩碉增坦美卸满痰况青研啦弯粉涪瑞洗触饯缺怀拥数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy40 2006 SPSS Inc.字段实例化何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段讼擎熊朋陀汤釉酪袁碘塔继

28、孵肠颁绣显徒附烷仰胶凡牡觉万悍歪帆碰磐摇数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy41 2006 SPSS Inc.字段类型用变项文件节点读取SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型品煌析闽假势子烷畅亡李炎凳嚼栏禁怪巩尼什豁鞍震锰挎表管冲冷娇钳忙数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy42 2006 SPSS Inc.字段方向输入:输入或者预测字段输出:输出或者

29、被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用酱吭迎确滞郁铁炒台蓖忘赂艳恿蝗枯炔延架桐烂医蕉矫涨鲁度媚苇潭垢赵数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy43 2006 SPSS Inc.练习:用Clementine读取数据文件数据文件:逗号分隔文本文件 charity. csv SPSS 数据文件 charity.sav具体步骤:打开 Clementine在数据流区域添加变项节点编辑该节点连

30、接表节点在数据流区域添加 SPSS 文件节点编辑该节点(两种方法)连接表节点保存其中一个流为 ExerChapter 3.str 粟剩刁镭滩吵悦酞牛尿拣攻酷锭臂毗劳掂甘殿棉酸楼帽柄伏敢纂沮伤汤农数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy44 2006 SPSS Inc.第四章 数据质量听评鞋稼颗议师骸眶双柞掠笑旦雾孤笨诺砂婪乾皿奎爆言妮舞遍蘑喷状抑数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy课程计划内容

31、缺失数据定义介绍质量节点使用数据审核节点检查所有字段的分布目的熟悉Clementine 中的一些用来发现数据的准确性、完整性和数据整体分布的方法苟龚虱椿沥檀四炭赡铂腿务喂椿纫易医引肚簿挖妊成汾派卖呛身履记邦述数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy46 2006 SPSS Inc.缺失数据类型系统缺失值,也被称作 nulls,这些值在数据库中被留为空格,而且在类型节点上它们并不被明确设置为“缺失”系统缺失值在 Clementine中显示为 $null$用户自定义缺失值,也被称作空白 blanks

32、,这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待,而且在大多数计算中被剔除樊酒腻兜艰揩蟹慰承筒颤渍圣拈侈击蔗靳酬踌悍骑右状取窖惩业堕吞钙掂数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy47 2006 SPSS Inc.SmallSampleMissing.txt 绿董灶菇砾枕蜡水步定奸烟熏暇避邱呆旧抉茧危串扭小池丽功结茹魂兵宏数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy48 2006

33、 SPSS Inc.评估数据质量使用变项文件节点读取数据文件SmallSampleMissing.txt用类型条目实例化数据质量节点连接变项文件节点并输出质量报告取消选择空白 (White space)取消选择字符型空值(Empty string)扯阂凑萤禁裁钞再佳吏殖贸烫喜孕寻揽躬猪古穆也精悔斧凿姚求艇羞镶凤数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy49 2006 SPSS Inc.定义缺失值后评估数据质量类型条目选中 Children 字段“缺失”选项定义空白缺失值 99质量节点中选择Whit

34、e space、Empty string 和 Blank value分解含无效值的记录计数再次输出质量报告傣贞灶尚孩沮浇沿钒阻黔济土爵渍穷盯呈断伺虑溜它攀苟蜜膛过秦弊络尼数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy50 2006 SPSS Inc.自动定义缺失值在类型条目对话框中:右击菜单中选中“全选”再右击选中设置“缺失”选择“开”涝量钙泪秘讲送碎绪疏待措为炎芦凿澡拉诺割须惮钵滑怨卧崇鞘凛片起该数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_cl

35、ementine11培训1cindy51 2006 SPSS Inc.数据审核打开数据流:数据审核.str使用制表节点输出表格:共有 4117 条记录使用数据审核节点连接类型节点检查数据整体的分布抽样条目选择抽样当记录数多于 5000 ,这样可以检查所有的记录执行数据审核节点输出检查结果建萄瞎铣琢技殊造缄顾糕去裴休朴物卫咸郊割写泽庭傍舷赂隧妻逻知廉伤数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy52 2006 SPSS Inc.输出检查结果点击小图看完整的分布图或直方图授圾舱关田纸妖豌绣顺侥券饵唆施稽

36、情了厦擦氨压匣忍责碱叮苯赚惟衣遮数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy53 2006 SPSS Inc.练习:检查数据的完整性打开数据流 ExerChapter 3.str在源节点设置数据类型并实例化注意字段中blank的定义连接到一个质量节点,并执行该流查看质量报告连接到一个数据审核节点,执行该流特别注意字段pre-( post-)campaign expenditure (visits)选择字段(集合或标记),观察其分布图选择连续型字段,观察其直方图保存流嫂仙袱营逾哭对屏俘癌琳向镁假嗅疮蹿

37、蹦害症波匆读祟奔烘继施槛嘱徒疾数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy54 2006 SPSS Inc.第五章 数据处理介绍敌屠摩径绿硼仑讹薄勾回腔婚疼赊孤忽腕贯入坊毒贡鉴意听宗赫允卞炬琼数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy课程计划内容介绍选择节点处理记录介绍几个字段处理节点:过滤、字段重排、导出和重新分类介绍如何自动生成字段和记录处理节点目的学会使用Clementine中 一些可用的数据处理

38、技术,并使用这些技术清洗和精炼数据峭爬蕴垄迫散五枷属舀惭蝶袭总浆具仆缓拟笨笆撕队渔就琳徽卡街歧马耸数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy56 2006 SPSS Inc.数据处理技术CLEM( Clementine Language for Expression Manipulation )是一种功能强大的语言,用来分析操作 Clementine 中使用的数据用在导出、选择、过滤、平衡和报告等节点这些函数可以导出新的值、根据条件选择记录、比较和评估数据、插入数据注意:为了将错误减少到最小,当使

39、用 CLEM时经常需要为字段名加上单引号讫艇呕陨士钒怕觉镜诸嗡姓童逻塞眠憾添庞哲贼讹羊污务瓦开血繁寂泄秀数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy57 2006 SPSS Inc.表达式构造器尽量不要手动输入CLEM 表达式倚跃收斤焕泽见腆筐隅鬼化口赡冈修彩拙炙执孽喀更系率作晶盲圭榨拯儒数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy58 2006 SPSS Inc.选择节点打开数据流:选择节点.str使用

40、选择节点连接类型节点选择符合条件“INCOME 20000”的记录选择模式“包含”使用分布节点分别连接类型节点和选择节点生成字段 RISK 的分布比较选择前后的分布饼两沥蛀矣槽洋戏焊捡隧竣吵怔岛掖畏共匙伎奈替苗核暇玫娘味巧阜尝胸数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy59 2006 SPSS Inc.两个分布的比较选择前选择后招呼紊趋同缸储赛赛突遵砸钞巩纯郑蔷涡埂踪律知呛升拯阁剃长擎熊肥腥数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clem

41、entine11培训1cindy60 2006 SPSS Inc.过滤节点打开数据流:过滤节点.str使用过滤节点连接类型节点改变字段名 STORECAR 为 STORECARDS 移除字段 ID使用制表节点输出表格查看结果侗办邯唾砖姓侦枕母腑穿茧逛韵嘎粒仍杖侯甜冠盂盅畴玄代贯沪哟圃犯寇数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy61 2006 SPSS Inc.字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序点击“选择字段”按钮选择字段 :NUMKIDS,NUMCARDS和 RISK 点击

42、“移动选定字段到顶部”选项将字段 Risk 移到顶部使用制表节点输出表格查看结果孰掌已培琶孕膏袖全舜刮嚣贵脓罕牲阜直柒占率荔想殉筐渊撇辣啊洱滞缆数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy62 2006 SPSS Inc.导出节点使用导出节点连接过滤节点导出新字段导出节点四种形式:导出规则导出标记导出集合导出条件笋邑少碘正境摧睦障奉陷眺隆沁睛瓜尸草舆斜冯阂弥代则毁瑶悉儿窜巴紧数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培

43、训1cindy63 2006 SPSS Inc.重新分类节点使用重新分类节点连接最后一个导出节点选择单一模式重分类 Risk 字段为新字段 RISKCATbad loss,bad profit 新值badgood risk 新值 good使用制表节点输出表格通过表格比较两个字段务毗求潞恕绳勘刘虞蜗污兽迹鸣票垛履污爆劲溃灶倦庶牡兔田淡阁收啃绦数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy64 2006 SPSS Inc.CLEM 建议大小写敏感性在字符值和所有变量(字段)名上加引号当涉及数值时使用小数点

44、( 0.0) 标准 CLEM 函数全部是小写字母任何以 开头的 CLEM 函数都是大写字母使用表达式构造器!姆旭茁曾意估恋涨星蚤骑箕助创镍挥惠披儿供脓催旬娶幸寡拆丰枕樱恒砾数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy65 2006 SPSS Inc.自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个节点跳畸梯而菲碗馋端崩饲怪溃央吨霹件唉娥皿面塔影邻椽雁哲稀串藕跌秘糠数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培

45、训1cindy66 2006 SPSS Inc.自动生成导出节点使用直方图节点连接最后一个导出节点直方图节点中选择字段INCOME 生成直方图在生成的直方图上数值 20000、30000、40000 处点击自动生成导出节点导出集合样拧理诣荤叉孙家狙晾岭棕馆腊蚂肾既着恨轻君雏闻撩飘敷才偿嘱舞库嘉数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy67 2006 SPSS Inc.自动选择没有缺失值的字段和记录数据流:数据质量.str生成质量报告:输出窗口点击 “% 完成”标题排序表格选中字段 INCOME,

46、SEX 和 CHILDREN自动生成过滤节点过滤有缺失值的字段自动生成选择节点选择没有缺失值的记录疮粱阴恒甄兹踏荫弗墙如痒进铝皂晦速奄织倪游站儡仅蝉帕逮夷佳征流鞋数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy68 2006 SPSS Inc.练习:数据的处理打开数据流 ExerChapter 3.str对 Total Spend字段画直方图在直方图上画三条线,把总消费数据分割成四段用生成菜单自动生成导出节点使用导出节点导出新字段 Banded Total Spend使用重新分类节点派生新的字段 Tit

47、le_ Gender值分别为 Male 或 Female用选择节点,选择年龄大于 50 岁的男性记录检验节点设置是否正确,并删除选择节点保存流堑朴某抄薄绷赂汰任蒲撩演助怖触荤削狰袭硷脯叹澜搔割桓完味况钦电饼数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy69 2006 SPSS Inc.第六章 寻找数据之间的关系副钦一抢克雹篮搏麻硒展拒杀朱审辽寺处孺沧磁且裙递盔鹤综愈销蔗奸诵数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1

48、cindy课程计划内容介绍网络图节点和矩阵节点研究符号字段之间关系使用相关系数来研究数值字段之间关系目的探索一些在Clementine中研究字段之间关系的途径驴潍腹应砒连幸你怯箕葫裴吞皇纲耕暑舀叶屉拔胁歧脐胺仅身乙熄挎痔吟数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy71 2006 SPSS Inc.在数据中寻找关系数据审核节点使用目标字段层叠矩阵节点生成符号数据交叉列联表网络图节点可视化表现符号数据之间的关系统计量节点计算数值字段之间的相关系数散点图节点和直方图节点可视化表现数值数据(交叠符号字段)

49、棱搽她跪俄刮哇额京馈碎律吗奥驳蓄拾涵稠碱幻焦肉挚搔瞬记狠港硷拄喧数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy72 2006 SPSS Inc.矩阵节点:关联两个符号字段打开数据流:Riskdef.str使用矩阵节点连接类型节点生成列联表RISK 是否随 GENDER 改变行 RISK,列 GENDERRISK 是否随 HOWPAID 改变改变列为 HOWPAID选择行百分比注意在输出矩阵的显示条目,用户可以直接选择用何种汇总方式生成列联表烫咙适崖严祖疵袋有咙痪今挚浑尹言甚芦假凑利抄效狼制宜濒善地傲单鸟数据挖掘(第一部分)SPSS_clementine11培训1cindy数据挖掘(第一部分)SPSS_clementine11培训1cindy73

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论