版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Clementine基础培训
第一部分介绍Clementine数据挖掘软件的基本操作和环境,学习如何使用Clementine读取、处理数据Clementine基础培训
第一部分介绍Clementin培训内容第一章数据挖掘简介第二章
Clementine简介第三章读取数据文件第四章数据质量第五章数据处理第六章
寻找数据之间的关系2©2006SPSSInc.培训内容第一章数据挖掘简介2©2006SPSSIn第一章数据挖掘简介第一章数据挖掘简介第一章数据挖掘简介内容介绍数据挖掘概念介绍CRISP-DM(跨行业数据挖掘标准流程)概述课程计划目的介绍数据挖掘过程,理解数据挖掘中的术语和关键概念,以及如何使用CRISP-DM过程模型管理一个数据挖掘项目4©2006SPSSInc.第一章数据挖掘简介内容4©2006SPSSInc.什么是数据挖掘?利用各种技术发现数据的隐含关系(知识)使用历史数据预测、分类,并且预测未来常用技术:人工智能、机器学习、决策树一个交互、反复的过程5©2006SPSSInc.什么是数据挖掘?利用各种技术发现数据的隐含关系(知识)5©Clementine中对数据挖掘的支持主动支持:计算机使用各种算法在数据中识别规则和关系被动支持:使用者处理并且浏览数据来寻找可疑的关系6©2006SPSSInc.Clementine中对数据挖掘的支持主动支持:6©20数据数据是可以得到的吗?数据包含所需要了解的属性吗?数据是否有噪声?数据量足够吗?可以获得关于数据的专家知识吗?7©2006SPSSInc.数据数据是可以得到的吗?7©2006SPSSInc.数据挖掘的策略(计划性)主要想解决什么样的问题?可以得到什么样的数据来源,并且与当前问题相关的是哪部分数据?在挖掘数据前,需要做什么样的数据预整理和数据清洗?将会使用什么样的数据挖掘技巧?将会如何评估数据挖掘的分析结果?8©2006SPSSInc.数据挖掘的策略(计划性)主要想解决什么样的问题?8©200CRISP-DM过程模型跨行业数据挖掘标准过程(CRISP-DM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布9©2006SPSSInc.CRISP-DM过程模型跨行业数据挖掘标准过程(CRISP课程计划数据挖掘及数据挖掘软件数据理解:从数据源抽取数据用表格图形技术透视数据处理缺失值数据准备:针对记录的数据准备,如选择记录、对记录排序针对字段的数据准备,如生成新的字段针对文件的数据准备,如合并文件10©2006SPSSInc.课程计划数据挖掘及数据挖掘软件10©2006SPSSI课程计划建模技术:监督学习技术,神经网络、归纳规则(决策树)、线性回归、Logistic回归非监督学习技术,Kohonen网络、两步聚类、K-means聚类关联规则、时序探测模型评估如何应用CRISP-DM流程研究数据挖掘问题11©2006SPSSInc.课程计划建模技术:11©2006SPSSInc.第二章Clementine简介第二章Clementine简介
Clementine简介内容熟悉Clementine中的工具和面板介绍可视化编程的思想目的初步了解Clementine的功能数据课程的数据文件存放在目录“C:\培训\基础培训1”中13©2006SPSSInc.Clementine简介内容13©2006SPSSClementine用户界面数据流区域工具栏菜单栏选项板区节点数据流,输出和模型管理器项目窗口14©2006SPSSInc.Clementine用户界面数据流区域工具栏菜单栏选项板可视化编程节点一个图标代表在Clementine中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列不同功能的图标15©2006SPSSInc.可视化编程节点15©2006SPSSInc.选项板源节点用来将数据读入Clementine中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型16©2006SPSSInc.选项板源节点16©2006SPSSInc.在下面一部分…举例:增加一个节点移动一个节点编辑一个节点重新命名一个节点复制一个节点删除一个节点注释一个节点保存一个节点重新载入一个节点连接节点删除节点连接获得帮助17©2006SPSSInc.在下面一部分…举例:增加一个节点注释一个节点17©2006增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择当节点在选项板中被选中后,会变成淡蓝色18©2006SPSSInc.增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作19©2006SPSSInc.编辑一个节点在节点上右击,展开一个节点19©2006SP连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)20©2006SPSSInc.连接节点使用鼠标中键来连接节点通过双击来连接节点使用鼠标中键删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”21©2006SPSSInc.删除节点之间的连接在连接箭头的头部按住鼠标右键21©200关于连接节点:源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点22©2006SPSSInc.关于连接节点:源节点源节点是连接到初始数据源的节点22©2关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点23©2006SPSSInc.关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置只在本次操作中起作用通过选择菜单“文件”中“设置目录”选项,然后输入或选择工作目录24©2006SPSSInc.设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文Clementine客户端和服务器端Clementine可以运行在客户端和服务器端两种模式下默认的模式是客户端在菜单“工具”中选择“服务器登录”注意Clementine客户端和服务器端版本必须匹配25©2006SPSSInc.Clementine客户端和服务器端Clementine帮助菜单帮助主题CRISP-DM帮助教程软件使用辅助选项帮助键盘代替鼠标操作这是什么26©2006SPSSInc.帮助菜单帮助主题26©2006SPSSInc.练习:熟悉Clementine的环境熟悉Clementine的环境:菜单帮助练习在数据流区域加入节点:选择变项文件节点从输出选项板中,选择表节点连接两个节点编辑变项文件节点断开节点之间的连接删除节点27©2006SPSSInc.练习:熟悉Clementine的环境熟悉Clementi第三章读取数据文件第三章读取数据文件课程简介内容Clementine中可以读取的数据格式读取文本数据文件读取SPSS数据文件使用ODBC读取数据库查看数据Clementine中的数据类型和字段方向保存Clementine数据流目的介绍数据读入Clementine的一些方法29©2006SPSSInc.课程简介内容29©2006SPSSInc.Clementine中读取数据格式文本文件SPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件30©2006SPSSInc.Clementine中读取数据格式文本文件30©2006文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt31©2006SPSSInc.文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件
SmallSampleComma.txt通过选择“类型”条目检查结果32©2006SPSSInc.读取自由字段文本文件添加变量文件节点到数据流区域32©20读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件
SmallSampleFixed.txt构造4个新字段,列出变量名和字段长度交互式手动输入33©2006SPSSInc.读取固定字段文本文件移动一个固定文件节点到数据流区域33©读取SPSS数据文件添加SPSS文件节点到数据流区域编辑节点,指向文件
SmallSample.savSPSS数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码34©2006SPSSInc.读取SPSS数据文件添加SPSS文件节点到数据流区域数据库节点使用数据库节点前必须配置ODBC驱动去指定数据库的位置“控制面板--管理工具”选择ODBC选择“添加…”35©2006SPSSInc.数据库节点使用数据库节点前必须配置ODBC驱动去指定数据添加ODBC数据源选择合适的ODBC驱动,该驱动应该匹配数据库的名称和版本数据源Holidays数据库文件custandhol.mdb36©2006SPSSInc.添加ODBC数据源选择合适的ODBC驱动,该驱动应该使用数据库节点添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格37©2006SPSSInc.使用数据库节点添加并编辑数据库节点:37©2006SPS定义字段类型类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine可以自动设置变量类型,用户也可以强制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置38©2006SPSSInc.定义字段类型类型节点指定字段的一系列重要属性38©2006定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型–用于描述数值,如0-100
或者0.75-1.25
内的连续值一个连续值可以是整数、实数或日期/时间离散型–用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型–用于描述带有多个具体值的数据(黄、绿、蓝)标记型–用于只取两个具体值的数据(真、假)无类型–用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据39©2006SPSSInc.定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型40©2006SPSSInc.字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型字段实例化何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段41©2006SPSSInc.字段实例化何时在源节点实例化41©2006SPSSIn字段类型用变项文件节点读取SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型42©2006SPSSInc.字段类型用变项文件节点读取SmallSampleComma.字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用43©2006SPSSInc.字段方向输入:输入或者预测字段43©2006SPSSI练习:用Clementine读取数据文件数据文件:逗号分隔文本文件charity.csvSPSS数据文件charity.sav具体步骤:打开Clementine在数据流区域添加变项节点编辑该节点连接表节点在数据流区域添加SPSS文件节点编辑该节点(两种方法)连接表节点保存其中一个流为ExerChapter3.str44©2006SPSSInc.练习:用Clementine读取数据文件数据文件:44©2第四章数据质量第四章数据质量课程计划内容缺失数据定义介绍质量节点使用数据审核节点检查所有字段的分布目的熟悉Clementine中的一些用来发现数据的准确性、完整性和数据整体分布的方法46©2006SPSSInc.课程计划内容46©2006SPSSInc.缺失数据类型系统缺失值,也被称作nulls,这些值在数据库中被留为空格,而且在类型节点上它们并不被明确设置为“缺失”系统缺失值在Clementine中显示为$null$用户自定义缺失值,也被称作空白blanks,这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待,而且在大多数计算中被剔除47©2006SPSSInc.缺失数据类型系统缺失值,也被称作nulls,这些值在数据库SmallSampleMissing.txt48©2006SPSSInc.SmallSampleMissing.txt48©200评估数据质量使用变项文件节点读取数据文件SmallSampleMissing.txt用类型条目实例化数据质量节点连接变项文件节点并输出质量报告取消选择空白(Whitespace)取消选择字符型空值(Emptystring)49©2006SPSSInc.评估数据质量使用变项文件节点读取数据文件SmallSampl定义缺失值后评估数据质量类型条目选中Children字段“缺失”选项定义空白缺失值99质量节点中选择Whitespace、Emptystring和Blankvalue分解含无效值的记录计数再次输出质量报告50©2006SPSSInc.定义缺失值后评估数据质量类型条目选中Children字段自动定义缺失值在类型条目对话框中:右击菜单中选中“全选”再右击选中设置“缺失”选择“开”51©2006SPSSInc.自动定义缺失值在类型条目对话框中:51©2006SPSS数据审核打开数据流:数据审核.str使用制表节点输出表格:共有4117条记录使用数据审核节点连接类型节点检查数据整体的分布抽样条目选择抽样当记录数多于5000,这样可以检查所有的记录执行数据审核节点输出检查结果52©2006SPSSInc.数据审核打开数据流:数据审核.str52©2006SPS输出检查结果点击小图看完整的分布图或直方图53©2006SPSSInc.输出检查结果点击小图看完整的53©2006SPSSIn练习:检查数据的完整性打开数据流ExerChapter3.str在源节点设置数据类型并实例化注意字段中blank的定义连接到一个质量节点,并执行该流查看质量报告连接到一个数据审核节点,执行该流特别注意字段pre-(
post-)campaignexpenditure(visits)选择字段(集合或标记),观察其分布图选择连续型字段,观察其直方图保存流54©2006SPSSInc.练习:检查数据的完整性打开数据流ExerChapter3第五章数据处理介绍第五章数据处理介绍课程计划内容介绍选择节点处理记录介绍几个字段处理节点:过滤、字段重排、导出和重新分类介绍如何自动生成字段和记录处理节点目的学会使用Clementine中一些可用的数据处理技术,并使用这些技术清洗和精炼数据56©2006SPSSInc.课程计划内容56©2006SPSSInc.数据处理技术CLEM(ClementineLanguageforExpressionManipulation)是一种功能强大的语言,用来分析操作Clementine中使用的数据用在导出、选择、过滤、平衡和报告等节点这些函数可以导出新的值、根据条件选择记录、比较和评估数据、插入数据注意:为了将错误减少到最小,当使用CLEM时经常需要为字段名加上单引号57©2006SPSSInc.数据处理技术CLEM(ClementineLanguag表达式构造器尽量不要手动输入CLEM表达式58©2006SPSSInc.表达式构造器尽量不要手动输入CLEM表达式58©2006选择节点打开数据流:选择节点.str使用选择节点连接类型节点选择符合条件“INCOME<20000”的记录选择模式“包含”使用分布节点分别连接类型节点和选择节点生成字段RISK的分布比较选择前后的分布59©2006SPSSInc.选择节点打开数据流:选择节点.str59©2006SPS两个分布的比较选择前选择后60©2006SPSSInc.两个分布的比较选择前选择后60©2006SPSSInc过滤节点打开数据流:过滤节点.str使用过滤节点连接类型节点改变字段名STORECAR为STORECARDS移除字段ID使用制表节点输出表格查看结果61©2006SPSSInc.过滤节点打开数据流:过滤节点.str61©2006SPS字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序点击“选择字段”按钮选择字段:NUMKIDS,NUMCARDS和RISK点击“移动选定字段到顶部”选项将字段Risk移到顶部使用制表节点输出表格查看结果62©2006SPSSInc.字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序62导出节点使用导出节点连接过滤节点导出新字段导出节点四种形式:导出规则导出标记导出集合导出条件63©2006SPSSInc.导出节点使用导出节点连接过滤节点导出新字段63©2006重新分类节点使用重新分类节点连接最后一个导出节点选择单一模式重分类Risk字段为新字段RISKCATbadloss,badprofit新值badgoodrisk新值good使用制表节点输出表格通过表格比较两个字段64©2006SPSSInc.重新分类节点使用重新分类节点连接最后一个导出节点64©20CLEM建议…大小写敏感性在字符值和所有变量(字段)名上加引号当涉及数值时使用小数点(0.0)标准CLEM函数全部是小写字母任何以@开头的CLEM函数都是大写字母使用表达式构造器!65©2006SPSSInc.CLEM建议…大小写敏感性65©2006SPSSIn自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个节点66©2006SPSSInc.自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个自动生成导出节点使用直方图节点连接最后一个导出节点直方图节点中选择字段INCOME生成直方图在生成的直方图上数值20000、30000、40000处点击自动生成导出节点导出集合67©2006SPSSInc.自动生成导出节点使用直方图节点连接最后一个导出节点67©2自动选择没有缺失值的字段和记录数据流:数据质量.str生成质量报告:输出窗口点击“%完成”标题排序表格选中字段INCOME,SEX和CHILDREN自动生成过滤节点过滤有缺失值的字段自动生成选择节点选择没有缺失值的记录68©2006SPSSInc.自动选择没有缺失值的字段和记录数据流:数据质量.str68©练习:数据的处理打开数据流ExerChapter3.str对TotalSpend字段画直方图在直方图上画三条线,把总消费数据分割成四段用生成菜单自动生成导出节点使用导出节点导出新字段BandedTotalSpend使用重新分类节点派生新的字段Title_Gender值分别为Male或Female用选择节点,选择年龄大于50岁的男性记录检验节点设置是否正确,并删除选择节点保存流69©2006SPSSInc.练习:数据的处理打开数据流ExerChapter3.st第六章寻找数据之间的关系第六章寻找数据之间的关系课程计划内容介绍网络图节点和矩阵节点研究符号字段之间关系使用相关系数来研究数值字段之间关系目的探索一些在Clementine中研究字段之间关系的途径71©2006SPSSInc.课程计划内容71©2006SPSSInc.在数据中寻找关系数据审核节点使用目标字段层叠矩阵节点生成符号数据交叉列联表网络图节点可视化表现符号数据之间的关系统计量节点计算数值字段之间的相关系数散点图节点和直方图节点可视化表现数值数据(交叠符号字段)72©2006SPSSInc.在数据中寻找关系数据审核节点使用目标字段层叠72©2006矩阵节点:关联两个符号字段打开数据流:Riskdef.str使用矩阵节点连接类型节点生成列联表RISK是否随GENDER改变行RISK,列GENDERRISK是否随HOWPAID改变改变列为HOWPAID选择行百分比注意在输出矩阵的显示条目,用户可以直接选择用何种汇总方式生成列联表73©2006SPSSInc.矩阵节点:关联两个符号字段打开数据流:Riskdef.str网络图节点:可视化表现符号字段使用网络图节点连接类型节点MARITAL,MORTGAGE和RISK之间是否表现出关联选择字段MARITAL,MORTGAGE和RISK线段值为绝对数值连接规模连续变化只显示大于300的连接400以下为弱连接,600以上为强连接输出网络图74©2006SPSSInc.网络图节点:可视化表现符号字段使用网络图节点连接类型节点74网络图修改使用滑动控制丢弃450以下的连接使用控制条目设置:1000以下为弱连接,1500以上为强连接右击与y没有连接的点(divsepwid)选择隐藏点击强连接(married和y,badprofit和y)自动生成导出节点(选择后连接变成红色)75©2006SPSSInc.网络图修改使用滑动控制丢弃450以下的连接75©200统计量节点:数值字段之间的相关性使用统计量节点连接类型节点计算相关系数检查相关字段:选择所有连续型字段(ID除外)相关性设定:定义相关强度标签76©2006SPSSInc.统计量节点:数值字段之间的相关性使用统计量节点连接类型节点计散点图节点使用散点图节点连接类型节点X字段=NUMCARDSY字段=LOANS交叠=RISK选项条目中:X,Y搅动=0.3使用全部数据77©2006SPSSInc.散点图节点使用散点图节点连接类型节点77©2006SPS直方图节点使用直方图节点连接类型节点字段=INCOME交叠=RISK选项条目中:选中按颜色标准化指定范围30000到5000078©2006SPSSInc.直方图节点使用直方图节点连接类型节点78©2006SPS练习:探索数据之间的简单关系打开数据流ExerChapter3.str使用网络图节点生成网络图,初步展示数据之间的关系:Responsetocampaign,Pre-campaignvisit,Pre-campaignspendcategory,Gender,Agecategory设置只显示200以上的连接,低于300为弱连接,高于400为强连接编辑网络图,隐藏不相关的连接:与对活动响应值相关性最大的三个字段?哪个年龄段与non-responders关联性最大?用散点图描述Pre-campaignexpenditure和Pre-campaignvisits之间的关系,并观察这两者之间存在关系吗?用直方图探索Pre-campaignexpenditure和Responseto
campaign之间是否相关标准化直方图,比较直方图和网络图的结果保存流Visual.str79©2006SPSSInc.练习:探索数据之间的简单关系打开数据流ExerChapte演讲完毕,谢谢观看!演讲完毕,谢谢观看!Clementine基础培训
第一部分介绍Clementine数据挖掘软件的基本操作和环境,学习如何使用Clementine读取、处理数据Clementine基础培训
第一部分介绍Clementin培训内容第一章数据挖掘简介第二章
Clementine简介第三章读取数据文件第四章数据质量第五章数据处理第六章
寻找数据之间的关系82©2006SPSSInc.培训内容第一章数据挖掘简介2©2006SPSSIn第一章数据挖掘简介第一章数据挖掘简介第一章数据挖掘简介内容介绍数据挖掘概念介绍CRISP-DM(跨行业数据挖掘标准流程)概述课程计划目的介绍数据挖掘过程,理解数据挖掘中的术语和关键概念,以及如何使用CRISP-DM过程模型管理一个数据挖掘项目84©2006SPSSInc.第一章数据挖掘简介内容4©2006SPSSInc.什么是数据挖掘?利用各种技术发现数据的隐含关系(知识)使用历史数据预测、分类,并且预测未来常用技术:人工智能、机器学习、决策树一个交互、反复的过程85©2006SPSSInc.什么是数据挖掘?利用各种技术发现数据的隐含关系(知识)5©Clementine中对数据挖掘的支持主动支持:计算机使用各种算法在数据中识别规则和关系被动支持:使用者处理并且浏览数据来寻找可疑的关系86©2006SPSSInc.Clementine中对数据挖掘的支持主动支持:6©20数据数据是可以得到的吗?数据包含所需要了解的属性吗?数据是否有噪声?数据量足够吗?可以获得关于数据的专家知识吗?87©2006SPSSInc.数据数据是可以得到的吗?7©2006SPSSInc.数据挖掘的策略(计划性)主要想解决什么样的问题?可以得到什么样的数据来源,并且与当前问题相关的是哪部分数据?在挖掘数据前,需要做什么样的数据预整理和数据清洗?将会使用什么样的数据挖掘技巧?将会如何评估数据挖掘的分析结果?88©2006SPSSInc.数据挖掘的策略(计划性)主要想解决什么样的问题?8©200CRISP-DM过程模型跨行业数据挖掘标准过程(CRISP-DM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准六个阶段:商业理解数据理解数据准备建模模型评估结果发布89©2006SPSSInc.CRISP-DM过程模型跨行业数据挖掘标准过程(CRISP课程计划数据挖掘及数据挖掘软件数据理解:从数据源抽取数据用表格图形技术透视数据处理缺失值数据准备:针对记录的数据准备,如选择记录、对记录排序针对字段的数据准备,如生成新的字段针对文件的数据准备,如合并文件90©2006SPSSInc.课程计划数据挖掘及数据挖掘软件10©2006SPSSI课程计划建模技术:监督学习技术,神经网络、归纳规则(决策树)、线性回归、Logistic回归非监督学习技术,Kohonen网络、两步聚类、K-means聚类关联规则、时序探测模型评估如何应用CRISP-DM流程研究数据挖掘问题91©2006SPSSInc.课程计划建模技术:11©2006SPSSInc.第二章Clementine简介第二章Clementine简介
Clementine简介内容熟悉Clementine中的工具和面板介绍可视化编程的思想目的初步了解Clementine的功能数据课程的数据文件存放在目录“C:\培训\基础培训1”中93©2006SPSSInc.Clementine简介内容13©2006SPSSClementine用户界面数据流区域工具栏菜单栏选项板区节点数据流,输出和模型管理器项目窗口94©2006SPSSInc.Clementine用户界面数据流区域工具栏菜单栏选项板可视化编程节点一个图标代表在Clementine中进行的一个操作工作流一系列连接在一起的节点选项板包含一系列不同功能的图标95©2006SPSSInc.可视化编程节点15©2006SPSSInc.选项板源节点用来将数据读入Clementine中记录选项节点在记录上进行操作一条记录是一种“情形”或一“行”数据字段选项节点在字段上进行操作一个字段是一个变量图形节点在建模之前和之后用来可视化数据建模节点代表有效建模算法注意:建模算法产生生成的模型96©2006SPSSInc.选项板源节点16©2006SPSSInc.在下面一部分…举例:增加一个节点移动一个节点编辑一个节点重新命名一个节点复制一个节点删除一个节点注释一个节点保存一个节点重新载入一个节点连接节点删除节点连接获得帮助97©2006SPSSInc.在下面一部分…举例:增加一个节点注释一个节点17©2006增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意:它会自动地连接到“中心”节点将节点从选项板拖放到数据流区域中在选项板上点击一个节点,然后在数据流区域中点击一下未选择选择当节点在选项板中被选中后,会变成淡蓝色98©2006SPSSInc.增加一个节点在选项板上双击节点,自动放置节点到数据流区域注意编辑一个节点在节点上右击,展开一个节点点击“编辑”在菜单上还可以选择连接、断开连接、重命名、注释、复制、删除、载入、保存等操作99©2006SPSSInc.编辑一个节点在节点上右击,展开一个节点19©2006SP连接节点使用鼠标中键来连接节点在数据流区域上,把一个节点连接到另一个上,可以通过鼠标中间键点击和拖放来完成(如果您的鼠标没有中间键,可以通过按住“Alt”键来模拟这个过程)通过双击来连接节点双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上使用鼠标中键未选中的节点(灰白色)被选中的节点(淡蓝色)100©2006SPSSInc.连接节点使用鼠标中键来连接节点通过双击来连接节点使用鼠标中键删除节点之间的连接在连接箭头的头部按住鼠标右键选择“删除连接”101©2006SPSSInc.删除节点之间的连接在连接箭头的头部按住鼠标右键21©200关于连接节点:源节点源节点是连接到初始数据源的节点源节点只能发送数据不能连接到一个源节点102©2006SPSSInc.关于连接节点:源节点源节点是连接到初始数据源的节点22©2关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的节点不能从终端节点连接到任何节点103©2006SPSSInc.关于连接节点:终端节点终端节点是生成输出、图形、表格和模型的设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文件的位置只在本次操作中起作用通过选择菜单“文件”中“设置目录”选项,然后输入或选择工作目录104©2006SPSSInc.设置目录为了方便地存取数据文件或流,您可以将目录设定为自己文Clementine客户端和服务器端Clementine可以运行在客户端和服务器端两种模式下默认的模式是客户端在菜单“工具”中选择“服务器登录”注意Clementine客户端和服务器端版本必须匹配105©2006SPSSInc.Clementine客户端和服务器端Clementine帮助菜单帮助主题CRISP-DM帮助教程软件使用辅助选项帮助键盘代替鼠标操作这是什么106©2006SPSSInc.帮助菜单帮助主题26©2006SPSSInc.练习:熟悉Clementine的环境熟悉Clementine的环境:菜单帮助练习在数据流区域加入节点:选择变项文件节点从输出选项板中,选择表节点连接两个节点编辑变项文件节点断开节点之间的连接删除节点107©2006SPSSInc.练习:熟悉Clementine的环境熟悉Clementi第三章读取数据文件第三章读取数据文件课程简介内容Clementine中可以读取的数据格式读取文本数据文件读取SPSS数据文件使用ODBC读取数据库查看数据Clementine中的数据类型和字段方向保存Clementine数据流目的介绍数据读入Clementine的一些方法109©2006SPSSInc.课程简介内容29©2006SPSSInc.Clementine中读取数据格式文本文件SPSS数据文件ODBC兼容的数据库SAS数据文件用户输入文件110©2006SPSSInc.Clementine中读取数据格式文本文件30©2006文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一些其它字符)的数据文件,可以使用变项文件节点读取数据如果数据是列界定的(字段未被分隔,但是始于相同的位置并有固定长度),应该使用固定文本文件导入固定文件节点读取文件SmallSampleComma.txtSmallSampleFixed.txt111©2006SPSSInc.文本文件自由字段文本文件是包含分隔符(逗号、制表符、空格或一读取自由字段文本文件添加变量文件节点到数据流区域编辑节点指向文件
SmallSampleComma.txt通过选择“类型”条目检查结果112©2006SPSSInc.读取自由字段文本文件添加变量文件节点到数据流区域32©20读取固定字段文本文件移动一个固定文件节点到数据流区域编辑这个节点指向文件
SmallSampleFixed.txt构造4个新字段,列出变量名和字段长度交互式手动输入113©2006SPSSInc.读取固定字段文本文件移动一个固定文件节点到数据流区域33©读取SPSS数据文件添加SPSS文件节点到数据流区域编辑节点,指向文件
SmallSample.savSPSS数据文件有特殊的“标签”:变量标签描述字段数值标签附上解释数值的编码114©2006SPSSInc.读取SPSS数据文件添加SPSS文件节点到数据流区域数据库节点使用数据库节点前必须配置ODBC驱动去指定数据库的位置“控制面板--管理工具”选择ODBC选择“添加…”115©2006SPSSInc.数据库节点使用数据库节点前必须配置ODBC驱动去指定数据添加ODBC数据源选择合适的ODBC驱动,该驱动应该匹配数据库的名称和版本数据源Holidays数据库文件custandhol.mdb116©2006SPSSInc.添加ODBC数据源选择合适的ODBC驱动,该驱动应该使用数据库节点添加并编辑数据库节点:选择数据库节点连接数据源选择“添加新的数据库连接”在数据源列表中选择需要连接的数据源,点击连接选择需要读取的表格117©2006SPSSInc.使用数据库节点添加并编辑数据库节点:37©2006SPS定义字段类型类型节点指定字段的一系列重要属性指定字段类型、方向和缺失值Clementine可以自动设置变量类型,用户也可以强制指定类型为建立模型,指定字段的方向指定缺失值以及如何处理缺失值变量值检查保证字段值满足一定的设置118©2006SPSSInc.定义字段类型类型节点指定字段的一系列重要属性38©2006定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备和所有建模程序所必需的字段类型:连续型–用于描述数值,如0-100
或者0.75-1.25
内的连续值一个连续值可以是整数、实数或日期/时间离散型–用于当一个具体值的精确数量未知时描述字符串,一旦数据被读取,其类型就会是标记、集合或者无类型集合型–用于描述带有多个具体值的数据(黄、绿、蓝)标记型–用于只取两个具体值的数据(真、假)无类型–用于不符合上述任一种类型的数据或者含有太多元素的集合类型数据119©2006SPSSInc.定义字段类型字段类型帮助您理解正在使用的数据,是一些数据准备字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型通过读取值后数据完全实例化,字段的取值和类型都是可知的通过类型节点或数据源节点上的类型条目可以指定数据类型120©2006SPSSInc.字段实例化在读取值前数据称为未实例化,字段设置为连续或离散型字段实例化何时在源节点实例化数据集不太大不打算以后在流中增加字段何时在类型节点实例化数据集较大,而且流在类型节点前就过滤了子集数据在流中被过滤数据在流中被合并或追加在处理过程中导出新的数据字段121©2006SPSSInc.字段实例化何时在源节点实例化41©2006SPSSIn字段类型用变项文件节点读取SmallSampleComma.txt字段实例化将ID字段的类型修改为无类型122©2006SPSSInc.字段类型用变项文件节点读取SmallSampleComma.字段方向输入:输入或者预测字段输出:输出或者被预测字段字段两者:既是输入又是输出,只在关联规则中用到无:建模过程中不使用该字段分区:将数据拆分为训练、测试(验证)部分字段方向设置只有在建模时才起作用123©2006SPSSInc.字段方向输入:输入或者预测字段43©2006SPSSI练习:用Clementine读取数据文件数据文件:逗号分隔文本文件charity.csvSPSS数据文件charity.sav具体步骤:打开Clementine在数据流区域添加变项节点编辑该节点连接表节点在数据流区域添加SPSS文件节点编辑该节点(两种方法)连接表节点保存其中一个流为ExerChapter3.str124©2006SPSSInc.练习:用Clementine读取数据文件数据文件:44©2第四章数据质量第四章数据质量课程计划内容缺失数据定义介绍质量节点使用数据审核节点检查所有字段的分布目的熟悉Clementine中的一些用来发现数据的准确性、完整性和数据整体分布的方法126©2006SPSSInc.课程计划内容46©2006SPSSInc.缺失数据类型系统缺失值,也被称作nulls,这些值在数据库中被留为空格,而且在类型节点上它们并不被明确设置为“缺失”系统缺失值在Clementine中显示为$null$用户自定义缺失值,也被称作空白blanks,这些值在类型节点上被明确地定义为缺失确定为空白的数据值被标记为特殊对待,而且在大多数计算中被剔除127©2006SPSSInc.缺失数据类型系统缺失值,也被称作nulls,这些值在数据库SmallSampleMissing.txt128©2006SPSSInc.SmallSampleMissing.txt48©200评估数据质量使用变项文件节点读取数据文件SmallSampleMissing.txt用类型条目实例化数据质量节点连接变项文件节点并输出质量报告取消选择空白(Whitespace)取消选择字符型空值(Emptystring)129©2006SPSSInc.评估数据质量使用变项文件节点读取数据文件SmallSampl定义缺失值后评估数据质量类型条目选中Children字段“缺失”选项定义空白缺失值99质量节点中选择Whitespace、Emptystring和Blankvalue分解含无效值的记录计数再次输出质量报告130©2006SPSSInc.定义缺失值后评估数据质量类型条目选中Children字段自动定义缺失值在类型条目对话框中:右击菜单中选中“全选”再右击选中设置“缺失”选择“开”131©2006SPSSInc.自动定义缺失值在类型条目对话框中:51©2006SPSS数据审核打开数据流:数据审核.str使用制表节点输出表格:共有4117条记录使用数据审核节点连接类型节点检查数据整体的分布抽样条目选择抽样当记录数多于5000,这样可以检查所有的记录执行数据审核节点输出检查结果132©2006SPSSInc.数据审核打开数据流:数据审核.str52©2006SPS输出检查结果点击小图看完整的分布图或直方图133©2006SPSSInc.输出检查结果点击小图看完整的53©2006SPSSIn练习:检查数据的完整性打开数据流ExerChapter3.str在源节点设置数据类型并实例化注意字段中blank的定义连接到一个质量节点,并执行该流查看质量报告连接到一个数据审核节点,执行该流特别注意字段pre-(
post-)campaignexpenditure(visits)选择字段(集合或标记),观察其分布图选择连续型字段,观察其直方图保存流134©2006SPSSInc.练习:检查数据的完整性打开数据流ExerChapter3第五章数据处理介绍第五章数据处理介绍课程计划内容介绍选择节点处理记录介绍几个字段处理节点:过滤、字段重排、导出和重新分类介绍如何自动生成字段和记录处理节点目的学会使用Clementine中一些可用的数据处理技术,并使用这些技术清洗和精炼数据136©2006SPSSInc.课程计划内容56©2006SPSSInc.数据处理技术CLEM(ClementineLanguageforExpressionManipulation)是一种功能强大的语言,用来分析操作Clementine中使用的数据用在导出、选择、过滤、平衡和报告等节点这些函数可以导出新的值、根据条件选择记录、比较和评估数据、插入数据注意:为了将错误减少到最小,当使用CLEM时经常需要为字段名加上单引号137©2006SPSSInc.数据处理技术CLEM(ClementineLanguag表达式构造器尽量不要手动输入CLEM表达式138©2006SPSSInc.表达式构造器尽量不要手动输入CLEM表达式58©2006选择节点打开数据流:选择节点.str使用选择节点连接类型节点选择符合条件“INCOME<20000”的记录选择模式“包含”使用分布节点分别连接类型节点和选择节点生成字段RISK的分布比较选择前后的分布139©2006SPSSInc.选择节点打开数据流:选择节点.str59©2006SPS两个分布的比较选择前选择后140©2006SPSSInc.两个分布的比较选择前选择后60©2006SPSSInc过滤节点打开数据流:过滤节点.str使用过滤节点连接类型节点改变字段名STORECAR为STORECARDS移除字段ID使用制表节点输出表格查看结果141©2006SPSSInc.过滤节点打开数据流:过滤节点.str61©2006SPS字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序点击“选择字段”按钮选择字段:NUMKIDS,NUMCARDS和RISK点击“移动选定字段到顶部”选项将字段Risk移到顶部使用制表节点输出表格查看结果142©2006SPSSInc.字段重排节点使用字段重排节点连接过滤节点重新排列字段顺序62导出节点使用导出节点连接过滤节点导出新字段导出节点四种形式:导出规则导出标记导出集合导出条件143©2006SPSSInc.导出节点使用导出节点连接过滤节点导出新字段63©2006重新分类节点使用重新分类节点连接最后一个导出节点选择单一模式重分类Risk字段为新字段RISKCATbadloss,badprofit新值badgoodrisk新值good使用制表节点输出表格通过表格比较两个字段144©2006SPSSInc.重新分类节点使用重新分类节点连接最后一个导出节点64©20CLEM建议…大小写敏感性在字符值和所有变量(字段)名上加引号当涉及数值时使用小数点(0.0)标准CLEM函数全部是小写字母任何以@开头的CLEM函数都是大写字母使用表达式构造器!145©2006SPSSInc.CLEM建议…大小写敏感性65©2006SPSSIn自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个节点146©2006SPSSInc.自动生成节点大部分输出都包含“生成”菜单项,可以自动生成一个自动生成导出节点使用直方图节点连接最后一个导出节点直方图节点中选择字段INCOME生成直方图在生成的直方图上数值20000、30000、40000处点击自动生成导出节点导出集合147©2006SPSSInc.自动生成导出节点使用直方图节点连接最后一个导出节点67©2自动选择没有缺失值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高一年级体育教学计划
- 2024艺体工作计划
- 2024年室内设计师的个人工作计划范文范文
- 六年级下学期体育教学工作计划
- 有关办公室的工作计划范文
- 2024小学语文名师工作室个人工作计划
- X区商务局2024年上半年工作总结和下半年工作计划
- 安全主任工作计划
- 房地产中介年初工作计划开头
- 小学2019年秋季少先队工作计划范文
- 职业规划中职业能力
- 肾积水教学演示课件
- 煤焦酚-安全技术说明书MSDS
- 2024年湖北省初中学业水平考试物理•化学试题
- 跨文化交流与国际视野培养
- 医院检验科院感知识
- 保密与项目管理
- 11《百年孤独》练习(含答案)统编版高中语文选择性必修上册
- 2024年倪海杉户外直播答题题库汇总
- 无人机测绘操控员培训计划及大纲
- 新疆阿克苏市2022-2023学年九年级上学期期末历史试题(无答案)
评论
0/150
提交评论