




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、spss clementine节点节点刘喜平江西财经大学数据挖掘技术讲座之page 2目录目录源选项卡源选项卡记录选项卡记录选项卡图形选项卡图形选项卡输出选项卡输出选项卡导出选项卡导出选项卡字段选项卡字段选项卡page 3源选项卡源选项卡n clementine 提供了简单有效的获取不同数据来源的方法提供了简单有效的获取不同数据来源的方法page 4n 资料来源选项板包含以下节点资料来源选项板包含以下节点: n 数据库数据库用于通过用于通过 odbc 导入资料。导入资料。 n 可变文件可变文件用于无限制字段的用于无限制字段的 asc资料。资料。 n 固定文件固定文件用于固定字段的用于固定字段的
2、 asc资料。资料。 n spss 文件文件用于导入用于导入 spss 文件。文件。 n sas 文件文件用于导入用于导入 sas 格式的文件。格式的文件。 n excel用于导入用于导入excel电子表格电子表格n 用户输入用户输入用于替代已存在的来源节点,也可通过在已存在节用于替代已存在的来源节点,也可通过在已存在节点上点击鼠标右键的方式使用该节点。点上点击鼠标右键的方式使用该节点。 n 企业视图企业视图n dimensionspage 5可变文件可变文件n 特点:特点:n 通常一行数据为一个样本通常一行数据为一个样本n 每行数据有相同的列,分别依次对应不同的变量每行数据有相同的列,分别依
3、次对应不同的变量n 列之间以逗号等分隔符分隔列之间以逗号等分隔符分隔n 变量名一般存储在第一行变量名一般存储在第一行page 6节点参数设置节点参数设置文件文件n 指定所读入数据指定所读入数据的基本格式的基本格式page 7节点参数设置节点参数设置数据数据n 指定所读入数据的基本类型等指定所读入数据的基本类型等覆盖覆盖:查看目前储存:查看目前储存类型和是否需要重新类型和是否需要重新储存。储存。 存储存储:可修改每一:可修改每一字字段段存储类型的列表。存储类型的列表。clementine中其他的中其他的存储类型有:实数型存储类型有:实数型、 字符型、时间型、字符型、时间型、日期型。日期型。pag
4、e 8节点参数设置节点参数设置过滤过滤n 指定读数据时不读哪些变量指定读数据时不读哪些变量,并可重新修改变量名并可重新修改变量名page 9节点参数设置节点参数设置类型类型n 指定所读数据的变量类型指定所读数据的变量类型n 对变量的缺省值和取值合理性等进行检查对变量的缺省值和取值合理性等进行检查实例化后的窗口实例化后的窗口实例化前的窗口实例化前的窗口page 10节点参数设置节点参数设置类型类型n clementine中变量的类型中变量的类型n 范围型:如年龄范围型:如年龄n 离散型:如家庭人口数离散型:如家庭人口数n 标志型:如性别标志型:如性别n 集合型:如职业集合型:如职业n 有序集型:
5、如学历和收入水平有序集型:如学历和收入水平n 缺省型:未明确的变量类型缺省型:未明确的变量类型n 无类型:不属于上述类型无类型:不属于上述类型page 11节点参数设置节点参数设置注解注解n 给节点命名和添加注释性的文字给节点命名和添加注释性的文字page 12读取读取excel电子表格电子表格page 13读取读取excel电子表格电子表格page 14读取读取spss格式文件格式文件n 数据文件扩展名为数据文件扩展名为.savpage 15读取数据库文件读取数据库文件n clementine支持支持odbc方式访问数据库方式访问数据库n 两个步骤:两个步骤:n 建立数据源建立数据源n 通过
6、该数据源访问数据库通过该数据源访问数据库page 16读取数据库文件读取数据库文件n 选择相应的数据源和数据库中的表选择相应的数据源和数据库中的表page 17固定格式文件固定格式文件n 使用固定文件节点从使用固定文件节点从固定字段的文本文件固定字段的文本文件中读入数据(字段未中读入数据(字段未被分隔,但是始于相被分隔,但是始于相同的位置,并有固定同的位置,并有固定长度)。长度)。 n 将数据导入将数据导入 clementine,并指定,并指定列的位置和记录长度。列的位置和记录长度。page 18用户输入数据用户输入数据page 19变量的说明变量的说明n 变量说明是对读入数据流中变量取值的有
7、效性进行限定、变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正,同时指明各个变量在未来建模中的角色检查和修正,同时指明各个变量在未来建模中的角色page 20记录选项卡记录选项卡n 记录操作节点用于在记录层次修改资料集。这些操作在数记录操作节点用于在记录层次修改资料集。这些操作在数据挖掘的数据理解和数据准备阶段很重要。据挖掘的数据理解和数据准备阶段很重要。n 记录选项卡包括以下节点:记录选项卡包括以下节点:n 选择(选择(select) n 样本(样本(sample) n 平衡(平衡(balance) n 汇总(汇总(aggregate) n rfm汇总汇总n 排序(排序(sort
8、) n 合并(合并(merge) n 追加(追加(append) n 区分(区分(distinct)page 21选择节点选择节点n 用户可以使用选择节点根据具体条件从数据流中选择或排用户可以使用选择节点根据具体条件从数据流中选择或排除某一记录子集,如符合除某一记录子集,如符合classdrink条件的记录条件的记录子集。子集。 n 选择节点也用于选择一定比例的记录,用户可以使用选择选择节点也用于选择一定比例的记录,用户可以使用选择节点来创建自己的条件。例如,用户可以创建如下条件:节点来创建自己的条件。例如,用户可以创建如下条件: class=drinkand random(10)=4 这一条
9、件将从这一条件将从 class 为为“drink”的记录中,选择大约的记录中,选择大约40,并向流程的下游传递这些记录以用于进一步分析,并向流程的下游传递这些记录以用于进一步分析page 22page 23样本节点样本节点n 用户可以使用样本节点来选取一定比例的记录。其作用是:用户可以使用样本节点来选取一定比例的记录。其作用是: n 提高数据挖掘工具的性能。提高数据挖掘工具的性能。 n 大量削减一个大型的数据集,比如拥有上百万记录的数据集。使大量削减一个大型的数据集,比如拥有上百万记录的数据集。使用抽样节点,使用者可以通过随机抽样来生成模型,该模型通常用抽样节点,使用者可以通过随机抽样来生成模
10、型,该模型通常和从整个数据集中导出的模型一样精确。和从整个数据集中导出的模型一样精确。 n 训练类神经网络。使用者应该为训练和测试各保留一个样本。训练类神经网络。使用者应该为训练和测试各保留一个样本。page 24page 25平衡节点平衡节点n 用户可以使用平衡节点来修正数据集中的不均匀性,以便用户可以使用平衡节点来修正数据集中的不均匀性,以便能够符合特定的测试原则。能够符合特定的测试原则。n 如:某次健康调查的数据中如:某次健康调查的数据中1%为病患儿童,为病患儿童,99%为健康为健康儿童儿童page 26汇总节点汇总节点n 可以使用汇总节点,把一系列输入记录变换成总括性的、可以使用汇总节
11、点,把一系列输入记录变换成总括性的、聚合的输出记录聚合的输出记录page 27排序节点排序节点n 可以使用排序节点根据一个或多个字段值对记录进行升序可以使用排序节点根据一个或多个字段值对记录进行升序或降序排列。或降序排列。 n 排序节点经常用于浏览和选择带有最常见资料值的记录,排序节点经常用于浏览和选择带有最常见资料值的记录,有助于探索分析资料并作出决策,比如选择前十名最好的有助于探索分析资料并作出决策,比如选择前十名最好的顾客的记录。顾客的记录。 page 28合并节点合并节点n 合并节点的功能是接受多重输入记录,并生成包含部分或合并节点的功能是接受多重输入记录,并生成包含部分或全部输入字段
12、的单一输出记录,这一操作在合并来自不同全部输入字段的单一输出记录,这一操作在合并来自不同资料来源的资料时很有用。资料来源的资料时很有用。 page 29page 30追加节点追加节点n 追加节点是在数据尾部不断追加样本的过程追加节点是在数据尾部不断追加样本的过程n 追加节点用于合并有相似结构而数据不同的数据集,假定追加节点用于合并有相似结构而数据不同的数据集,假定它们具有同样的数据结构(同样的字段,同样的顺序),它们具有同样的数据结构(同样的字段,同样的顺序),追加节点将会它们合并成一个大的数据集追加节点将会它们合并成一个大的数据集page 31page 32区分节点区分节点n 可以使用区分节
13、点来清除重复性记录。如果想在数据集中可以使用区分节点来清除重复性记录。如果想在数据集中每一项对应一个单一记录,如客户、帐号、产品等,则这每一项对应一个单一记录,如客户、帐号、产品等,则这项操作将很有用的。项操作将很有用的。page 33字段选项卡字段选项卡n 字段选项卡实现对字段的说明、重新计算、类别调整等目字段选项卡实现对字段的说明、重新计算、类别调整等目标标n 字段选项卡包含以下节点:字段选项卡包含以下节点: n类型类型 n过滤过滤n导出导出 n整体整体n填充填充 n匿名化匿名化n重新分类重新分类n分箱分箱n分区分区n设置成标记(设置成标记(set to flag) n重新结构化重新结构化
14、n转置转置n时间区间时间区间n历史历史nspss变换变换n字段重排字段重排 page 34类型节点类型节点n 用于指定字段的一系列重要属性用于指定字段的一系列重要属性page 35类型节点类型节点n “缺失缺失”选项选项n 开:表示允许相应变量取用开:表示允许相应变量取用户缺失值户缺失值n 关:不允许相应变量取用户关:不允许相应变量取用户缺失值缺失值n 指定:定义变量取值范围、指定:定义变量取值范围、用户缺失值等信息用户缺失值等信息指定对变量值的修指定对变量值的修正方法正方法视下列值为空白视下列值为空白此处输入的离散值此处输入的离散值当空白处理当空白处理此处输入的范围值此处输入的范围值当空白处
15、理当空白处理系统缺失值系统缺失值$null$和空格当空白处理和空格当空白处理page 36类型节点类型节点n “检查检查”项项n 对超出取值范围的不合理取值或系统缺失值进行修正对超出取值范围的不合理取值或系统缺失值进行修正n 修正方式:修正方式:n 无:不进行修正无:不进行修正n 无效:用系统缺失值无效:用系统缺失值($null$)替代替代n 强制:根据下述规则被转化为一个该种类型的合法值:强制:根据下述规则被转化为一个该种类型的合法值: n 对于标志型,用对于标志型,用“假假” 值替代值替代n 对于集类型,用集值的第一个元素替代对于集类型,用集值的第一个元素替代n 对于数值型,超过区间上限的
16、数字用上限替代,低于区间下限的数字用对于数值型,超过区间上限的数字用上限替代,低于区间下限的数字用下限替代,其余值用该区间的中位数代替下限替代,其余值用该区间的中位数代替 n 丢弃:剔除相应样本数据丢弃:剔除相应样本数据n 警告:给出警告信息警告:给出警告信息n 中止:中止流的执行中止:中止流的执行page 37过滤节点过滤节点n 三个功能:三个功能: n (1)从记录中过滤或剔除从记录中过滤或剔除字段字段 n (2)重命名字段重命名字段 n (3)把字段从一个来源节把字段从一个来源节点映像到另一个点映像到另一个 page 38导出节点导出节点n 从原始字段中导出新从原始字段中导出新字段字段p
17、age 39导出节点导出节点n 选项选项n 模式:模式:“单个单个” 还是还是 “多个多个”,取决于使用者是否想导出多重,取决于使用者是否想导出多重字段。字段。n 导出为:选择导出节点的类型。导出为:选择导出节点的类型。n 公式:其新字段是任一个公式:其新字段是任一个 clem 表达式的结果。表达式的结果。 n 标志:其新字段是一个标记,显示了指定的条件。标志:其新字段是一个标记,显示了指定的条件。 n 集:其新字段是一个集,即它的元素是一组指定值。集:其新字段是一个集,即它的元素是一组指定值。 n 状态:其新字段是两种状态的一种。在两种状态之间的转换状态:其新字段是两种状态的一种。在两种状态
18、之间的转换 是根据是根据指定的条件来决定的。指定的条件来决定的。 n 计数:其新字段是基于条件正确的次数。计数:其新字段是基于条件正确的次数。 n 条件:其新字段是两种表达式之一的值,取决于条件的值。条件:其新字段是两种表达式之一的值,取决于条件的值。 n 字段类型:新导出字段的类型字段类型:新导出字段的类型 page 40填充节点填充节点n 填充节点用来替换字段填充节点用来替换字段值以及改变存储。用户值以及改变存储。用户可以用一个指定的可以用一个指定的 clem 条件,比如条件,比如blank(field),来替换字段值。也可以来替换字段值。也可以用一个指定的值替换所用一个指定的值替换所有的
19、空缺和无效值。填有的空缺和无效值。填充节点通常与类型节点充节点通常与类型节点结合起来替换遗漏值。结合起来替换遗漏值。page 41page 42设为标记节点设为标记节点n 根据一个类型为集合的字段创建若干个标志类型的字段根据一个类型为集合的字段创建若干个标志类型的字段page 43重新分类节点重新分类节点n 用于对类别值进行调整用于对类别值进行调整page 44分箱节点分箱节点n 用于将数据离散化用于将数据离散化n 分箱方法:分箱方法:n 固定宽度固定宽度n 分位数(同等计数):每个箱的分位数(同等计数):每个箱的计数相同计数相同n 等级:数据样本的等级等级:数据样本的等级n 平均值平均值/标
20、准差:根据均值的若干标准差:根据均值的若干个标准差范围分组个标准差范围分组n 最优:根据最短描述长度原则分最优:根据最短描述长度原则分组组page 45page 46分区节点分区节点n 将样本集分割为训练、检验和验证集将样本集分割为训练、检验和验证集page 47分区节点分区节点n 分区后分区后page 48重新结构化重新结构化n 调整数据集的组织调整数据集的组织page 49图形选项卡图形选项卡n 数据挖掘过程的某些阶段使用图形来对数据作探索性分析。数据挖掘过程的某些阶段使用图形来对数据作探索性分析。 n 图形的另一个常见用途是检查新导出字段的分布和关联。图形的另一个常见用途是检查新导出字段
21、的分布和关联。n 图形选项卡包括以下节点图形选项卡包括以下节点n 图图 (散点图)(散点图)n 分布图(条形图)分布图(条形图) n 直方图(柱形图)直方图(柱形图) n 集合集合 n 多重散点图多重散点图 n 网络图网络图n 时间散点图时间散点图n 评估图评估图page 50散点图散点图n 散点图节点显示出了数值型字段之间的关系散点图节点显示出了数值型字段之间的关系观察这一变观察这一变量的取值情量的取值情况况page 51n 从图中可以看出什么信息?从图中可以看出什么信息?page 52多重散点图多重散点图n 多点图是一种特殊类型的散点图,它显示的是一个单独的多点图是一种特殊类型的散点图,它
22、显示的是一个单独的 x 字段对应多个字段对应多个 y 字段的情况字段的情况page 53page 54分布节点分布节点n 展现在一个数据集中,两个分类变量值的发生情况展现在一个数据集中,两个分类变量值的发生情况page 55page 56使用分布图使用分布图n 用户可以使用弹出菜单上的选项来选择数据的一个子集,用户可以使用弹出菜单上的选项来选择数据的一个子集,导出一个标记字段,或对比平衡数据。导出一个标记字段,或对比平衡数据。page 57生成的选择节生成的选择节点点对应的选择条件对应的选择条件page 58生成的导出节点生成的导出节点对应的设置对应的设置page 59直方图节点直方图节点n
23、直方图节点显示的是数值型字段变量值直方图节点显示的是数值型字段变量值page 60page 61集合节点集合节点n 集合图显示的是一个数值型字段变量值与另一个字段变集合图显示的是一个数值型字段变量值与另一个字段变量值相对比结果的分布,而不是显示一个单独字段变量值量值相对比结果的分布,而不是显示一个单独字段变量值的发生率;此外,堆积图与直方图是很相似的。的发生率;此外,堆积图与直方图是很相似的。n 一个集合图对于阐明变量值随时间变化的变量或字段来说一个集合图对于阐明变量值随时间变化的变量或字段来说是十分有用的是十分有用的n 收集(收集(collect):选择一个字段,其变量值被聚集,并):选择一
24、个字段,其变量值被聚集,并显示在下面给定字段的变量值范围中。显示在下面给定字段的变量值范围中。 n 超出(在超出(在上上,over):选择一个字段,其变量值将被):选择一个字段,其变量值将被用来显示上面指定的收集字段。用来显示上面指定的收集字段。 n 操作(操作(operation):选择堆积图中的每个条柱都分别代):选择堆积图中的每个条柱都分别代表什么。表什么。page 62page 63网络图节点网络图节点n 网络图节点显示的是两个网络图节点显示的是两个或两个以上分类字段之间或两个以上分类字段之间关系的强弱程度。这种图关系的强弱程度。这种图像通过使用各种不同类型像通过使用各种不同类型的线条
25、指示联系的强度来的线条指示联系的强度来显示关系显示关系page 64page 65评估图节点评估图节点n 评估图节点提供了一种能够很轻松地评估和比较模型、并评估图节点提供了一种能够很轻松地评估和比较模型、并从中选择最有利于应用的模型的方法。多个模型在图中被从中选择最有利于应用的模型的方法。多个模型在图中被表示为多条相互独立的线。表示为多条相互独立的线。n 一共有五种评估图表,其中每一个都强调了一个不同的评一共有五种评估图表,其中每一个都强调了一个不同的评估准则。估准则。n 增益:增益:n 响应:响应:n 提升:提升:n 利润利润n 投资回报率投资回报率n 将结合模型讲解将结合模型讲解page
26、66输出选项卡输出选项卡n 输出选项卡提供各种方式获得关于数据和模型的信息。输出选项卡提供各种方式获得关于数据和模型的信息。n 包含的节点:包含的节点:n 表表 n 矩阵矩阵 n 分析分析 n 数据审核数据审核n 变换变换 n 统计量统计量 n 均值均值 n 报告报告n spss输出输出 page 67表节点表节点n 以表格的形式显示数据内容以表格的形式显示数据内容page 68矩阵节点矩阵节点n 矩阵节点允许用户建立一个显示字段之间关系的表。最常矩阵节点允许用户建立一个显示字段之间关系的表。最常见的使用方式是被用来显示两个分类字段之间的关系,但见的使用方式是被用来显示两个分类字段之间的关系,但是它也能够被用来显示标志字段之间或者数值型字段之间是它也能够被用来显示标志字段之间或者数值型字段之间的关系。的关系。page 69分析节点分析节点n 分析节点允许用户分析预分析节点允许用户分析预测模型来评估它们产生精测模型来评估它们产生精确预测值的能力。对一个确预测值的能力。对一个或更多个产生的模型节点,或更多个产生的模型节点,分析节点可以进行各种各分析节点可以进行各种各样的在预测值和实际值之样的在预测值和实际值之间的比较。分析节点也可间的比较。分析节点也可以被用来比较不同的预测以被用来比较不同的预测模型。模型。 page 70数据审核节点数据审核节
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科学篇SCMP 2024试题及答案
- 物流行业的战略创新试题与答案
- 安徽省滁州三中2025年高考化学一模试卷含解析
- 2025届福建省福州市长乐区长乐高级中学高三一诊考试化学试卷含解析
- 2025届江苏省苏州市实验中学高三下学期联考化学试题含解析
- 2025年环氧脂肪酸甲酯项目合作计划书
- 有效备考CPSM2024年试题及答案
- 2024年国际物流师职业健康考题探讨试题及答案
- 2024年CPMM耳熟能详题目及试题及答案
- 预防邪教知识
- 千分尺完整(公开课用)课件
- 三年内无重大违法记录声明
- 互联网行业网络安全事件案例解析
- 冀教版四年级下册《总价、单价和数量》教学设计及反思
- DB14-T 2952-2023 食品小作坊、小经营店、小摊点落实食品安全主体责任工作指南
- GB/T 44438-2024家具床垫功能特性测试方法
- 品质提升计划改善报告课件
- 上海高考化学考纲知识点版
- LYT 2085-2013 森林火灾损失评估技术规范
- 初中九年级化学酸碱盐练习题
- 员工反腐败与合规培训制度
评论
0/150
提交评论