SPSS Modeler培训(2)_第1页
SPSS Modeler培训(2)_第2页
SPSS Modeler培训(2)_第3页
SPSS Modeler培训(2)_第4页
SPSS Modeler培训(2)_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS Modeler培训培训(2)(2)培训内容培训内容 第一章第一章 高级数据准备技术高级数据准备技术第二章第二章 PASW Modeler预测分类技术预测分类技术决策树技术决策树技术Logistics回归回归神经网络神经网络第三章第三章 PASW Modeler聚类技术聚类技术2第一章第一章 高级数据准备技术高级数据准备技术RFM汇总及汇总及RFM分析分析建模数据准备及优化建模数据准备及优化其他建模前数据处理其他建模前数据处理34RFM评分评分交易型数据交易型数据格式化数据格式化数据RFM汇总节点汇总节点计算相对于以下内容的近因计算相对于以下内容的近因:指定计算交易近因的日期。ID 为

2、连续:为连续:如果数据按ID预排序,则可以加快处理速度。丢弃具有以下值的记录:丢弃具有以下值的记录:如果指定一个最小值,凡低于该值的交易详细信息都不再被使用。只包含最近交易:只包含最近交易:如果分析的是大型数据库,则可以指定只使用最近的记录。保存第二个最近交易的日期保存第二个最近交易的日期5RFM分析节点分析节点RFM 得分的计算方法如下:得分的计算方法如下:(近因分值 x 近因权重)+(频数分值 x 频数权重)+(货币分值 x 货币权重)。分级阈:分级阈:指定在执行节点时是始终重新计算 RFM 分值和分级分配,还是仅在需要时进行计算(如在添加了新数据时)。67建模数据准备及优化建模数据准备及

3、优化内容介绍分析节点介绍使用RFM汇总生成最近交易天数、频度、金额介绍使用RFM分析生成RFM评分8建模数据准备及优化建模数据准备及优化内容介绍分箱节点介绍自动数据准备节点分箱节点分箱节点最优最优预分级字段以增强大型数据集的性能:预分级字段以增强大型数据集的性能:采用简单的非监督式分级方法将尺度值分组为大量分级,以均值表示每个分级中的值,并在继续监督式分级之前对观测值权重进行相应调整。将观测值计数相对较小的分级与较大的相邻分级将观测值计数相对较小的分级与较大的相邻分级进行合并:进行合并:当该分级大小与相邻分级大小的比值小于指定的阈值时,将合并分级。9分箱节点分箱节点其他其他固定宽度固定宽度分位

4、数分位数等级等级根据取值进行排序,记录每条记录的顺序,所占顺序的百分比平均值平均值/标准差标准差101111自动数据准备自动数据准备快速有效地数据准备快速有效地数据准备提高新用户的工作效提高新用户的工作效率率12l一般数据清理一般数据清理在可行的情况下修正错误,或者将其筛选出来,以避免错误,增在可行的情况下修正错误,或者将其筛选出来,以避免错误,增加生成有效模型的几率,包括:加生成有效模型的几率,包括: 处理缺失值、离散值和极值。 筛选出在建模中可能无用的字段。例如,类别太多或太少,缺失值太多等。 解决编码和收集错误。 规范或重新编码数据以便保持一致。 衍生变量或属性,例如输入组合或复合变量。

5、l增强增强通过多种方式执行或建议对数据的增强:通过多种方式执行或建议对数据的增强: 数值字段的最优离散化以便更好提升(针对目标); 变量组合(如比率)用于所有数值组合;l性能性能 重要的修正/增强属性的特征选择。自动数据准备自动数据准备数据处理优化简介数据处理优化简介连续变量处理连续变量处理标准化连续自变量Z-SCORE规范法:基于平均值和标准差标准化处理最小/最大转换:将原始值通过该变量的最小最大值距离标准化在新定义的数值区间中的值。标准化连续因变量:BOX-COX转换修正因变量的非正态性根据显著性阀值,对连续自变量进行离散化分类变量处理分类变量处理根据显著性阀值,合并稀疏类别1314其他建

6、模前数据处理内容其他建模前数据处理内容n 简要讨论建模前的数据准备和清洗n 使用条形图和平衡节点平衡数据n 使用分割节点分割数据为训练和测试样本n 通过分布图节点转换数据n 运行神经网络前使用转换到连续变量15清洗数据清洗数据 简评估数据质量:使用源节点的类型条目或类型节点实例化数据使用源节点或类型节点指定空白值使用质量节点检查和计数无效数据使用数据审核节点检查数据的分布和统计性质 提高数据质量:使用质量报告生成选择节点移除带有缺失字段的记录使用质量节点生成过滤节点移除带有大量缺失的字段使用填充节点替换空白值使用使用源节点的类型条目或类型节点自动检查过程16平衡数据平衡数据 简检查建模中所要使

7、用的关键字段的分布:数据审核节点条形图节点(字符字段)直方图节点(数值字段)使用平衡节点来修正数据集中的不均匀性:由分布图和直方图自动生成增加或减少记录建议使用减少记录:增加记录扩大了数据中的问题和不规则性小数据集使用减少记录是不可行的17举例说明平衡数据举例说明平衡数据使用使用分布图节点生成字段分布图节点生成字段 CHURNED 的分布图的分布图 使用分布图自动生成均衡使用分布图自动生成均衡 节点(减少记录)节点(减少记录) 平衡数据后字段平衡数据后字段 CHURNED 的分布图的分布图均衡数据均衡数据.str18数据分割数据分割 使用导出节点和选择节点分割数据使用导出节点和选择节点分割数据

8、 分割节点可以直接分割数据为训练、测试(和分割节点可以直接分割数据为训练、测试(和验证)数据验证)数据 使用抽样节点分割数据(缓存)使用抽样节点分割数据(缓存) SPSS Modeler 所有建模节点都有一个选项可所有建模节点都有一个选项可以启用分割,自动认可一个字段方向为分割以启用分割,自动认可一个字段方向为分割19数值数据转换数值数据转换 对于数值数据,不适合使用均衡数据的方法,一般通过对于数值数据,不适合使用均衡数据的方法,一般通过数据转换把有偏数据的分布转换为平坦的分布数据转换把有偏数据的分布转换为平坦的分布 可以使用导出节点完成对数据的转换,通常转换为正态可以使用导出节点完成对数据的

9、转换,通常转换为正态分布或均匀分布常用数字转换公式:分布或均匀分布常用数字转换公式: Exp(x) 、Log(x+a) 、Log(x-a)/(b-x) 、Log10(x+a)、Sqrt(x) 、1 / Exp(GLOBAL_AVE (x)-x)20标记变量转换成连续变量标记变量转换成连续变量 使用神经网络预测一个简单的使用神经网络预测一个简单的“是是/否否”标记字段时变标记字段时变换标记字段为连续字段换标记字段为连续字段 使用使用“是是/否否”标记字段作为输出时,神经网络内部转标记字段作为输出时,神经网络内部转化这两个值为化这两个值为“0/1”,输出仍为,输出仍为“是是/否否” 使用变换后的连

10、续字段作为输出时,结果是使用变换后的连续字段作为输出时,结果是0到到1 之间之间的数值在接近边界时看成比较强的结果,在接近中间时的数值在接近边界时看成比较强的结果,在接近中间时看成边界结果看成边界结果第二章第二章 SPSS Modeler预测分类技术预测分类技术内容内容决策树技术决策树技术Logistics回归回归神经网络神经网络2122决策树技术决策树技术 介绍介绍C5.0、CHAID、C&RT 和和QUEST 节点节点的高级特性的高级特性 介绍交互树的特点介绍交互树的特点 了解了解CHAID 和和C&RT 在建模中处理数值输出在建模中处理数值输出 使用拆分数据测试模型使用拆

11、分数据测试模型23决策树模型比较决策树模型比较模型准则模型准则C5.0CHAIDQUESTC&RT字符预测器拆分类型多重多重二元二元连续目标否是否是连续预测器是否是是预测器选择准则信息度量卡方检验和F 检验统计杂质(离差)度量能否使用缺失预测器值是,缺失分成几部分是,缺失成为一个分类是,使用代理是,使用代理先验否否是是修剪准则交互式建立树否是是是支持推进是否否否24C5.0 建模(字符输出)建模(字符输出)25增益率选择标准增益率选择标准 C5.0 中的增益率选择标准以信息论为基础,用来决中的增益率选择标准以信息论为基础,用来决定如何分割数据定如何分割数据 GAIN(X) = INFO

12、(DATA) INFOX(DATA) GAIN RATIO(X) = GAIN(X) / SPLIT INFOX(DATA) C5.0 算法:使用最大化信息增益率的字段分割数据算法:使用最大化信息增益率的字段分割数据26高级选项高级选项 修剪纯度:修剪纯度:决定生成决策树或规则集被修剪的程度。提高纯度值将获得更小、更简洁的决策树;降低纯度值将获得更加精确的决策树 子分支最少记录数:子分支最少记录数:子群大小可以用于限制决策树任一分支的拆分数,只有当两个或以上的后序子分支包括来自训练集的记录不少于最小记录数时,决策树才会继续拆分,提高该值将有助于避免噪声数据的过度训练 辨别属性:辨别属性:如果选

13、择了该选项,C5.0 会在建立模型前检验预测字段的有用性,与分析无关的预测字段将不参与建模过程。这一选项对有许多预测字段的模型非常有用,并且有助于避免过度拟合27如何使用修剪和子分支最少记录数如何使用修剪和子分支最少记录数C5.0 简单模式:如果算法选择偏向精确性,修剪纯度设定为 75 ,子分支最少记录数设定为 2 如果算法选择偏向一般性,修剪纯度设定为 85 ,子分支最少记录数设定为 5 如果选择期望噪声百分数,子分支最少记录数设定为这个值的二分之一可以使用专家模式精炼简单模式生成的树如果树很大,有很多分支,提高修剪纯度如果有期望噪声百分数的估计,设定子分支最少记录数为这个值的二分之一28其

14、它选项其它选项使用推进:使用推进:这种方法按序列建立多重模型第一个模型以通常的方式建立随后,建立第二个模型,聚焦于被第一个模型错误分类的记录然后第三个模型聚焦于第二个模型的错误,等等最后,应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测使用推进可以显著提高C5.0 模型的精确度,但是同时也需要更长的训练时间误分类成本:误分类成本:设定误分类的成本在某些情况下,特定类型的错误比其他类错误所引起的损失更大,误分类成本允许指定不同类型预测错误之间的相对重要性29CHAID 建模(字符输出)建模(字符输出)30选项设置选项设置两种模式:两种模式:CHAID 和 Exhausti

15、ve CHAIDExhaustive CHAID 检查更多的预测器拆分,从而提高找到最佳预测器的机会,需要更多的时间最大树状图深度(树生长的层数)最大树状图深度(树生长的层数)由于 CHAID 并不修剪过于茂密的树,用户可以通过 “根以下的层”设定树的深度CHAID 可以通过标准模式创建一个完整的树或者建立一个交互树31高级选项高级选项CHAID 使用卡方检验选择用来分割的预测器如果预测器有超过两个分类,CHAID 将会合并那些在结果中相差很小的分类当剩余分类在指定检验水平下(合并显著性值)一致时停止合并过程对于连续预测器,数值将会被分为最大十个分组CHAID 中允许分割合并的分类由于执行许多

16、卡方检验,当检验预测器时CHAID 通过 “Bonferroni 调整” 选项自动调整显著性阀值32停止标准停止标准33C&RT 建模(字符输出)建模(字符输出)34高级选项高级选项修剪树:简单模式下会自动调用修剪修剪树:简单模式下会自动调用修剪标准差原则允许 C&RT 选择最简单的树,其风险估计接近于风险最小的子树的风险估计值乘数表明修剪树与具有最小估计风险的子树之间的允许估计风险差异程度杂质指树所定义子群的输出字段的变化范围杂质指树所定义子群的输出字段的变化范围最小杂质改变指定在树中进行新的拆分所需的最小杂质改变量分类目标字段的杂质度量选择度量树的杂质的方法Gini 是基于

17、分支类别概率的一般杂质度量方法两分是加重二元拆分的杂质度量方法,更易在拆分中生成大致等规模的分支有序添加了额外的限制,即只有连续的目标类才可以组成一组,此选项仅适用于顺序目标。数值目标字段总是使用最小平方偏差杂质度量方法35高级选项高级选项代理:处理缺失值代理:处理缺失值对于树中的每一次拆分,分类回归树识别与拆分字段最相似的输入字段,这些字段是该拆分字段的代理如果必须对某一记录分类,而该记录拆分字段有缺失值,则该记录拆分字段的代理字段值可用于拆分先验概率先验概率基于训练数据集对于所有类都相等定制使用误分类成本调整先验概率误分类成本误分类成本36QUEST 建模(符号输出)建模(符号输出)37高

18、级选项高级选项QUEST 采取统计检验的方法选择预测器对于连续和顺序预测器变量,使用 F 检验对于名义预测器变量(标记和集合),使用卡方检验自动使用 Bonferroni 调整(不受用户控制)选择预测器后,QUEST 通过二次方程判别式分析,拆分选定的预测器为两组拆分显著性值默认为 0.05对于大数据集,可以减少为 0.01修剪、停止和代理38交互式树创建工具交互式树创建工具39预测数值字段预测数值字段C&RT 和 CHAID 可以预测数值字段C&RT 高级模式中的先验选项和错误分类损失选项与连续性的输出无关CHAID 的误分类成本选项与连续性的输出无关40使用分区数据检验模型

19、使用分区数据检验模型打开数据流:Chapter1-Partition.str类型节点中设置字段CHURNE 方向为输出C5.0 节点连接分割节点生成的 C5.0 节点连接分割节点分析节点连接生成的 C5.0 节点41分析输出结果分析输出结果42Logistic 回归回归回顾回顾 Logistic 回归的概念回归的概念 对于字符输出字段的统计预测模型对于字符输出字段的统计预测模型使用使用 Logistic 节点进行信用风险建模节点进行信用风险建模43Logisitic 模型简介模型简介Logistic 不同于线性回归,预测字符字段包含不同于线性回归,预测字符字段包含两个或多个分类两个或多个分类在

20、输出概率的基础上做出预测在输出概率的基础上做出预测二元回归时输出概率二元回归时输出概率其他表达方式:其他表达方式:kkkkXBXBXBXBXBXBee.221122111 = )Prob(eventkkXBXBXBe.2211event) (no Prob(event) Probor (event) Prob 1(event) Prob(event) Odds44多重多重 Logistic 回归回归45模型类型模型类型二项:二项:当目标字段是具有两个离散(二分)值(如是/否、启动/关闭 或 男/女)时使用。 多项式:多项式:当目标字段是具有两个以上值的集合字段时,使用此选项。默认为主效应:默认

21、为主效应: 模型只包含因子(字符输入)和协变量 (数值输入)的主效应,不检验输入字段之间的交互作用全析因:全析因: 模型除了包括各输入字段的主要效应外,还包括所有的交互作用能够更好的捕捉复杂关系,但是也更难解释,更容易出现过度拟和问题用户自定义用户自定义二项式模型类型二项式模型类型分类输入分类输入:列出标识为分类字段的字段。对比:对比:分类字段的回归系数的解释取决于所用的对比。指示。对比指示类别成员是否存在。这是默认方法。 简单。将预测字段的每个类别(参考类别除外)与参考类别进行比较。 差分。将预测字段的每个类别(第一个类别除外)与前面类别的平均效果进行比较。也称为逆 Helmert 对比。

22、Helmert。将预测字段的每个类别(最后一个类别除外)与后续类别的平均效果进行比较。 重复。将预测字段的每个类别(第一个类别除外)与前一个类别进行比较。 多项式。正交多项式对比。假定类别间距相等。多项式对比仅适用于数值字段。 偏差。将预测字段的每个类别(参考类别除外)与总体效果进行比较。目标的基准类别:目标的基准类别:指定如何确定参考类别。 4647高级选项高级选项尺度:一个离散度量值,用于修正参数协方差矩阵的估计值Pearson 卡方统计量偏差函数似然率卡方自定义,必须为正值追加所有概率收敛度:最大迭代次数最大逐步二分法对数似然收敛参数收敛Delta48高级输出选项高级输出选项摘要统计量似

23、然率检验渐近相关系数概率单元格拟和优度卡方统计量迭代历史纪录参数估计:置信区间渐近协方差分类表49模型结果模型结果50解释系数解释系数51预测预测52神经网络神经网络 SPSS Modeler中不同类型神经网络的训练模式中不同类型神经网络的训练模式 举例说明神经网络节点中的专家选项举例说明神经网络节点中的专家选项 讨论敏感性分析和避免过度训练讨论敏感性分析和避免过度训练 回顾神经网络节点中如何处理缺失值回顾神经网络节点中如何处理缺失值53训练、测试和验证样本训练、测试和验证样本 一般来说:一般来说:训练样本用来训练模型,测试样本用来验证模型训练样本用来训练模型,测试样本用来验证模型两部分数据互

24、斥两部分数据互斥 BP 神经网络模型中:神经网络模型中:训练样本用来估计模型系数,测试样本用来决定何时终训练样本用来估计模型系数,测试样本用来决定何时终止训练,验证样本用来评估模型止训练,验证样本用来评估模型“测试测试”样本两种不同的含义:样本两种不同的含义:在这一章的神经网络模型中,在这一章的神经网络模型中,“测试测试”样本决定训练何样本决定训练何时终止,时终止, “验证验证”样本在训练中没有用到的数据的基础样本在训练中没有用到的数据的基础上评估模型上评估模型54训练模式训练模式 基本单位:神经元基本单位:神经元 输入层、隐藏层、输出层输入层、隐藏层、输出层 全局最优解和局部最优解全局最优解

25、和局部最优解 训练方法训练方法监督型(输入、输出)监督型(输入、输出)四个多层感知器方法(四个多层感知器方法(MLP)一个径向基函数方法(一个径向基函数方法(RBF)55多层感知器(多层感知器(MLPMLP) 优点:优点: 很多类型的问题中都有效很多类型的问题中都有效 能够得到很好的推广能够得到很好的推广 如果数据在输入字段上没有很好的聚如果数据在输入字段上没有很好的聚类,会在极端的区域下分群样本类,会在极端的区域下分群样本 目前最常用的一种神经网络并且在学目前最常用的一种神经网络并且在学术界对之研究较多术界对之研究较多 缺点:缺点: 时间训练过长时间训练过长 不能保证找到全局最优解不能保证找

26、到全局最优解 四种四种MLP 算法:算法: 快速、动态、多重、修剪(彻底修剪)快速、动态、多重、修剪(彻底修剪) 选择何种方法选择何种方法 计算时间计算时间 精度精度两个输入字段预测两个输入字段预测两分类变量两分类变量56径向基函数(径向基函数(RBFRBF)优点:优点: 训练速度快于训练速度快于MLP 可以对在输入空间上进行了聚类的可以对在输入空间上进行了聚类的数据进行建模数据进行建模缺点:缺点: 难点在于决定函数中心的最优位置难点在于决定函数中心的最优位置 产生的神经网络通常很难代表数据产生的神经网络通常很难代表数据的全局特征的全局特征RBFN 算法:算法:使用使用K-means 聚类算法

27、来决定输聚类算法来决定输入空间中心的数量和位置入空间中心的数量和位置两个输入字段预测两个输入字段预测两分类变量两分类变量57专家选项专家选项 Alpha :更新训练权值的参数,:更新训练权值的参数,确保权值沿着一致的方向变动,确保权值沿着一致的方向变动,它在它在0 到到1之间变动,默认值为之间变动,默认值为0.9,较高的,较高的alpha 值有助于避值有助于避免网络的局部极小值。免网络的局部极小值。两个输入字段预测两个输入字段预测两分类变量两分类变量58专家选项专家选项 Eta :学习比率,控制每次网络更新时权值的调整幅度专家选项中,初:学习比率,控制每次网络更新时权值的调整幅度专家选项中,初

28、始始Eta 值是值是Eta 的起始值,然后以指数衰减到的起始值,然后以指数衰减到Eta 低值,接着重置为低值,接着重置为Eta 高值,反复循环;高值,反复循环; Eta 衰减:指定衰减:指定eta 开始降低时的比率,表示为从开始降低时的比率,表示为从Eta 高值到高值到Eta 低值的低值的循环数;循环数; 持续次数:指定未进行改进时网络训练的次数,较高的持续次数可以避持续次数:指定未进行改进时网络训练的次数,较高的持续次数可以避免神经网络的局部最小值,但是会增加训练时间。免神经网络的局部最小值,但是会增加训练时间。59不同的反馈图和可能的解决方法不同的反馈图和可能的解决方法60神经网络算法神经

29、网络算法 快速快速 动态动态 多重多重 修剪修剪 彻底修剪彻底修剪 RBFN61快速快速 默认只包含一个隐藏层默认只包含一个隐藏层62动态动态 动态增长网络动态增长网络 初始包含两个隐藏层,每层有两个神经元初始包含两个隐藏层,每层有两个神经元 每次每层增加一个神经元每次每层增加一个神经元 训练速度较慢,模型比较好训练速度较慢,模型比较好 没有专家选项没有专家选项63多重多重生成不同拓扑结构的网络生成不同拓扑结构的网络(不同隐藏层或神经元)(不同隐藏层或神经元) 网络网络1;网络;网络2;网络;网络3 层层1,层,层2,层,层3 n m inc训练速度慢,结果较好训练速度慢,结果较好64修剪修剪

30、敏感度分析敏感度分析 修剪顺序修剪顺序 隐藏神经元、输入神经元隐藏神经元、输入神经元 隐藏层、输入层隐藏层、输入层 隐藏率隐藏率 输入率输入率65RBFN K-means方法确定隐藏方法确定隐藏层的中心层的中心 输出层被作为一个单层输出层被作为一个单层的感知器训练,使用的感知器训练,使用LMS法法66何时选择何种算法何时选择何种算法如果时间有限如果时间有限 使用默认的快速算法使用默认的快速算法如果主要关心的是准确性而时间没有限制如果主要关心的是准确性而时间没有限制 使用修剪算法,或者彻底修剪算法使用修剪算法,或者彻底修剪算法如果认为一些输入字段有可能是不必要的如果认为一些输入字段有可能是不必要

31、的 修剪或彻底修剪网络将会删除比较弱的神经元修剪或彻底修剪网络将会删除比较弱的神经元如果对找到一个全局最优点表示怀疑如果对找到一个全局最优点表示怀疑 使用使用RBFN 算法算法很少使用多重方法很少使用多重方法67敏感性分析和避免过度训练敏感性分析和避免过度训练 敏感性分析:判断哪些输入字段对于预测输出字段是敏感性分析:判断哪些输入字段对于预测输出字段是很重要的很重要的 可以选择重要的输入字段训练新的神经网络可以选择重要的输入字段训练新的神经网络 可以检查输入字段的重要顺序是否和决策树的拆分字段一致可以检查输入字段的重要顺序是否和决策树的拆分字段一致 更好的理解神经网络的预测方式更好的理解神经网

32、络的预测方式 避免过度训练:分割数据为训练集和测试集避免过度训练:分割数据为训练集和测试集 防止模型过度依赖某个数据集防止模型过度依赖某个数据集 如果过度训练一个模型,模型将会最终如果过度训练一个模型,模型将会最终“学习学习”到训练数据到训练数据中所有的模式,模型的误差将会接近于中所有的模式,模型的误差将会接近于0 数据中通常包含噪声(误差),模型将会学习到噪声的特性,数据中通常包含噪声(误差),模型将会学习到噪声的特性,而降低模型在其它数据上的表现而降低模型在其它数据上的表现 用测实集监督模型的训练过程用测实集监督模型的训练过程68神经网络算法如何转换缺失和异常值神经网络算法如何转换缺失和异

33、常值字段类型字段类型缺失值缺失值转换为转换为标记对错之外的值0.5(神经网络中标记字段以0 和1表示)集合任何未知值0(神经网络中集合字段转化为0,1 字段输入)连续大于上界上界连续小于下界下界连续非数值中点69第四章第四章 SPSS Modeler聚类技术聚类技术回顾 SPSS Modeler 中的三种聚类算法讨论 K-Means 节点的操作和选项讨论 Kohonen 节点的高级选项介绍两步聚类节点70聚类时的原则聚类时的原则聚类的记录数较小时(聚类的记录数较小时(5-10% 为合理为合理 )合并距离上相邻的聚类丢弃很小的聚类两步聚类中选项排除异常值聚类数(最大聚类数(最大 12)尝试不同的

34、聚类数,从中选择最优的两步聚类从用户指定的范围内自动选择最优聚类数验证方法:验证方法:首先应该研究每个类之间的区别,使用类中包括的字段和其它重要的字段建模中使用训练数据和测试数据同一组数据使用不同的聚类算法71聚类聚类模型展现模型展现量化评估聚类模型结果量化评估聚类模型结果用用模型视图,轻易模型视图,轻易查看各聚类的变量差异查看各聚类的变量差异聚类模型评估方法简述聚类模型评估方法简述Silhouette测量测量基于距离矩阵的评估方法。基于距离矩阵的评估方法。对于每一个样本i,定义指数 s(i)(值在-1,1之间)来衡量b(i),a(i)之间的标准差,a(i)是样本到同组样本的平均距离;b(i)

35、是样本到最近的组中所有样本的平均距离。如果s(i)接近1,那么样本i离自己的组比离其他邻近的组近,所以是分类良好的,反之如果接近-1,则是被错分的,但如果在0附近则难以判断是否分类正确。将s(i)用水平条表示,并按照各个样本在组内的s(i)从高到低排列。这样有助于找出那些分类不佳的样本。对于不同的分组,可以作不同的Silhouette plot,并比较它们的平均 silhouette Wideth值,越趋向1则分类越好。Kaufman 和和Rousseeuw认为,超过认为,超过0.5的的silhouette值就是好的分类结值就是好的分类结果,果,0.2以下是缺少实质聚类结构的。以下是缺少实质聚

36、类结构的。7273K-Means 聚类聚类使用“最大化”方法选择一组初始聚类中心根据记录和聚类中心的欧氏距离把每个记录分到与其最相近的类群重新计算每个类群的中迭代直到达到最大迭代次数或者前后两次迭代之间差异不超过指定阀值注意:注意:生成模型在一定程生成模型在一定程上取决于训练数据的顺序上取决于训练数据的顺序74选择聚类选择聚类字段字段 本例中选择的字段都有相同的度量不是必须的选择字段应该是明显的聚类结果尽可能简单人口统计学字段一般并不用来聚类,而是用来验证和探索聚类的特征高度相关的字段不要全部用在聚类中使用统计量节点,相关系数大于0.875选项设置选项设置聚类数:指定生成的聚类个数,默认值为 5生成距离字段:生成模型将包括一个具有每个记录与其所属类群中心距离的字段显示类邻近距离:在生成模型的输出结果中包含类中心距离终止标准:默认是迭代 20 次或者差异0.000001,达到任一标准就终止最大迭代次数:允许在迭代指定次数后终止训练差异容忍度允许在一次迭代中,聚类中心之间的最大差异小于指定水平时终止训练76K-Means 计算距离计算距

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论