数据挖掘 第9章-分类:高级方法_第1页
数据挖掘 第9章-分类:高级方法_第2页
数据挖掘 第9章-分类:高级方法_第3页
数据挖掘 第9章-分类:高级方法_第4页
数据挖掘 第9章-分类:高级方法_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘与商务智能范勤勤物流研究中心第九章分类:高级方法1用后向传播分类2使用频繁模式分类3惰性学习法目录第一章用后向传播分类用后向传播分类4神经网络最早是由心理学家和神经学家提出在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。由于单元之间的连接,神经网络学习又称连接者学习。由于人们很难解释蕴涵在学习权之中的符号含义,神经网络常常因其可解释性差而受到批评。这些特点使得神经网络在数据挖掘的初期并不看好。然而,神经网络的优点包括其对噪音数据的高承受能力,以及它对未经训练的数据的分类能力。另外,最近已提出了一些由训练过的神经网络提取规则的算法,推动了神经网络在数据挖掘分类方面的应用用后向传播分类多层前馈神经网络多层前馈神经网络由一个输入层、一个或多个隐藏层和一个输出层组成5输入层隐藏层输出层一个多层前馈神经网络输入单元xWij用后向传播分类神经元及其特性连接机制结构的基本处理单元与神经生理学类比往往称为神经元。每个构造起网络的神经元模型模拟一个生物神经元;6θj为神经元单元的偏置(阈值),wji为连接权系数(对于激发状态,wji取正值,对于抑制状态,wji取负值),n为输入信号数目,yj为神经元输出,t为时间,f(·)为输出变换函数,有时叫做激发或激励函数用后向传播分类神经元及其特性输出变换函数f(.)的几种常见形式(a)二值函数7(b)S形函数用后向传播分类神经元及其特性输出变换函数f(.)的几种常见形式(c)双曲线正切函数8(d)高斯函数f(x)x用后向传播分类一个多层神经网络如何工作?网络的输入对应于对每个训练元组的观测属性输入同时提供给构成输入层这些输入通过输入层,然后加权同时地提供给隐藏层的“类神经元的”第二层隐藏层的数量是任意的,尽管实践中通常只用一层最后一个隐藏层的权重输出作为构成输出层的单元的输入。输出层发布给定元组的网络预测网络是前馈的,因为其权重都不回送到输入单元,或前一层的输出单元从统计学角度来讲,网络进行非线性回归。给定足够多的隐藏单元和足够的训练样本,多层前馈神经网络可以逼近任意函数9用后向传播分类定义网络拓扑确定网路拓扑结构:说明输入层的单元数、隐藏层数(如果多一层)、每个隐藏层的单元数和输出层的单元数规范化输入测量值:对输入值规范化,使其落在0.0与1.0之间。离散值属性可以重新编码,使得每个值域有一个输入单元(每个输入单元代表一个属性的离散值)一个输出单元可以用来表示两个类(其中值1代表一个类,而值0代表另一个类)。如果多于两个类,则每个类使用一个输出单元对于“最好的”隐藏层单元数,没有明确的规则确定。一旦网络经过训练,并且其准确率不能被接受,则通常使用不同的网络拓扑或使用不同的初始权重集,重复训练过程10用后向传播分类一个隐藏或输出单元一个隐藏或输出单元j是来自上一层的输出。这些与对应的权重相乘,以形成加权和。加权和加到与单元j相关联的偏倚上。一个非线性的激活函数用于净输入11f加权和输入输出激活函数权重åw0w1wnx0x1xn偏倚

θj用后向传播分类黑盒内部:后向传播和可解释性神经网络的主要缺点是其知识的表示,用加权链连接单元的网络表示的知识让人很难解释(采用全连接的方式)灵敏度分析用于评估一个给定的输入变量对网络输出的影响。改变该变量的输入,而其他输入变量为某固定值。其间,监测网络输出的改变。由这种形式的分析得到的知识是形如“IFX减少5%THENY增加8%”的规则方法(提取规则)

step1:网络剪枝:剪去对训练后的网络影响最小的加权链,简化网络step2:将进行链、单元或活化值聚类,研究输入值和活化值的集合,导出描述输入和隐藏层单元联系的规则。step3:两个规则的集合结合在一起,形成IF-THEN规则。12使用频繁模式分类使用频繁模式分类频繁模式频繁模式显示了频繁地出现在给定数据集中的属性-值对之间的有趣联系。我们可以把每个属性-值对看做一个项,因此搜索这种频繁模式称作频繁模式挖掘或频繁项集挖掘14使用频繁模式分类关联规则挖掘step1:频繁模式挖掘,搜索反复出现在数据集中的属性-值对的模式,其中属性-值对看做项step2:规则产生,分析关联规则模式,以便产生关联规则(大于最小支持度或最小置信度)例:age=youth^credit=okbuys_computer=yes[support=20%,confidence=93%]关联规则分类的步骤step1:挖掘数据,得到频繁项集,即找出数据中经常出现的属性-值对。step2:分析频繁项集,产生每个类的关联规则,它们满足置信度和支持度的标准。step3:组织规则,形成基于规则的分类器。15使用频繁模式分类关联分类的三种方法:CBA、CMAR、CPARCBA(基于分类的关联):使用迭代方法挖掘频繁项集,多遍扫描数据集,导出的频繁项集用来产生和测试更长的项集。找出满足最小置信度和最小支持阈值的规则的完全集后,然后分析,找出包含在分类器中的规则。使用一种启发式方法构造分类器,其中规则按照它们的置信度和支持度递减优先级排列。CMAR(基于多关联规则的分类):借助于树结构有效存储和检索规则,使用多种规则剪枝策略。CMAR采用FP-growth算法的变形来满足最小支持度和最小置信度阈值的规则的完全集。CMAR还使用另一种树结构来有效的存储和提取规则,并根据置信度、相关度和数据库的覆盖率对规则剪枝。当规则插入树时就触发规则剪枝策略。其基本原理是:如果存在更高置信度的更泛化的版本,则可以减去具有低置信度的更特殊化的规则。16使用频繁模式分类关联分类的三种方法:CBA、CMAR、CPARCPAR(基于预测关联规则的分类):采用FOLF的分类规则产生算法(产生较少的规则),但是,相比FOLF,

CPAR允许被覆盖的元组留下并被考虑,但是降低它们的权重。与CMAR的区别:CPAR根据期望准确率,使用每组中最好的K个规则预测X的类标号。通过考虑组中最好的规则而不是所有的规则,这避免了较低秩规则的影响。在大量数据集上,CPAR的准确率与CMAR接近。然而,由于CPAR产生的规则比CMAR少得多,对于大型训练数据集,CPAR有效的多。17使用频繁模式分类单个特征与频繁模式18(a)Austral(c)Sonar(b)CleveFig.1.InformationGainvs.PatternLength结论:某些频繁模式的区分能力比单个特征强使用频繁模式分类模式频度(支持度)与信息增益19(a)Austral(c)Sonar(b)BreastFig.2.InformationGainvs.PatternFrequency结论:并非所有频繁模式都是有用的使用频繁模式分类基于有区别力的频繁模式分类-删除区别能力较弱和冗余的频繁模式基于有区别力的频繁模式分类的一般框架如下:(1)特征产生:根据类别号划分数据集D。使用频繁项集挖掘,发现每个分区中满足最小支持度的频繁模式。频繁模式的集合F形成候选特征。(2)特征选择:对F进行特征选择,得到选择后的(更有区别能力的)频繁模式集Fs。数据集D变成D'。(3)学习分类模型:在数据集D'上建立分类器。任何学习方法都可以用来建立分类模型。20惰性学习法(或从近邻学习)惰性学习法(或从近邻学习)22k-最近邻分类所有的训练元组都存放在n维模式空间中“临近性”用距离度量,如欧几里得距离,dist(X1,X2)目标函数可以是离散的或是实数值对于k-最近邻分类,未知元组被指派到它的k个最近邻中的多数类._+_xq+__+__+....惰性学习法(或从近邻学习)k-最近邻分类算法最近邻分类用于数值预测,即返回给定未知元组的实数值预测分类器返回未知元组的k个最近邻的实数值标号的平均值比较的属性是分类类型而不是数值类型的:同则差为0,异则差为1。有时候可以作更为精确的处理,比如黑色与白色的差肯定要大于灰色与白色的差缺失值的处理:取最大的可能差,对于分类属性,如果属性A的一个或两个对应值丢失,则取差值为1;如果A是数值属性,若两个比较的元组A属性值均缺失,则取差值为1,若只有一个缺失,另一个值为v,则取差值为|1-v|和|0-v|中的最大值确定k的值:通过实验确定。进行若干次实验,取分类误差率最小的k值最近邻分类法使用基于距离的比较,本质上赋予每个属性相等的权重。当数据存在噪声或不相关属性时,它们的准确率可能会受到影响23惰性学习法(或从近邻学习)基于案例的推理基于案例的推理(CBR)分类法使用一个存放问题解决的数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论