数据挖掘算法培训讲义分类和预测

上传人：3*** IP属地：湖北上传时间：2022-07-25 格式：PPTX 页数：68 大小：4.69MB 积分：30 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、DM算法-1分类和预测(yc)出处：数据挖掘：概念与技术Jiawei Han and Micheline Kamber2022/7/251数据挖掘：概念与技术(jsh)（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么(shn me)是分类? 什么(shn me)是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/252数据挖掘：概念与技术（翻译张磊）共六十八页分类: 预测分类标签基于训练集和分类属性值(分类标签)构造分类模型，然后用该模型分类新数据预测: 对连续函数建模, 即预测

2、未知的或缺失的数据典型应用信用审核目标营销医疗诊断治疗(zhlio)效果分析分类(fn li)与预测2022/7/253数据挖掘：概念与技术（翻译张磊）共六十八页分类(fn li)两步骤过程建立一个模型: 描述预定的数据类或概念集假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类用于创建模型的元组集合: 训练集模型可以用分类规则, 决策树, 或数学公式来表达使用模型: 对未知(分类标签的)对象进行分类模型估计准确率已知测试样本的分类标签, 将其和模型的分类结果比较模型在给定(i dn)测试集上的准确率是正确被模型分类的测试样本的百分比测试集应独立于训练集, 否则可能导致过度拟合

3、2022/7/254数据挖掘：概念与技术（翻译张磊）共六十八页分类过程 (1): 模型(mxng)创建训练数据分类(fn li)算法IF rank = professorOR years 6THEN tenured = yes 分类器(模型)2022/7/255数据挖掘：概念与技术（翻译张磊）共六十八页分类过程 (2): 使用(shyng)模型来预测分类器测试数据新数据(Jeff, Professor, 4)Tenured?2022/7/256数据挖掘：概念(ginin)与技术（翻译张磊）共六十八页有指导(zhdo)的 vs. 无指导的学习有指导的学习 (分类(fn li)指导: 模型的

4、学习在被告知每个训练样本属于哪个类的“指导”下进行基于训练集对新数据进行分类无指导的学习 (聚类)训练数据的类标签是未知的给定一组样本, 试图建立分类或数据的聚类2022/7/257数据挖掘：概念与技术（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么是分类? 什么是预测?关于分类与预测的问题通过(tnggu)决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/258数据挖掘：概念与技术（翻译张磊）共六十八页分类与预测相关(xinggun)问题 (1): 数据准备数据清洗数据准备是为了减少噪声数据, 并处理(ch

5、l)缺失值相关分析 (特征选取)删除无关属性和冗余属性数据转换数据的泛化和归一化2022/7/259数据挖掘：概念与技术（翻译张磊）共六十八页分类与预测(yc)的相关问题 (2): 分类方法的评估预测准确率速度和扩展能力创建模型所需时间应用模型所需时间健壮性可以处理噪声和缺失值扩展能力在大型数据库上的处理能力可解释性模型能否增强用户对数据的理解(lji)和洞察力是否良好的规则决策树的大小分类规则的简洁程度2022/7/2510数据挖掘：概念与技术（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么是分类? 什么是预测?关于(guny)分类与预测的问题通过决策树归纳来分类贝叶斯分

6、类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/2511数据挖掘：概念与技术（翻译张磊）共六十八页通过决策树归纳(gun)进行分类决策树类似于流程图的树型结构内部节点代表对某个属性(shxng)的一次测试分支代表测试的输出结果叶节点代表分类标签或分布决策树的生成包括两个阶段树的创建首先, 所有训练样本都位于根节点递归地基于选择属性来划分样本集树的修剪识别并删除那些反映噪声或孤立点的分支应用决策树: 对未知样本进行分类在决策树上测试样本的各个属性值2022/7/2512数据挖掘：概念与技术（翻译张磊）共六十八页训练(xnlin)数据集接下来是Qu

7、inlans ID3算法(sun f)示例2022/7/2513数据挖掘：概念与技术（翻译张磊）共六十八页输出: 预测(yc)“是否会购买计算机”的决策树age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.402022/7/2514数据挖掘：概念(ginin)与技术（翻译张磊）共六十八页决策树归纳(gun)算法基本算法(贪婪算法)树的创建是一种自顶向下递归的分而治之方法首先, 所有训练样本都位于根节点属性都是类别(libi)型变量 (若为连续值, 则需先离散化)基于选择的属性, 对样本进行递归划分通过启

8、发式搜索或统计量来选取测试属性 (例如, 信息增益)停止划分的条件对于某个给定节点, 所有样本都属于同一分类没有剩余属性可供进一步划分按照少数服从多数的原则来确定叶节点的分类所有样本都已分类完毕2022/7/2515数据挖掘：概念与技术（翻译张磊）共六十八页属性(shxng)选取的度量信息增益 (ID3/C4.5)所有属性应为类别型变量可以通过改进来处理连续值属性Gini索引 (IBM IntelligentMiner)所有属性应为连续值变量对于(duy)每个属性, 假定已存在若干可能的切分点可能需要其它工具(如聚类)的辅助来获取切分点可以通过改进来处理类别型属性2022/7/2516数据

9、挖掘：概念与技术（翻译张磊）共六十八页信息(xnx)增益 (ID3/C4.5)选取具有最高信息增益的属性假定存在两个(lin )分类, P 和N样本集S中包含p个样本属于类别P, n个样本属于类别N用于判别S中任意样本属于类别P 或N 的信息量, 定义为2022/7/2517数据挖掘：概念与技术（翻译张磊）共六十八页决策树归纳(gun)中的信息增益假定通过属性A可以将样本集S划分为多个集合S1, S2 , , Sv 如果Si 包含pi 个P 类样本和ni 个N 类样本, 熵, 或将S所有子树中的对象进行(jnxng)分类所需的期望信息i 定义为在A上分枝将获得的编码信息是2022/7/25

10、18数据挖掘：概念与技术（翻译张磊）共六十八页通过计算信息(xnx)增益来选取属性类别(libi)P: buys_computer = “yes”类别N: buys_computer = “no”I(p, n) = I(9, 5) =0.940计算属性age的熵:因此同样的2022/7/2519数据挖掘：概念与技术（翻译张磊）共六十八页Gini 索引(suyn) (IBM IntelligentMiner)如果数据集T 包含n种类别的样本, gini index, gini(T) 定义如下其中pj 是类别j 在T 中所占的百分比如果数据集T 被划分为两个子集T1 和T2 , 大小分别为N

11、1 和N2, 该划分的gini index gini(T) 定义为选取具有最小ginisplit(T)的属性, 对T进行(jnxng)分裂 (对每个属性, 需枚举出所有可能的切分点).2022/7/2520数据挖掘：概念与技术（翻译张磊）共六十八页从树中抽取(chu q)分类规则用IF-THEN规则来作为知识表示从根节点到叶节点的每条路径, 对于于一条规则路径上的每个(属性-值)对被联合起来(q li)叶节点给出了类别预测规则非常易懂示例IF age = “=30” AND student = “no” THEN buys_computer = “no”IF age = “40” AND c

12、redit_rating = “excellent” THEN buys_computer = “yes”IF age = “40” AND credit_rating = “fair” THEN buys_computer = “no”2022/7/2521数据挖掘：概念与技术（翻译张磊）共六十八页避免(bmin)分类中的过度训练生成的树可能会过度拟合了训练数据分支太多, 某些分支其实反映的是特例(由噪声数据或孤立点引起的)导致预测未知样本的准确率很差避免过度训练的两种方法预修剪: 尽早(jn zo)中止树的创建当某个分裂会导致优度度量低于给定阈值时, 就不再分裂节点难于确定合适的阈值后修

13、剪: 从“已长成的” 树中删除分支得到多个修剪后的树使用与训练数据不同的验证集来决定哪个是“最佳剪枝树”2022/7/2522数据挖掘：概念与技术（翻译张磊）共六十八页决定最终树大小(dxio)的方法将数据集的2/3作为训练集, 1/3作为测试集使用交叉验证, 例如, 10-fold交叉验证使用全部数据来训练但运用统计检验(例如, chi-square)来估计对某个节点的分裂或修剪是否能改善整体分布使用最小描述长度(chngd)(MDL)原则: 当编码量达到最小时停止树的生长2022/7/2523数据挖掘：概念与技术（翻译张磊）共六十八页决策树归纳(gun)的改进允许处理连续值属性动态地对

14、连续属性值离散化(划分为若干区间)处理缺失的属性值赋以最常见的属性值计算各种取值的概率属性创建基于树中很少出现的那些属性, 创建新的属性(例如对类别型变量分组, 因为信息增益偏向于取值多的属性)避免碎片(过细的分支), 重复(属性在路径上被多次测试)和复制(fzh)(出现相同子树)2022/7/2524数据挖掘：概念与技术（翻译张磊）共六十八页大型(dxng)数据库中的分类分类对于分类算法, 很多统计学家和机器学习研究者进行了广泛的研究扩展性: 对于具有上百万的样本和数百个属性类别的数据集, 分类所需时间可接受为什么要采用决策树归纳?比较快的学习速度 (和其它分类方法相比)可以(ky)转换为

15、简单易懂的分类规则可以用SQL查询来实现分类准确率和其它方法相近2022/7/2525数据挖掘：概念与技术（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么是分类? 什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向(fn xin)传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/2526数据挖掘：概念与技术（翻译张磊）共六十八页贝叶斯分类(fn li): 为什么?概率学习: 计算假设的先验概率, 是处理某些学习问题的常见方法递增的: 每个训练样本可以逐步增加/降低假设正确的概率. 已有知识可以与观察数据合并.概率预测: 对

16、多个假设进行预测, 根据概率赋于不同权重标志的: 尽管贝叶斯分类方法不容易实施, 它们依然可以提供决策制定的优化标准(biozhn), 对其它方法进行评估2022/7/2527数据挖掘：概念与技术（翻译张磊）共六十八页贝叶斯定理(dngl)给定训练数据(shj)D, 假设h 的后验概率, P(h|D) 满足贝叶斯定理MAP (最大后验概率) 假设难以实施: 需要首先知道多个概率, 计算开销大2022/7/2528数据挖掘：概念与技术（翻译张磊）共六十八页朴素(p s)贝叶斯分类器 (I)简化假设: 属性间彼此条件独立:极大(j d)减少了计算开销, 只用统计类别分布即可2022/7/252

17、9数据挖掘：概念与技术（翻译张磊）共六十八页朴素(p s)贝叶斯分类器 (II)给定(i dn)一个训练集, 可以计算如下概率2022/7/2530数据挖掘：概念与技术（翻译张磊）共六十八页贝叶斯分类(fn li)分类问题被形式化为计算后验概率:计算P(C|X) = 元组X(=)属于类别C的概率例如 P(类别=N | outlook=sunny,windy=true,)主要思想: 将样本(yngbn)X分类到P(C|X)取最大值的类别标签C2022/7/2531数据挖掘：概念与技术（翻译张磊）共六十八页后验概率(gil)的估计贝叶斯定理:P(C|X) = P(X|C)P(C) / P(X

21、igh|n)P(false|n)P(n) = 2/52/54/52/55/14 = 0.018286样本X被分类为类别n (不去打网球)2022/7/2535数据挖掘：概念与技术（翻译张磊）共六十八页无关(wgun)性假设方便了计算(j sun) 当假设满足时可以得到最佳的分类器但实际上该假设很难满足, 因为属性(变量)常常是相关的克服限制的做法:贝叶斯网络, 将贝叶斯推理和属性间的因果关系相结合决策树, 每次仅对单个属性进行判断, 首先考虑最重要的属性2022/7/2536数据挖掘：概念与技术（翻译张磊）共六十八页贝叶斯信念(xnnin)网络 (I)家族(jiz)病史肺癌X光透视为+

22、烟民肺气肿呼吸困难LCLC(FH, S)(FH, S)(FH, S)(FH, S)0.80.20.50.50.70.30.10.9贝叶斯信念网络肺癌(LungCancer)变量的条件概率2022/7/2537数据挖掘：概念与技术（翻译张磊）共六十八页贝叶斯信念(xnnin)网络(II)贝叶斯信念网络允许变量子集是条件无关的因果关系的图模型在以下情况下训练贝叶斯信念网络(权重的计算)给定网状结构和全部变量: 容易给定网状结构和部分变量(梯度下降方法(fngf)事先未知网状结构2022/7/2538数据挖掘：概念与技术（翻译张磊）共六十八页DM算法(sun f)-1 分类和预测什么(shn m

23、e)是分类? 什么(shn me)是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/2539数据挖掘：概念与技术（翻译张磊）共六十八页神经网络优点预测准确率一般较高稳定, 可以适应包含脏数据的训练样本可以输出离散(lsn)值, 连续值, 或者由多个(离散或连续)属性组成的向量对训练好的模型可以快速评估缺点训练时间长模型(权重)难以理解难以结合领域知识2022/7/2540数据挖掘：概念与技术(jsh)（翻译张磊）共六十八页神经元通过向量(xingling)积和非线性函数, 将n 维输入向量x

24、映射到向量ymk-f加权求和输入向量 x输出 y激活函数权重向量 ww0w1wnx0 x1xn2022/7/2541数据挖掘：概念(ginin)与技术（翻译张磊）共六十八页训练(xnlin)神经网络训练的最终目标得到一组权重, 使得训练集中的绝大多数元组可以被正确分类步骤用随机数来初始化权重逐个处理元组, 作为(zuwi)神经网络的输入层对于每个单元计算该单元全部输入的线性组合, 作为其净输入使用激活函数来计算该单元的输出值误差的计算调整权重和偏置2022/7/2542数据挖掘：概念与技术（翻译张磊）共六十八页多层感知器输出(shch) 层节点输入(shr)层节点隐层节点输出向量输入向量

25、: xiwij2022/7/2543数据挖掘：概念与技术（翻译张磊）共六十八页网络修剪(xijin)与规则抽取网络修剪完全连接的网络难以解释N 个输入节点, h 个隐层节点和m 个输出节点的网络具有h(m+N) 个权重修剪: 删除那些(nxi)对网络分类准确率影响很小的连接从训练好的神经网络中抽取规则对活跃值进行离散化; 用聚类来替代单个活跃值, 同时保证一定的网络准确率根据这些活跃值来枚举出全部输出值, 从而可以总结出活跃值和输出值间的关系发现输入值和活跃值的关系综合以上两个步骤, 产生输入值和输出值之间的规则(关系)2022/7/2544数据挖掘：概念与技术（翻译张磊）共六十八页DM算

26、法-1 分类(fn li)和预测什么是分类? 什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念(ginin)来分类其它分类方法预测分类准确率总结2022/7/2545数据挖掘：概念与技术（翻译张磊）共六十八页其它(qt)分类方法K-近邻分类器 (k-nearest neighbor classifier )基于案例的推理(tul) (case-based reasoning)遗传算法 (Genetic algorithm)粗糙集方法 (Rough set approach)模糊集方法 (Fuzzy set approaches)2022/

27、7/2546数据挖掘：概念与技术（翻译张磊）共六十八页基于(jy)实例的方法基于实例的学习: 保存训练样本并延迟处理 (“懒惰的评估”), 知道需要对新的实例进行分类时再进行学习常见方法k近邻方法用欧式空间(kngjin)中的点来代表实例局部加权回归构造局部估计值基于案例的推理使用符号表达方式和基于知识的推理2022/7/2547数据挖掘：概念与技术（翻译张磊）共六十八页K-近邻(jn ln)算法所有实例都对应于n维空间中的点根据欧式距离来定义(dngy)最近的邻居目标函数可以输出离散值或连续值对于离散值, k-NN返回xq的k个近邻中最常见的值Vonoroi图: 决策面由某个典型训练集的

28、1-NN决定. . _+_xq+_+_+.2022/7/2548数据挖掘：概念与技术（翻译张磊）共六十八页k-NN算法(sun f)讨论k-NN算法对连续值的处理计算k 近邻的均值加权距离的近邻算法根据每个邻居和查询点xq之间的距离予以加权越近的邻居, 权重越大对于实数值的处理与之类似由于用k个近邻来判别(pnbi), 因此在脏数据上表现稳定维度的负面影响: 无关属性可能会严重影响距离的准确计算可以拉伸坐标轴或者除去最不相关的属性2022/7/2549数据挖掘：概念与技术（翻译张磊）共六十八页基于(jy)案例的推理(CBR)同样采用: 懒惰评估 + 分析类似实例差异: 实例不再是 “欧式空

29、间中的点”示例: CADET中的水龙头问题 (Sycara et al92)方法使用符号描述来表示实例 (例如, 功能图)合并多个检索出来的案例案例检索, 基于知识的推理, 和问题解决的紧密耦合研究问题基于句法相似度的索引技术, 如果解答之间出现不相容，可能需要(xyo)退回搜索其它解2022/7/2550数据挖掘：概念与技术（翻译张磊）共六十八页评论懒惰(lndu)学习和积极学习基于实例的学习: 懒惰评估决策树和贝叶斯分类: 积极学习主要差异懒惰方法进行决策时要在训练集D上对新实例xq查询积极方法则不需要, 因为它们已经有了全局估计效率: 懒惰学习 - 训练时间短, 但预测所需时间长准确

30、率懒惰方法可以有效利用一个更广阔的假设空间, 因为采用了多个局部线性函数来构造出目标(mbio)函数的全局估计积极方法: 必须对整个实例空间提交单个假设, 来覆盖整个空间2022/7/2551数据挖掘：概念与技术（翻译张磊）共六十八页遗传算法GA: 基于对生物进化的模拟每个规则用位串(string of bits)表达创建一个由随机产生的规则组成的初始群体例如, 规则”IF A1 and Not A2 then C2”, 可被编码为100 根据适者生存的原则, 形成由当前群体中最适合的规则组成新的群体, 以及这些规则的子女规则的适应程度, 用它对训练样本集的分类准确率评估(pn )子女通过使

31、用诸如交叉和变异等遗传操作来创建2022/7/2552数据挖掘：概念与技术(jsh)（翻译张磊）共六十八页粗糙集方法(fngf)粗糙集用于近似地(粗糙地)定义等价类给定类C的粗糙集定义用两个集合近似：C的下近似(确定为C类)和C的上近似(不能判断它不属于C类)找出最小属性子集 (用于特征选取) 是NP-难处理的, 但可以使用识别矩阵(j zhn)存放每对数据样本属性值之间的差别, 以降低计算复杂度2022/7/2553数据挖掘：概念与技术（翻译张磊）共六十八页模糊集方法(fngf)模糊逻辑使用0.0和1.0之间的真值(truth value)表示一个特定的值属于给定类的程度，而不是用类或集

32、合的精确截断 (例如使用模糊关系图)属性值被转换为模糊值例如, 将连续属性”收入”的值映射(yngsh)到离散分类low, medium, high上, 并计算模糊成员关系或真值一个给定值可以对应多个模糊值每个可用规则对样本的分类进行投票组合上面得到的和, 得到一个系统返回的值2022/7/2554数据挖掘：概念与技术（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么是分类? 什么是预测?关于分类与预测的问题通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它(qt)分类方法预测分类准确率总结2022/7/2555数据挖掘：概念与技术（翻译张磊）共

33、六十八页什么(shn me)是预测?预测和分类相似(xin s)首先, 建立一个模型然后, 使用模型来预测未知值主要的预测方法是回归线性和多元回归非线性回归预测和分类不同分类用于预测类别标签预测对连续函数建模2022/7/2556数据挖掘：概念与技术（翻译张磊）共六十八页建立预测模型: 预测数据的取值, 或者是基于(jy)数据库中的数据建立泛化的线性模型只能预测值域或类别分布一般步骤: 最小的泛化属性相关分析创建泛化的线性模型预测识别出对预测产生影响的主要因子数据相关分析: 不确定性度量, 熵分析, 专家判断, 等待多层次预测: 下钻和上卷分析数据库中建立(jinl)预测模型2022/

34、7/2557数据挖掘：概念与技术（翻译张磊）共六十八页线性回归: Y = + X两个参数, 和决定一条直线. 可以根据数据估计出这两个参数的值在已知数据Y1, Y2, , X1, X2, 上使用最小二乘法求解多元回归: Y = b0 + b1 X1 + b2 X2.很多非线性函数可转换为上述(shngsh)形式对数-线性模型:通过低阶表的乘积来近似出联合概率多路表概率: p(a, b, c, d) = ab acad bcd预测中的回归分析(fnx)和对数-线性模型2022/7/2558数据挖掘：概念与技术（翻译张磊）共六十八页局部(jb)加权回归在查询(chxn)实例xq附近的局部区域创

35、建f 的显式近似局部加权线性回归:在xq附近用线性函数来近似目标函数f : 最小化平方误差: 距离递减的权重 K梯度下降训练法:大多数情况下, 目标函数被近似为常数、线性函数或二次函数2022/7/2559数据挖掘：概念与技术（翻译张磊）共六十八页预测(yc): 数值型数据2022/7/2560数据挖掘：概念与技术(jsh)（翻译张磊）共六十八页预测(yc): 类别型数据2022/7/2561数据挖掘：概念与技术(jsh)（翻译张磊）共六十八页DM算法-1 分类(fn li)和预测什么是分类? 什么是预测?关于分类与预测的问题(wnt)通过决策树归纳来分类贝叶斯分类通过反向传播来分类基于关联规则挖掘的概念来分类其它分类方法预测分类准确率总结2022/7/2562数据挖掘：概念与技术（翻译张磊）共六十八页分类(fn li)准确率: 错误率的估计划分(hu fn)数据集: 训练和测试使用两个独立的数据集, 例如: 训

人人文库> 全部分类> 教育资料 > 备课教案

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘算法培训讲义分类和预测

文档简介

温馨提示

最新文档

评论

相关文档