




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 分类Chapter 4: Classification信息管理学院数据发掘十大算法The k-means algorithm The Apriori algorithm ExpectationMaximization PageRank AdaBoost 分类算法 C4.5 CART Naive Bayes k-nearest neighbor classification Support vector machines C4.5 CART Naive Bayes k-nearest neighbor classificationSupport vector machines C4.5
2、CART Naive Bayes k-nearest neighbor classificationSupport vector machines 决策树分类算法主要内容4.1 概念4.2 决策树分类方法4.3 朴素贝叶斯分类方法4.4 k近邻分类方法4.5 分类性能的度量4.1 根本概念信息管理学院分类classification:总结已有类别的对象的特点并进而进展未知类别对象的类别预测的过程用给定的训练集用来建立一个分类模型或称分类器,所建立的分类模型用来预测数据库中类标号未知的数据元组的类别。训练数据集由一组数据库元组称为训练样本、实例或对象构成样本方式为v1,v2,vn;c, 其中vi
3、表示属性值,c表示类标号。分类及其相关的根本概念分类及其相关的根本概念分类器classifier)训练数据集training dataset分类属性class label attribute,每个取值称为一个类别class label属性,用于描画一个对象的某个特性或性质测试数据集testing dataset信息管理学院分类属于有监视学习还是无监视学习?有监视学习 classification 训练集是带有类标签的; 新的数据是基于训练集进展分类的无监视学习 clustering 训练集是没有类标签的;提供一组属性,然后寻觅出训练集中存在的类别或者聚集信息管理学院人口、收入、信誉购买力性别、
4、年龄、婚姻情况、收入信誉等级地点、产品、折扣促销效果性别、收入、兴趣偏好产品类型信誉评分营销战略市场预测CRM分类算法的运用领域分类及其相关的根本概念客户编号年龄性别年收入(万)婚姻豪华车130女86已婚否230男65单身否330男90离异否450女96离异否1150女80单身否1250男50单身是1350女80离异否1450男92离异是分类属性类别训练数据集属性分类方法LazyEager构建模型测试、运用模型分类:构建模型TrainingDataClassificationAlgorithmsIF rank = professorOR years 6THEN tenured = yes Cl
5、assifier(Model)TestingDataUnseen Data(Jeff, Professor, 4)ClassifierTenured?分类:测试分类模型并预测If age=“30-40 and income=High then credit_rating=excellentnameageincomecredit_ratingli=30Lowfairwang40Medexcellentzhao24-35Highexcellentnameageincomecredit_ratingxin40High?wu=30Low?hu30-40High?分类规那么未知数据incomeincom
6、eage?exfexfex40 30-40highlow,medlow,medhigh决策树检验集训练集学习算法 学习算法训练集检验集模型未知数据分类的概念与过程 分类技术决策树 decision tree朴素贝叶斯Nave BayesK近邻K nearest Neighbors基于关联的分类支持向量机Support Vector Machines 人工神经网络Logistic Regression4.2 决策树分类方法4.2 决策树分类方法4.2.1 决策树的构建过程4.2.2 属性的类型及分裂条件4.2.3 决策树的剪枝决策树的概念决策树叶子节点:类别其他节点:测试属性树的层次 根结点的层
7、次为1 根结点的子女结点的层次为2 边:一种基于此结点属性的判别分裂条件根节点叶子节点双亲节点子女节点决策树decision tree是一个类似于流程图的树构造。树的最顶层节点是根节点,根节点与每个内部节点表示数据集合在某个属性上的测试,每个分枝代表一个数据子集的输出,而每个树叶节点代表类或类分布。信息管理学院40yesnoexcellentfair例:预测顾客能否能够购买计算机的决策树agestudentcredit_ratingbuys_computer30nofairno30-40noexcellentyesyesage? nonoyesyescredit-rating? student
8、? .信息管理学院categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80KSplitting Attributes训练数据模型: 决策树决策树分类实例信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据Start from the root of tree.信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONONOYesNoMarri
9、ed Single, Divorced 80K测试数据信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONONOYesNoMarried Single, Divorced 80K测试数据信息管理学院运用决策树进展分类RefundMarStTaxIncYESNONO
10、NOYesNoMarried Single, Divorced 80K测试数据Assign Cheat to “No信息管理学院构造决策树的方法采用自上而下递归的方式,假设:一个节点训练集的子集合上的数据都是属于同一个类别没有属性可以再用于对数据进展分割就将其作为一个叶子节点。否那么,根据某种战略选择一个分裂属性,并按该属性的取值把实例集合划分为假设干个子集合。并继续递归处置各子集。可基于启发式规那么或者统计的度量, ID3算法选用最大信息增益法选择分裂属性 决策树的构建过程决策树生成算法分成两个步骤: 树的生成 起始时,数据都在根节点;采用递归方式进展数据分片 树的修剪 去掉一些能够是噪音或
11、者异常的数据决策树的构建过程主要步骤:训练数据集D,类别集合C=c1, c2, , ck创建一个结点t,初始情况下训练数据集中的一切样本与根结点关联,记为Dt。将t设为当前结点。假设当前结点t所关联的数据集Dt中一切样本的类别一样假设为ci, 那么将该结点标志为叶子节点,记录类别为ci,停顿对该结点所关联的数据集的进一步分裂。接着处置其他非叶子节点。否那么,进入下一步。为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为m个子集,为结点t创建m个子女结点,将这m个数据集分别与之关联。依次将每个结点设为当前结点,转至步骤2进展处置,直至一切结点都标志为叶子结点。决策树的构建奥卡姆剃
12、刀Occams Razor原理: “如无必要,勿增实体Entities should not be multiplied unnecessarily一棵小的树的预测才干更好采用分而治之的思想,利用贪婪战略从部分出发来构造一棵大小紧凑的决策树。Hunt、ID3、C4.5、CART信息管理学院决策树的构建过程算法:Generate_decision_tree由给定的训练数据产生一棵 决策树输入:训练样本samples,由离散值属性表示;侯选属性的集合attribute_list输出:一棵决策树方法: 创建节点N; if samples都在同一个类 C then 前往N作为叶节点,以类C标志; if
13、 attribute_list 为空 then 前往N作为叶节点,标志为samples中最普通的类:/多数表决信息管理学院 选择attribute_list 中具有最高信息增益的属性test_attribute; 标志节点N为test_attribute ; for each test_attribute中的知值ai /划分samples 由节点N长出一个条件为test_attribute =ai的分枝; 设si是samples中的test_attribute =ai的样本集合;/划分 if si为空 then 加上一个树叶,标志为samples中最普通的类: else 加上一个由Genera
14、te_decision_treesi,attribute - list -test - attribute前往的节点 决策树的构建过程信息管理学院决策树分类原理Procedure BuildTree(S,A) (S:训练样本集,A:分类属性集合 用样本集S创建节点N if A为空 then 前往N,标志为S中最普遍的类 if N pure then 前往N else for 每一个属性 A 估计该节点在A上的信息增益 选出最正确的属性A*,将S分裂为Si ,N长出分支 for each Si if Si 为空 then 前往叶节点,标志为S中最普遍的类 else BuildTree(Si,A-
15、A*)决策树的构建过程信息管理学院分裂属性选择在树的每个节点上运用信息增益度量选择测试属性。这种度量称作属性选择度量。选择具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或不纯性。这种信息论的方法使得对一个对象分类所需的期望测试数目到达最小,并确保找到一棵简单不用最简单的树第二节 决策树分类信息管理学院gendergpatypehand_in papersmalelowfull-timenofemalehighpart-timeyes类1类246例题:样本个数10;类属性为hand_in papers, 取值为c1=yes,
16、c2=no.分裂属性选择.信息管理学院类1类246类1类241类25类1类246类1类224类1类222highlowfemalemale属性 gender?例题:样本个数10;类属性为hand_in papers, 取值为c1=yes,c2=no.属性 gpa?类1类223类1类223.决策树的构建过程分裂属性和分裂条件的选择分裂属性的选择通常利用类别纯度的衡量作为规范,信息熵和gini指数两种ABclasscount00-5001-5010+011+100A+-01B-01A+-01信息管理学院D是训练样本集合。假定类标号属性具有m个不同值ci (i=1,m)。设pi是D中恣意元组属于类c
17、i中的概率。对一个D中的元组分类所需的期望信息为实现完全划分的信息需求、不纯性度量:信息熵:消除不确定性所需的信息量 (bit), 1比特的信息量指含有两个独立均等概率形状的事件不确定性被全部消除所需的信息。分裂属性选择.分类属性的选择信息熵entropy(D)数据集D及类别集合C=c1, c2, , ckcount(ci):类别ci在D中出现的次数,p(ci):ci在D中出现的相对频率p(ci)=count(ci)/|D|D|代表D中的数据行数 假设两个类别均匀分布(0.5,0.5) Entropy =?1-+-1+1-+111信息熵 假设一切行属于同一类别: Entropy =?信息管理学
18、院类1类233类1类215类26Info(D)=1最高不纯性实现完全划分的信息需求最大Info(D)=0零不纯性曾经实现完全划分信息需求为0Info(D)= 0.65不纯性=实现完全划分的信息需求=0.65.信息管理学院类1类233类1类215类26Info(D)=1Gini=0.5Error=0.5最高不纯性实现完全划分的信息需求最大Info(D)=0Gini=0Error=0零不纯性曾经实现完全划分信息需求为0Info(D)= 0.65Gini=0.278Error=0.167不纯性=实现完全划分的信息需求分类属性的选择按属性A分裂的信息熵entropy(D, A)数据集D按照属性A的分裂
19、条件分裂出的m个子数据集分别为D1, D2, Dm,那么entropy(D, A)综合这m个子数据集的信息熵就可以作为衡量一个属性A优劣的度gain(D,A):一个数据集D按属性A分裂前后信息熵的差值信息增益information gaingain(D,A)=entropy(D)-entropy(D,A) 初始样本集合类1类241类25类1类246某个分裂属性确定的样本子集.类1类241类25类1类246类1类224类1类222highlowfemalemalegender?gpa ?接上例.信息管理学院类1类241类25highlowgendergpatypehand_in papersma
20、lelowfull-timenofemalehighpart-timeyesgendertypehand_in papersmalefull-timenofemalepart-timeyes类1类246?.信息管理学院第二节 决策树分类作业:训练样本集合D,样本个数14;类属性为buys_computer, 取值为c1=yes,c2=no.ridageincomestudentcredit_ratingbuys_computer130highnofairno230highnoexcellentno330-40highnofairyes440mediumnofairyes540lowyesfai
21、ryes640lowyesexcellentno730-40lowyesexcellentyes830mediumnofairno930lowyesfairyes1040mediumyesfairyes1130mediumyesexcellentyes1230-40mediumnoexcellentyes1330-40highyesfairyes1440mediumnoexcellentno.信息管理学院buys_computernonoyesyesyesnoyesnoyesyesyesyesyesno作业:训练样本集合D,样本个数14;类属性为buys_computer, 取值为c1=yes
22、,c2=no.集合D分类所需的期望信息不纯性.信息管理学院age?ridincomestudentCredit_ratingBuys_computer1highnofairno2highnoexcellentno3mediumnofairno4lowyesfairyes5mediumyesexcellentyesridincomestudentCredit_ratingBuys_computer1highnofairyes2lowyesexcellentyes3mediumnoexcellentyes4highyesfairyesRidincomestudentCredit_ratingBuy
23、s_computer1mediumnofairyes2lowyesfairyes3lowyesexcellentno4mediumyesfairyes5mediumnoexcellentno304030-40运用属性Aage将训练样本集合D划分为D1,D2,D3属性A集合D1集合D2集合D3.信息管理学院ridincomestudentCredit_ratingBuys_computer1highnofairno2highnoexcellentno3mediumnofairno4lowyesfairyes5mediumyesexcellentyesridincomestudentCredit_
24、ratingBuys_computer1highnofairyes2lowyesexcellentyes3mediumnoexcellentyes4highyesfairyesRidincomestudentCredit_ratingBuys_computer1mediumnofairyes2lowyesfairyes3lowyesexcellentno4mediumyesfairyes5mediumnoexcellentno集合D3集合D1集合D2运用age划分后,分类的期望信息不纯性运用age划分的信息增益为.信息管理学院同样可以计算其它属性信息增益,得到age信息增益最大并选作分裂属性。
25、用age来标志节点,并对每个属性值引出分枝?40yesage?50基尼指数Gini Index假设集合T分成两部分 N1 and N2 。那么这个分割的Gini就是提供最小Ginisplit 就被选择作为分割的规范.Gini目的在CART中运用,并思索每个属性的二元划分其他分裂方法CART算法:限定每次对数据集的分裂都是二分的假设属性有个不同的取值a、b和c,那么组合有3种情况 a和b,c、 a,b和c及 a,c和b信息增益的调整-增益比率以属性“年龄为例,分成的3个数据集的大小分别为4、5、5属性“年龄的增益比率那么为0.24/1.58=0.15增益率gain ratio在C4.5中运用信息
26、管理学院增益率gain ratio在C4.5中运用,pj为属性A取不同值的概率。SplitIA值越小,阐明属性A取值越少,GainRatio就越大,分类效果越好。4.2.2 属性的类型及分裂条件为了减少信息增益,需求确定根据属性A对数据集的分裂方法属性的分类定量quantitative和定性qualitative定量属性又称为数值numerical属性,每个取值为数值,既可以比较大小,又可以进展数值运算,如加、减、乘、除等。如:“年收入 定性属性又称为类别categorical属性,其取值不具有数的特点。定性属性又可以分为标称nominal属性和序数ordinal属性属性从另一个角度又可以分为
27、离散discrete属性和延续continuous属性定性属性的分裂条件一个数据集D假设根据一个定性属性A进展分裂,假设A在D中的取值由集合VA表示,VA=a1,a1,am ,那么分裂条件为A=ai例如假设按属性“婚姻进展数据集分裂,那么分裂条件为婚姻=独身、婚姻=已婚和婚姻=离异entropy(D, 年龄)=0.69,entropy(D,性别)=0.89按属性“婚姻进展数据集分裂客户编号年龄性别年收入(万)婚姻豪华车250女80单身否1250男50单身是客户编号年龄性别年收入(万)婚姻豪华车130女86已婚否430女75已婚否530-50女82已婚是630-50男91已婚是客户编号年龄性别年
28、收入(万)婚姻豪华车350女96离异否1350女80离异否1450男92离异是定量属性的分裂条件1属性及分类属性抽出并按年收入升序排序对于定量属性A,设A在数据集D中有m个不同的取值,a1a1 ai ,其中1i 0,(i1,n),那么对任何事件BS,有 称为贝叶斯公式。贝叶斯定律回想信息管理学院朴素贝叶斯分类:假定一个属性值对给定类的影响独立于其他属性的值,这一假定称作类条 件独立。做此假定是为了简化计算,并在此意义下被称为“朴素的贝叶斯信心网络:是图形模型,可以表示属性子集间的依赖贝叶斯分类主要包括:朴素贝叶斯分类给定一个样本变量X的一个察看到的样本x,由n个属性A1, A2, , An描画
29、,其属性取值分别为x1, x2, xn, 即x=(x1, x2, xn),要判别其所属的类别,即类别属性Y的取值, C=c1, c2, , ck贝叶斯定理: 朴素贝叶斯分类假设给定类别变量取值一定的情况下,各个属性取值之间相互独立,那么 概率计算P(ci)可以用训练数据集中类别ci出现的次数占训练数据集总行数的比例来近似对于定性属性,P(xj|ci)可以经过计算类别为ci的样本中属性Aj取值为xj的样本所占比例来近似对于定量属性,有两种方法。一种方法是先将该属性取值离散化假设变量服从某种概率分布,经过训练数据集估计分布的参数概率计算对于定量属性,有两种方法。假设变量服从正态分布N,2。计算P(
30、xj|ci)时,在类别为ci的样本中为属性Ajxj是属性Aj的取值的取值计算均值ij和规范差ij,然后利用下面的公式进展近似估计x=年龄30,男,年收入30万,独身,要预测其能否购买奢华车客户编号年龄性别年收入(万)婚姻豪华车130女86已婚否230男65单身否330男90离异否450女96离异否1150女80单身否1250男50单身是1350女80离异否1450男92离异是P(是)=5/14, P(否)=9/14P(年龄=30-50|是)=3/5P(年龄50|是)=2/5P(性别=女|是)=2/5P(性别=男|是)=3/5P(婚姻=已婚|是)=2/5P(婚姻=离异|是)=2/5P(婚姻=单身
31、|是)=1/5P(年龄50|否)=3/9P(性别=女|否)=6/9P(性别=男|否)=3/9P(婚姻=已婚|否)=2/9P(婚姻=离异|否)=4/9P(婚姻=单身|否)=3/9类别=“是”时,年收入的均值为103,标准差为56.8类别=“否”时,年收入的均值为70,标准差为25平滑处置在计算P(是|x)时,由于年龄 P(X|Cj) P(Cj),1jm,j i,换言之,X被指派到其P(X|Ci) P(Ci)最大的类Ci.Day Outlook Temperature Humidity Wind PlayTennis 1 Sunny Hot High Weak No 2 Sunny Hot Hig
32、h Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cool Normal Weak Yes 6 Rain Cool Normal Strong No 7 Overcast Cool Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cool Normal Weak Yes10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes12 Overcast Mild High Strong
33、 Yes13 Overcast Hot Normal Weak Yes14 Rain Mild High Strong No P(PlayTennis= yes)=9/14=0.64P(outlook = sunny|yes)= 2/9P(temp = cool | yes) = 3/9P(humidity = hi |yes) = 3/9P(wind = strong | yes) = 3/9P(yes | X ) 0.0053给定: X= (Outlook=sunny; Temperature=cool; Humidity=high; Wind=strong) 预测: PlayTennis
34、= ? 给定: (Outlook=sunny; Temperature=cool; Humidity=high; Wind=strong) P(PlayTennis= no)=5/14=0.36P(outlook = sunny|no)= 3/5 P(temp = cool | no) = 1/5P(humidity = hi |no) = 4/5P(wind = strong | no)= 3/5P(no | X ) 0.0206 信息管理学院例如: 设有数据库数据元组训练集,如下表所示。类标号属性buys_computer有两个不同值yes,no,因此有两个不同的类C1和C2,分别对应于y
35、es和no。分别有9个样本和5个样本。希望分类的未知样本为: X=age=“=30,income=“medium, student=“yes,credit_rating=“fair贝叶斯分类信息管理学院例如:训练样本集合D,样本个数14;类属性为buys_computer, 取值为c1=yes,c2=no.ridageincomestudentcredit_ratingbuys_computer130highnofairno230highnoexcellentno330-40highnofairyes440mediumnofairyes540lowyesfairyes640lowyesexce
36、llentno730-40lowyesexcellentyes830mediumnofairno930lowyesfairyes1040mediumyesfairyes1130mediumyesexcellentyes1230-40mediumnoexcellentyes1330-40highyesfairyes1440mediumnoexcellentno贝叶斯分类.信息管理学院例如:求最大化P(X|Ci)P(Ci),i=1,2。需求根据训练样本计算每个类的先验概率P(Ci)有: P(buys_computer=“yes)=9/14=0.643 P(buys_computer=“no)=5/
37、14=0.357贝叶斯分类信息管理学院例如:为计算P(X|Ci),i=1,2。需求计算条件概率:P(age=“30|buys_computer=“yes)=2/9=0.222P(age=“ P(X|是)P(是)所以: P(否|X) P(是|X) = 逃税 = 否例如:A: 胎生是,会飞否,水中生活是,有腿否M: 哺乳动物N: 非哺乳动物P(A|M)P(M) P(A|N)P(N)= 哺乳动物名称胎生会飞水中生活有腿类别Human是否否是哺乳python否否否否非哺乳salmon否否是否非哺乳whale是否是否哺乳frog否否有时是非哺乳komodo否否否是非哺乳bat是是否是哺乳pigeon否是
38、否是非哺乳cat是否否是哺乳leopard_shark是否是否非哺乳turtle否否有时是非哺乳penguin否否有时是非哺乳porcupine是否否是哺乳eel否否是否非哺乳salamander否否有时是非哺乳gila_monster否否否是非哺乳platypus否否否是哺乳owl否是否是非哺乳dolphin是否是否哺乳eagle否是否是非哺乳胎生会飞水中生活有腿类别是否是否?例如:信息管理学院朴素贝叶斯分类是以一个较强的假设:“数据中的属性相对于类标号是相互独立的为根底的。这个假设条件在现实世界的义务中很少能满足。因此,研讨人员采用新的基于统计实际的方法:具有较强实际根基、采用图解方式简约
39、易懂的表达概率分布的方法。这个构造称为贝叶斯信心网。贝叶斯信心网络信息管理学院贝叶斯信心网络其画出的图形像是节点构造图,每一个节点代表一个属性,节点间用有向衔接线衔接,但不能成环。其任务原理为:基于统计学中的条件独立,即给定父辈节点属性,每个节点对于他的祖辈、曾祖辈等都是条件独立的根据概率实际中链规那么,n个属性ai的结合概率可以分解为如下乘积:贝叶斯信心网络.信息管理学院贝叶斯信心网络是一个无环图,因此,可以对网络节点进展排序,使节点ai的一切先辈节点序号小于i。然后,由于条件独立假设,贝叶斯信心网络.信息管理学院贝叶斯信心网络:变量之间存在依赖关系,提供了一种因果关系的图形,可以在其上进展
40、学习 主要由两部分定义: 有向无环图dag:表示变量之间的依赖关系; 每个属性条件概率表cpt:把各结点和其直接父结点关联起来。贝叶斯信心网络信息管理学院有向无环图directed acycline praph其中的每一个结点代表一个随机变量;每一条弧两个结点间连线代表一个概率依赖。假设一条弧从结点Y到结点Z,那么Y就是Z的一个父结点,Z就是Y的一个子结点。给定父结点,每个变量有条件地独立于图中非子结点。变量既可取离散值,也可取延续值。它们既可对应数据集中实践的变量,也可对应数据集中的“隐含变量,以构成一个关系。贝叶斯信心网络ABCCADByx1x2x3x4xd(a)(c)(b)信息管理学院图
41、 运用有向无环图表示概率关系包含一切变量的条件概率表Conditional Probability Table, CPT对于一个变量Z,CPT定义了一个条件分布P ( Z|parent (Z) );其中,parent(Z)表示Z的父结点。除了网络拓扑构造要求的条件独立性外,每个结点还关联一个概率表: 1假设结点X没有父母结点,那么表中只包含先验概率P(X); 2假设结点X只需一个父母结点Y,那么表中包含条件概率P(XY) 3假设结点X有多个父母结点Y1,Y2,,YK,那么表中包含条件概率 P(X Y1,Y2,,YK)性质:条件独立 贝叶斯网络中的一个结点,假设它的父母结点知,那么该结点条件独立
42、于它的一切非后代结点。信息管理学院Bayesian Belief NetworksBayesian belief network allows a subset of the variables conditionally independentA graphical model of causal relationshipsRepresents dependency among the variables Gives a specification of joint probability distribution XYZPNodes: random variablesLinks: depe
43、ndencyX,Y are the parents of Z, and Y is the parent of PNo dependency between Z and PHas no loops or cycles信息管理学院贝叶斯信信心网络的有向无环图和每个属性条件概率表Family HistorySmokeLung CancerFH,SFH,SFH,SFH,SLC0.80.50.70.1LC0.20.50.30.9贝叶斯信心网络信息管理学院Bayesian Belief Network: An ExampleFamilyHistoryLungCancerPositiveXRaySmoker
44、EmphysemaDyspneaLCLC(FH, S)(FH, S)(FH, S)(FH, S)0.80.20.50.50.70.30.10.9Bayesian Belief NetworksThe conditional probability table for the variable LungCancer:Shows the conditional probability for each possible combination of its parents信息管理学院参与晚会后,第二天早晨呼吸中有酒精味的能够性有多大?假设头疼,患脑瘤的概率有多大?假设参与了晚会,并且头疼,那么患脑
45、瘤的概率有多大?PartyHangoverBrain TumorHeadacheSmell AlcoholPos Xray信息管理学院锻炼心口痛饮食心脏病血压胸痛HD=YesE=YesD=健康 0.25E=YesD=不健康 0.45E=NoD=健康 0.55E=NoD=不健康 0.75CP=YesHD=YesHb=Yes 0.8HD=YesHb=No 0.6HD=NoHb=Yes 0.4HD=NoHb=No 0.1Hb=YesD=健康 0.2D=不健康 0.85BP=高HD=Yes 0.85HD=No 0.2 E=Yes 0.7D=健康 0.25发现心脏病和心口痛病人的贝叶斯网络图信息管理学院
46、【例】我们运用以上BBN来诊断一个人能否患有心脏病对于一个没有任何先验信息的人,我们可以经过计算先验概率来确定一个人能否能够患心脏病设:Yes,No 表示锻炼的两个值;安康,不安康 表示饮食的两个值;信息管理学院【例】我们运用以上BBN来诊断一个人能否患有心脏病对于一个有高血压的人,我们可以经过计算后验概率来确定一个人能否能够患心脏病因此,此人患心脏病的后验概率是:=0.85*0.49+0.2*0.51=0.5185=0.85*0.49/0.5185=0.8033信息管理学院【例】我们运用以上BBN来诊断一个人能否患有心脏病对于一个患高血压、常锻炼、饮食安康的人,我们可以经过比较后验概率来确定
47、一个人能否能够患心脏病此人患心脏病的后验概率是:此人不患心脏病的后验概率是:0.4信息管理学院提供了一种用图形模型来捕获特定领域的先验知识的方法,网络还可以用来对变量间的因果关系进展编码;构造网络会费时费力;然而,网络构造一旦确定下来,添加新变量非常容易;贝叶斯信心网络适宜处置不完好数据。对有属性脱漏的实例可以经过对该属性的一切能够取值的概率求和或求积分来加以处置;由于,数据和先验知识以概率的方式结合起来了,所以,该方法对模型的过分拟合问题是非常鲁棒的。贝叶斯信心网络特点4.4 k近邻分类方法K近邻积极方法eager method决策树,贝叶斯懒惰方法lazy methodK近邻对于一个预测样
48、本,从训练数据集中找到与其最类似的K个样本,利用这K个样本的类别来决议此样本的类别K由用户指定。类似样本的选择方法取决于样本之间类似度的衡量方法,多种类似度衡量方法的引见详见第6章为一个测试样本选取了K个与其间隔最小的样本之后,可以利用投票法voting,统计各个类别的样本个数,将K个类别中占大多数的类别赋予测试样本 . _+_xq+_+_+类似性度量欧式间隔:给定样本a 和样本b,分别由n个属性A1, A2, , An描画,两个样本分别表示为a=(xa1, xa2, xan),b=(xb1, xb2, xbn),两个样本之间欧式间隔dab规范化normalization最小-最大值法min-max method。 假设属性A原来的最大值为max,最小值为min,规范化后的取值范围为min1,max1,那么对于该属性的恣意的一个取值v,规范化后的取值v1可以如下计算:4.5 分类性能的度量4.5 分类性能的度量4.5.1 测试数据集的构造4.5.2 分类性能的度量目的4.5.3 不同分类模型的比较4.5.1 测试数据集的构造坚持法holdout人为确定训练数据集和测试数据集的比例,常用的比例是2:1和1:1交叉验证法cross-validation自助抽样法bootstrapCross-validation(交叉验证)每个样本都交替地用于训练集或测试集n折
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电器分销合同协议书范本
- 策划赞助合作协议书范本
- 破坏房屋赔偿协议书范本
- 电梯轿厢清洁协议合同书
- 监控质保与售后合同范本
- 驾校学员培训合同协议书
- 项目工程挂靠协议书范本
- 环保投资股东协议书模板
- 煤矿合同续签协议书模板
- 权利质押反担保合同范本
- 外研版八年级上册英语期末复习:阅读理解 刷题练习题30篇(含答案解析)
- 退休延期留用岗位协议书
- 生物安全记录表
- DB34T 1708-2020 电站堵阀检验规程
- 《幼儿园保育教育质量评估指南》引领下的园本教研转向与新生态
- 四年级数学(小数加减运算)计算题专项练习与答案汇编
- 《老年护理学》考试复习题库(含答案)
- 第1章有理数单元同步练习题 2024-2025学年华东师大版数学七年级上册
- GB/T 29239-2024移动通信设备节能参数和测试方法基站
- 职业技术学校《服装工艺基础》课程标准
- 《Python编程案例教程》全套教学课件
评论
0/150
提交评论