数据挖掘概念与技术CHAPTER6-分类ClassAdvanced-课件_第1页
数据挖掘概念与技术CHAPTER6-分类ClassAdvanced-课件_第2页
数据挖掘概念与技术CHAPTER6-分类ClassAdvanced-课件_第3页
数据挖掘概念与技术CHAPTER6-分类ClassAdvanced-课件_第4页
数据挖掘概念与技术CHAPTER6-分类ClassAdvanced-课件_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1Chapter6.分类:AdvancedMethods贝叶斯信念网络后向传播分类ClassificationbyBackpropagation支持向量机SupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)其他分类方法AdditionalTopicsRegardingClassificationSummary1Chapter6.分类:AdvancedMetho12贝叶斯信念网络Bayesianbeliefnetworks(又称为Bayesiannetworks,probabilisticnetworks):允许变量子集间定义类条件独立(有向无环)因果关系的图模型表示变量间的依赖关系给出了一个联合概率分布

Nodes:随机变量Links:依赖关系X,Y是Z的双亲,YistheparentofPZ和P间没有依赖关系

没有环2贝叶斯信念网络Bayesianbeliefnetwor23贝叶斯信念网络:AnExampleFamilyHistory(FH)LungCancer(LC)PositiveXRaySmoker(S)EmphysemaDyspneaLC~LC(FH,S)(FH,~S)(~FH,S)(~FH,~S)0.10.9CPT:ConditionalProbabilityTableforvariableLungCancer:显示父母的每个可能组合的条件概率从CPT推倒X的特定值得概率3贝叶斯信念网络:AnExampleFamilyLung34训练贝叶斯网路:几种方案Scenario1:给定网络结构和所有变量观察:只计算CPTScenario2:网络结构已知,某些变量隐藏:梯度下降法(贪心爬山),i.e.,沿着准则函数的最速下降方向搜索解权重初始化为随机值每次迭代中,似乎是对目前的最佳解决方案前进,没有回溯每次迭代中权重被更新,并且收敛到局部最优解Scenario3:网络结构未知,所有变量可知:搜索模型空间构造网络拓扑Scenario4:未知结构,隐藏变量:目前没有好的算法D.Heckerman.ATutorialonLearningwithBayesianNetworks.InLearninginGraphicalModels,M.Jordan,ed..MITPress,2019.4训练贝叶斯网路:几种方案Scenario1:给定网络结构45Chapter6.分类:AdvancedMethodsBayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary5Chapter6.分类:AdvancedMetho56用反向传播分类反向传播:一种神经网络学习算法

最早是由心理学家和神经学家开创的,开发和测试神经元计算模拟神经网络:一组连接的输入/输出单元,其中每个连接都与一个权重关联通过调整权重来学习,能够输入元组的正确类别标号又被称为连接者学习connectionistlearning6用反向传播分类反向传播:一种神经网络学习算法67神经网络作为分类器弱点学习时间很长

需要很多参数(常靠经验确定),如网络的结构可解释性差:很难解释权重和网络中“隐藏单元”的含义优势对噪音数据的高承受能力分类未经训练的模式的能力非常适合处理连续值的输入/输出成功地应用于现实数据,e.g.,手写字符识别算法是固有并行的已经发展了一些从训练好的神经网路提取规则的技术7神经网络作为分类器弱点78多层前馈神经网络输出层输入层隐藏层OutputvectorInputvector:Xwij8多层前馈神经网络输出层输入层隐藏层Outputvect89多层前馈神经网络网络的输入对应于每个训练元组的测量属性

输入同时传给称作输入层的单元加权后同时传递给隐藏层隐藏层的数目是任意的,通常只有一个最后一个隐藏层的输出权重后作为输入传递给称为输出层,此处给出网络的预测前馈feed-forward:权重都不反馈到输入单元或前一层的输出单元从统计学观点,网络进行一个非线性回归;给定足够的隐藏单元和训练数据,可以逼近任何函数9多层前馈神经网络网络的输入对应于每个训练元组的测量属性910定义网络拓扑确定网络拓扑:给定输入层的单元数,隐藏层数(if>1),每个隐藏层的单元数,输出层的单元数规格化训练元组的输入值[0.0—1.0]对于离散值,可重新编码,每个可能的值一个输入单元并初始化0输出,如果涉及超过两个类别则一个输出单元对应一个类别一旦一个训练好的网络其准确率达不到要求时,用不同的网络拓扑和初始值重新训练网络10定义网络拓扑确定网络拓扑:给定输入层的单元数,隐藏层1011反向传播Backpropagation迭代地处理训练数据&比较网络的预测值和实际的目标值对每个训练元组,修改权重最小化目标的预测值和实际值之间的meansquarederror这种修改后向进行:从输出层开始,通过每个隐藏层直到第一个隐藏层步骤初始化权重为一个小的随机数,以及偏倚biases向前传播输入(应用激励函数)向后传播误差(更新权重和偏倚)停止条件(当误差非常小,etc.)11反向传播Backpropagation迭代地处理训练数据1112神经元:一个隐藏/输出层单元

一个n-维输入向量x被映射到变量y,通过非线性函数映射单元的输入是前一层的输出.被乘上权重后求和且加上此单元的偏倚.然后应用一个非线性激励函数.mkf输入向量xoutputy激励weightvectorwåw0w1wnx0x1xnbias权重和12神经元:一个隐藏/输出层单元一个n-维输入向量x被映12后向传播算法后向传播算法1314效率和可解释性向后传播的效率:每次迭代O(|D|*w),|D|为元组数,w

个权重,最坏的情况下迭代的次数可能是元组数的指数为了更容易理解:通过网络修剪提取规则简化网络结构,去除对训练的网络有最弱影响的权重连接对连接,单元,or活跃值聚类输入和活跃值集合用来推导描述输入和隐藏层间关系的规则Sensitivityanalysis:评估一个给定的输入变量对网络输出的影响。从中获得的知识可以表示为规则。IFX减少5%THENY增加…14效率和可解释性向后传播的效率:每次迭代O(|D|*1415Chapter6.分类:AdvancedMethods贝叶斯信念网络后向传播分类ClassificationbyBackpropagation支持向量机SupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)其他分类方法AdditionalTopicsRegardingClassificationSummary15Chapter6.分类:AdvancedMeth1516分类:一个数学映射Classification:预测分类的类标签E.g.,个人主页分类xi=(x1,x2,x3,…),yi=+1or–1x1:#ofword“homepage”x2:#ofword“welcome”

xX=n,yY={+1,–1},推导一个函数f:XY

线性分类二元分类问题红线上面的点属于class‘x’下面的点属于class‘o’Examples:SVM,Perceptron,ProbabilisticClassifiersxxxxxxxxxxooooooooooooo16分类:一个数学映射Classification:预测分类1617SVM—SupportVectorMachines一个相对新的分类方法,适用于linearandnonlineardata使用一个非线性映射把原始训练数据变换到高维空间中在新的维上,搜索线性优化分离超平面hyperplane(i.e.,“决策边界”)用一个合适的足够高维的映射,两类数据总是可以被超平面分开SVM使用supportvectors(“基本”选练元组)和边缘margins(由支持向量定义)发现超平面17SVM—SupportVectorMachines一1718SVM—历史和应用Vapnikandcolleagues(1992)—基础工作来自于Vapnik&Chervonenkis’statisticallearningtheoryin1960sFeatures:训练慢但是准确度高,由于能够建模非线性决策边界(marginmaximization)Usedfor:分类和数值预测应用:手写数字识别,objectrecognition,speakeridentification,基准时间序列预测检验

18SVM—历史和应用Vapnikandcolleagu1819支持向量机的一般哲学SupportVectorsSmallMargin边界LargeMargin19支持向量机的一般哲学SupportVectorsSma1922十二月2022DataMining:ConceptsandTechniques20SVM—MarginsandSupportVectors17十二月2022DataMining:Concep2021SVM—当数据线性可分时mD为(X1,y1),…,(X|D|,y|D|),其中Xi

带标签yi的训练元组有无数条直线(hyperplanes)可以分离两个类,但我们需要发现最好的一个(对未知数据有最小化的分类误差)SVMsearchesforthehyperplanewiththelargestmargin,i.e.,maximummarginalhyperplane(MMH)21SVM—当数据线性可分时mD为(X1,y1),…,2122SVM—线性可分一个分离超平面可以写成W●X+b=0W={w1,w2,…,wn}权重向量和标量b(bias)对于2-D,可以写成w0+w1x1+w2x2=0超平面定义了边缘的边界:H1:w0+w1x1+w2x2≥1foryi=+1,andH2:w0+w1x1+w2x2≤–1foryi=–1任何一个位于超平面H1orH2(i.e.,thesidesdefiningthemargin)的样本为supportvectors最大边缘是2/‖w‖→max是一个

constrained(convex)quadraticoptimizationproblem:二次目标函数和线性约束

QuadraticProgramming(QP)Lagrangianmultipliers22SVM—线性可分一个分离超平面可以写成2223WhyIsSVMEffectiveonHighDimensionalData?训练后的分类器的complexity由支持向量数而不是数据维度刻画支持向量supportvectors是基本的/临界的训练元组—离决策边界最近(MMH)如果其他的样本删掉后重新训练仍然会发现相同的分离超平面支持向量的数目可用于计算(svm分类器)期望误差率的上界(upper),其独立于数据维度一个只有少量支持向量的svm有很好的推广性能,即使数据的维度很高时23WhyIsSVMEffectiveonHigh2324SVM—线性不可分把原始输入数据变换到一个更高维的空间Searchforalinearseparatinghyperplaneinthenewspace24SVM—线性不可分把原始输入数据变换到一个更高维的空间2425SVM:不同的核函数计算变换后数据的点积,数学上等价于应用一个核函数K(Xi,Xj)于原始数据,i.e.,K(Xi,Xj)=Φ(Xi)Φ(Xj)TypicalKernelFunctionsSVM也可用于多类数据(>2)和回归分析(需要附加参数)25SVM:不同的核函数计算变换后数据的点积,数学上等2526SVMvs.NeuralNetworkSVM

DeterministicalgorithmNicegeneralizationpropertiesHardtolearn–使用quadraticprogrammingtechniques批量学习UsingkernelscanlearnverycomplexfunctionsNeuralNetworkNondeterministicalgorithmGeneralizeswellbutdoesn’thavestrongmathematicalfoundationCaneasilybelearnedinincrementalfashionTolearncomplexfunctions—usemultilayerperceptron(nontrivial)26SVMvs.NeuralNetworkSVM Ne2627SVMRelatedLinksSVMWebsite:/RepresentativeimplementationsLIBSVM:anefficientimplementationofSVM,multi-classclassifications,nu-SVM,one-classSVM,includingalsovariousinterfaceswithjava,python,etc.SVM-light:simplerbutperformanceisnotbetterthanLIBSVM,supportonlybinaryclassificationandonlyinCSVM-torch:anotherrecentimplementationalsowritteninC27SVMRelatedLinksSVMWebsite2728Chapter6.惰性学习BayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary28Chapter6.惰性学习BayesianBeli2829Lazyvs.EagerLearningLazyvs.eagerlearningLazylearning(e.g.,基于实例的学习):仅存储数据(或稍加处理)直到碰到检验元组才开始处理Eagerlearning(前面介绍的方法):给定训练数据,在遇到待处理的新数据前构造分类模型Lazy:训练用时很少,预测时用时多准确性惰性学习方法可以有效地利用更丰富的假设空间,使用多个局部线性函数来对目标函数形成一个隐式的全局逼近Eager:必须限于一个假设,它覆盖了整个实例空间29Lazyvs.EagerLearningLazy2930LazyLearner:基于实例的方法Instance-basedlearning:Storetrainingexamplesanddelaytheprocessing(“lazyevaluation”)untilanewinstancemustbeclassified典型的方法k-nearestneighborapproach实例表示为欧氏空间中的点.LocallyweightedregressionConstructslocalapproximation基于案例的推理Case-basedreasoning使用符号表示和知识为基础的推理30LazyLearner:基于实例的方法Instance3031k-最近邻算法所有的样本对应于n-D空间的点通过Euclideandistance,dist(X1,X2)定义最近邻居目标函数可以是discrete-orreal-值对于离散值,k-NN返回与目标元组最近的k个训练样本的多数类Vonoroidiagram:thedecisionsurfaceinducedby1-NNforatypicalsetoftrainingexamples

._+_xq+__+__+.....31k-最近邻算法所有的样本对应于n-D空间的点._3132k-NNAlgorithm的讨论k-NN:元组的未知实值的预测时返回与未知元组k个最近邻居的平均值(对应属性)Distance-weightednearestneighboralgorithm根据与目标元组的距离权重组合k个近邻的贡献GivegreaterweighttocloserneighborsRobusttonoisydatabyaveragingk-nearestneighborsCurseofdimensionality:邻居间的距离会被无关联的属性影响

坐标轴伸缩或去除次要的属性32k-NNAlgorithm的讨论k-NN:元组的未知实3233基于案例的推理(CBR)CBR:使用一个问题解的数据库来求解新问题存储符号描述(tuplesorcases)—不是Euclideanspace的点应用:

顾客-服务台(产品有关的诊断),合法裁决Methodology实例表示为复杂的符号描述(e.g.,functiongraphs)搜索相似的案例,组合多个返回的例子Tightcouplingbetweencaseretrieval,knowledge-basedreasoning,andproblemsolvingChallengesFindagoodsimilaritymetricIndexingbasedonsyntacticsimilaritymeasure,andwhenfailure,backtracking,andadaptingtoadditionalcases33基于案例的推理(CBR)CBR:使用一个问题解的数据3334Chapter6.分类:其他方法BayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary34Chapter6.分类:其他方法Bayesian3435遗传算法(GA)GeneticAlgorithm:模仿生物进化使用随机产生的规则组成一个最初的population每个规则有一系列位表示E.g.,ifA1and¬A2thenC2canbeencodedas100如果一个属性有k>2个值,使用k位基于适者生存原理,最适合的规则及其后代组成新的种群规则的拟合度用它在训练样本的准确率来评估通过交叉和突变来产生后代此过程持续下去,直到种群P进化到其中的每个规则满足给定的拟合度阈值算法慢,但易于并行35遗传算法(GA)GeneticAlgorithm:3536FuzzySetApproachesFuzzylogic使用[0.0,1.0]真值来表示类的成员的隶属度

属性值被转化成模糊值.Ex.:对于每个离散类别收入{low,medium,high},x

被分配一个模糊的隶属值,e.g.$49K属于“mediumincome”0.15,属于“highincome”的隶属值是0.96模糊隶属值的和不一定等于1.每个可用的规则为类的隶属贡献一票通常,对每个预测分类的真值求和,并组合这些值36FuzzySetApproachesFuzzylo3637Chapter6.分类:AdvancedMethodsBayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary37Chapter6.分类:AdvancedMeth37多类分类分类时设计多个类别(i.e.,>2Classes)Method1.One-vs.-all(OVA):每次学习一个分类器

给定m个类,训练m个分类其,每个类别一个分类器j:把类别j的元组定义为

positive&其他的为negative为分类样本X,所有分类器投票来集成Method2.All-vs.-all(AVA):为每一对类别学习一个分类器Givenmclasses,constructm(m-1)/2binaryclassifiers使用两个类别的元组训练一个分类器为分类元组X,每个分类器投票.XisassignedtotheclasswithmaximalvoteComparisonAll-vs.-alltendstobesuperiortoone-vs.-allProblem:Binaryclassifierissensitivetoerrors,anderrorsaffectvotecount38多类分类分类时设计多个类别(i.e.,>2Class38多类分类的Error-CorrectingCodes最初目的是在数据传输的通讯任务中通过探索数据冗余来修正误差。例:A7-bitcodewordassociatedwithclasses1-439ClassError-Corr.CodewordC11111111C20000111C30011001C40101010给定未知元组X,7个分类器的结果为:0001010Hammingdistance:#两个码字间不同位数的和H(X,C1)=5,检查[1111111]&[0001010]间不同位数和H(X,C2)=3,H(X,C3)=3,H(X,C4)=1,thusC4asthelabelforX

Error-correctingcodescancorrectupto(h-1)/h1-biterror,wherehistheminimumHammingdistancebetweenanytwocodewordsIfweuse1-bitperclass,itisequiv.toone-vs.-allapproach,thecodeareinsufficienttoself-correctWhenselectingerror-correctingcodes,thereshouldbegoodrow-wiseandcol.-wiseseparationbetweenthecodewords多类分类的Error-CorrectingCodes最初目39半监督分类Semi-supervised:使用有标签和无标签数据构造分类器Self-training:BuildaclassifierusingthelabeleddataUseittolabeltheunlabeleddata,andthosewiththemostconfidentlabelpredictionareaddedtothesetoflabeleddata重复以上过程Adv:容易理解;disadv:可能增大误差Co-training:Usetwoormoreclassifierstoteacheachother每个学习者使用元组的相互独立的特征集合来训练一个好的分类器F1然后f1andf2

用来预测未知元组X的类别标签Teacheachother:Thetuplehavingthemostconfidentpredictionfromf1isaddedtothesetoflabeleddataforf2,&viceversaOthermethods,e.g.,jointprobabilitydistributionoffeaturesandlabels40半监督分类Semi-supervised:使用有标签和无标40主动学习ActiveLearning获取类标签是昂贵Activelearner:queryhuman(oracle)forlabelsPool-basedapproach:UsesapoolofunlabeleddataL:D中有标签的样本子集,U:D的一个未标记数据集使用一个查询函数小心地从U选择1或多个元组,并咨询标签anoracle(ahumanannotator)ThenewlylabeledsamplesareaddedtoL,andlearnamodelGoal:AchievehighaccuracyusingasfewlabeleddataaspossibleEvaluatedusinglearningcurves:Accuracyasafunctionofthenumberofinstancesqueried(#oftuplestobequeriedshouldbesmall)Researchissue:Howtochoosethedatatuplestobequeried?Uncertaintysampling:choosetheleastcertainonesReduceversionspace,thesubsetofhypothesesconsistentw.thetrainingdataReduceexpectedentropyoverU:Findthegreatestreductioninthetotalnumberofincorrectpredictions41主动学习ActiveLearning获取类标签是昂贵4141迁移学习:概念框架Transferlearning:ExtractknowledgefromoneormoresourcetasksandapplytheknowledgetoatargettaskTraditionallearning:每一个任务建立分类器Transferlearning:Buildnewclassifierbyapplyingexistingknowledgelearnedfromsourcetasks42TraditionalLearningFrameworkTransferLearningFramework迁移学习:概念框架Transferlearning:Ex42迁移学习:MethodsandApplications应用:数据过时或分布的变化时,e.g.,Webdocumentclassification,e-mailspamfilteringInstance-basedtransferlearning:ReweightsomeofthedatafromsourcetasksanduseittolearnthetargettaskTrAdaBoost(TransferAdaBoost)假定源和目标数据用相同的属性和类别描述,butratherdiff.distributionsRequireonlylabelingasmallamountoftargetdata训练中使用源数据:Whenasourcetupleismisclassified,reducetheweightofsuchtupelssothattheywillhavelesseffectonthesubsequentclassifierResearchissuesNegativetransfer:WhenitperformsworsethannotransferatallHeterogeneoustransferlearning:TransferknowledgefromdifferentfeaturespaceormultiplesourcedomainsLarge-scaletransferlearning43迁移学习:MethodsandApplications4344Chapter6.分类:频繁模式BayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary44Chapter6.分类:频繁模式BayesianB4445关联分类关联分类:主要步骤挖掘关于频繁模式(属性-值对的联结)和类标签间的强关联产生以下形似的关联规则

P1^p2…^pl

“Aclass=C”(conf,sup)组织规则,形成基于规则的分类器为什么有效?

可以发现(在多个属性间)高置信度的关联,可以克服决策树规约引入的约束,决策树一次考虑一个属性研究发现,关联分类通常比某些传统的分类方法更精确,例如C4.545关联分类关联分类:主要步骤4546典型的关联分类方法CBA(ClassificationBasedonAssociations:Liu,Hsu&Ma,KDD’98)挖掘可能关联规则:Cond-set(属性-值的集合)classlabel建立分类器:基于置信度和支持度的下降序组织规则CMAR(ClassificationbasedonMultipleAssociationRules:Li,Han,Pei,ICDM’01)分类:多个规则的统计分析CPAR(ClassificationbasedonPredictiveAssociationRules:Yin&Han,SDM’03)产生预测性规则(FOIL-likeanalysis)允许覆盖的元组以降低权重形式保留下来构造新规则(根据期望准确率)使用最好的k个规则预测更有效(产生规则少),精确性类似CMAR46典型的关联分类方法CBA(Classification4647频繁模式vs.单个特征(a)Austral(c)Sonar(b)CleveFig.1.InformationGainvs.PatternLength某些频繁模式的判别能力高于单个特征.47频繁模式vs.单个特征(a)Austral(c)4748经验结果

(a)Austral(c)Sonar(b)BreastFig.2.InformationGainvs.PatternFrequency48经验结果(a)Austral(c)Sonar(b)4849特征选择FeatureSelection给定频繁模式集合,存在non-discriminative和redundant的模式,他们会引起过度拟合我们希望选出discriminativepatterns,并且去除冗余借用MaximalMarginalRelevance(MMR)的概念Adocumenthashighmarginalrelevanceifitisbothrelevanttothequeryandcontainsminimalmarginalsimilaritytopreviouslyselecteddocuments49特征选择FeatureSelection给定频繁模式集4950实验结果5050实验结果505051ScalabilityTests51ScalabilityTests5152基于频繁模式的分类H.Cheng,X.Yan,J.Han,andC.-W.Hsu,“DiscriminativeFrequentPatternAnalysisforEffectiveClassification”,ICDE'07Accuracyissue问题IncreasethediscriminativepowerIncreasetheexpressivepowerofthefeaturespaceScalabilityissue问题ItiscomputationallyinfeasibletogenerateallfeaturecombinationsandfilterthemwithaninformationgainthresholdEfficientmethod(DDPMine:FPtreepruning):H.Cheng,X.Yan,J.Han,andP.S.Yu,"DirectDiscriminativePatternMiningforEffectiveClassification",ICDE'0852基于频繁模式的分类H.Cheng,X.Yan,J5253DDPMineEfficiency:RuntimePatClassHarmonyDDPMinePatClass:ICDE’07PatternClassificationAlg.53DDPMineEfficiency:RuntimeP5354SummaryEffectiveandadvancedclassificationmethodsBayesianbeliefnetwork(probabilisticnetworks)Backpropagation(Neuralnetworks)SupportVectorMachine(SVM)Pattern-basedclassificationOtherclassificationmethods:lazylearners(KNN,case-basedreasoning),geneticalgorithms,roughsetandfuzzysetapproachesAdditionalTopicsonClassificationMulticlassclassificationSemi-supervisedclassificationActivelearningTransferlearning54SummaryEffectiveandadvance5455References(1)C.M.Bishop,NeuralNetworksforPatternRecognition.OxfordUniversityPress,2019C.J.C.Burges.ATutorialonSupportVectorMachinesforPatternRecognition.DataMiningandKnowledgeDiscovery,2(2):121-168,2019H.Cheng,X.Yan,J.Han,andC.-W.Hsu,DiscriminativeFrequentpatternAnalysisforEffectiveClassification,ICDE'07H.Cheng,X.Yan,J.Han,andP.S.Yu,DirectDiscriminativePatternMiningforEffectiveClassification,ICDE'08N.CristianiniandJ.Shawe-Taylor,IntroductiontoSupportVectorMachinesandOtherKernel-BasedLearningMethods,CambridgeUniversityPress,2000A.J.Dobson.AnIntroductiontoGeneralizedLinearModels.Chapman&Hall,1990G.DongandJ.Li.Efficientminingofemergingpatterns:Discoveringtrendsanddifferences.

KDD'9955References(1)C.M.Bishop,5556References(2)R.O.Duda,P.E.Hart,andD.G.Stork.PatternClassification,2ed.JohnWiley,2019T.Hastie,R.Tibshirani,andJ.Friedman.TheElementsofStatisticalLearning:DataMining,Inference,andPrediction.Springer-Verlag,2019S.Haykin,NeuralNetworksandLearningMachines,PrenticeHall,2019D.Heckerman,D.Geiger,andD.M.Chickering.LearningBayesiannetworks:Thecombinationofknowledgeandstatisticaldata.MachineLearning,2019.V.Kecman,LearningandSoftComputing:SupportVectorMachines,NeuralNetworks,andFuzzyLogic,MITPress,2019W.Li,J.Han,andJ.Pei,CMAR:AccurateandEfficientClassificationBasedonMultipleClass-AssociationRules,ICDM'01T.-S.Lim,W.-Y.Loh,andY.-S.Shih.Acomparisonofpredictionaccuracy,complexity,andtrainingtimeofthirty-threeoldandnewclassificationalgorithms.MachineLearning,200056References(2)R.O.Duda,P.5657References(3)B.Liu,W.Hsu,andY.Ma.Integratingclassificationandassociationrulemining,p.80-86,KDD’98.T.M.Mitchell.MachineLearning.McGrawHill,2019.D.E.Rumelhart,andJ.L.McClelland,editors,ParallelDistributedProcessing,MITPress,1986.P.Tan,M.Steinbach,andV.Kumar.IntroductiontoDataMining.AddisonWesley,2019.S.M.WeissandN.Indurkhya.PredictiveDataMining.MorganKaufmann,2019.I.H.WittenandE.Frank.DataMining:PracticalMachineLearningToolsandTechniques,2ed.MorganKaufmann,2019.X.YinandJ.Han.CPAR:Classificationbasedonpredictiveassociationrules.SDM'03H.Yu,J.Yang,andJ.Han.ClassifyinglargedatasetsusingSVMwithhierarchicalclusters.KDD'03.57References(3)B.Liu,W.Hsu5722十二月2022DataMining:ConceptsandTechniques58SVM—IntroductoryLiterature“StatisticalLearningTheory”byVapnik:extremelyhardtounderstand,containingmanyerrorstoo.C.

J.

C.Burges.ATutorialonSupportVectorMachinesforPatternRecognition.KnowledgeDiscoveryandDataMining,2(2),2019.BetterthantheVapnik’sbook,butstillwrittentoohardforintroduction,andtheexamplesaresonot-intuitiveThebook“AnIntroductiontoSupportVectorMachines”byN.CristianiniandJ.Shawe-TaylorAlsowrittenhardforintroduction,buttheexplanationaboutthemercer’stheoremisbetterthanaboveliteraturesTheneuralnetworkbookbyHaykinsContainsonenicechapterofSVMintroduction17十二月2022DataMining:Concep5859NotesaboutSVM—IntroductoryLiterature“StatisticalLearningTheory”byVapnik:difficulttounderstand,containingmanyerrors.C.

J.

C.Burges.ATutorialonSupportVectorMachinesforPatternRecognition.KnowledgeDiscoveryandDataMining,2(2),2019.EasierthanVapnik’sbook,butstillnotintroductorylevel;theexamplesarenotsointuitiveThebookAnIntroductiontoSupportVectorMachinesbyCristianini

and

Shawe-TaylorNotintroductorylevel,buttheexplanationaboutMercer’sTheoremisbetterthanaboveliteraturesNeuralNetworksandLearningMachinesbyHaykinContainsanicechapteronSVMintroduction59NotesaboutSVM—Introductory5960Chapter6.分类:AdvancedMethods贝叶斯信念网络后向传播分类ClassificationbyBackpropagation支持向量机SupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)其他分类方法AdditionalTopicsRegardingClassificationSummary1Chapter6.分类:AdvancedMetho6061贝叶斯信念网络Bayesianbeliefnetworks(又称为Bayesiannetworks,probabilisticnetworks):允许变量子集间定义类条件独立(有向无环)因果关系的图模型表示变量间的依赖关系给出了一个联合概率分布

Nodes:随机变量Links:依赖关系X,Y是Z的双亲,YistheparentofPZ和P间没有依赖关系

没有环2贝叶斯信念网络Bayesianbeliefnetwor6162贝叶斯信念网络:AnExampleFamilyHistory(FH)LungCancer(LC)PositiveXRaySmoker(S)EmphysemaDyspneaLC~LC(FH,S)(FH,~S)(~FH,S)(~FH,~S)0.10.9CPT:ConditionalProbabilityTableforvariableLungCancer:显示父母的每个可能组合的条件概率从CPT推倒X的特定值得概率3贝叶斯信念网络:AnExampleFamilyLung6263训练贝叶斯网路:几种方案Scenario1:给定网络结构和所有变量观察:只计算CPTScenario2:网络结构已知,某些变量隐藏:梯度下降法(贪心爬山),i.e.,沿着准则函数的最速下降方向搜索解权重初始化为随机值每次迭代中,似乎是对目前的最佳解决方案前进,没有回溯每次迭代中权重被更新,并且收敛到局部最优解Scenario3:网络结构未知,所有变量可知:搜索模型空间构造网络拓扑Scenario4:未知结构,隐藏变量:目前没有好的算法D.Heckerman.ATutorialonLearningwithBayesianNetworks.InLearninginGraphicalModels,M.Jordan,ed..MITPress,2019.4训练贝叶斯网路:几种方案Scenario1:给定网络结构6364Chapter6.分类:AdvancedMethodsBayesianBeliefNetworksClassificationbyBackpropagationSupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)OtherClassificationMethodsAdditionalTopicsRegardingClassificationSummary5Chapter6.分类:AdvancedMetho6465用反向传播分类反向传播:一种神经网络学习算法

最早是由心理学家和神经学家开创的,开发和测试神经元计算模拟神经网络:一组连接的输入/输出单元,其中每个连接都与一个权重关联通过调整权重来学习,能够输入元组的正确类别标号又被称为连接者学习connectionistlearning6用反向传播分类反向传播:一种神经网络学习算法6566神经网络作为分类器弱点学习时间很长

需要很多参数(常靠经验确定),如网络的结构可解释性差:很难解释权重和网络中“隐藏单元”的含义优势对噪音数据的高承受能力分类未经训练的模式的能力非常适合处理连续值的输入/输出成功地应用于现实数据,e.g.,手写字符识别算法是固有并行的已经发展了一些从训练好的神经网路提取规则的技术7神经网络作为分类器弱点6667多层前馈神经网络输出层输入层隐藏层OutputvectorInputvector:Xwij8多层前馈神经网络输出层输入层隐藏层Outputvect6768多层前馈神经网络网络的输入对应于每个训练元组的测量属性

输入同时传给称作输入层的单元加权后同时传递给隐藏层隐藏层的数目是任意的,通常只有一个最后一个隐藏层的输出权重后作为输入传递给称为输出层,此处给出网络的预测前馈feed-forward:权重都不反馈到输入单元或前一层的输出单元从统计学观点,网络进行一个非线性回归;给定足够的隐藏单元和训练数据,可以逼近任何函数9多层前馈神经网络网络的输入对应于每个训练元组的测量属性6869定义网络拓扑确定网络拓扑:给定输入层的单元数,隐藏层数(if>1),每个隐藏层的单元数,输出层的单元数规格化训练元组的输入值[0.0—1.0]对于离散值,可重新编码,每个可能的值一个输入单元并初始化0输出,如果涉及超过两个类别则一个输出单元对应一个类别一旦一个训练好的网络其准确率达不到要求时,用不同的网络拓扑和初始值重新训练网络10定义网络拓扑确定网络拓扑:给定输入层的单元数,隐藏层6970反向传播Backpropagation迭代地处理训练数据&比较网络的预测值和实际的目标值对每个训练元组,修改权重最小化目标的预测值和实际值之间的meansquarederror这种修改后向进行:从输出层开始,通过每个隐藏层直到第一个隐藏层步骤初始化权重为一个小的随机数,以及偏倚biases向前传播输入(应用激励函数)向后传播误差(更新权重和偏倚)停止条件(当误差非常小,etc.)11反向传播Backpropagation迭代地处理训练数据7071神经元:一个隐藏/输出层单元

一个n-维输入向量x被映射到变量y,通过非线性函数映射单元的输入是前一层的输出.被乘上权重后求和且加上此单元的偏倚.然后应用一个非线性激励函数.mkf输入向量xoutputy激励weightvectorwåw0w1wnx0x1xnbias权重和12神经元:一个隐藏/输出层单元一个n-维输入向量x被映71后向传播算法后向传播算法7273效率和可解释性向后传播的效率:每次迭代O(|D|*w),|D|为元组数,w

个权重,最坏的情况下迭代的次数可能是元组数的指数为了更容易理解:通过网络修剪提取规则简化网络结构,去除对训练的网络有最弱影响的权重连接对连接,单元,or活跃值聚类输入和活跃值集合用来推导描述输入和隐藏层间关系的规则Sensitivityanalysis:评估一个给定的输入变量对网络输出的影响。从中获得的知识可以表示为规则。IFX减少5%THENY增加…14效率和可解释性向后传播的效率:每次迭代O(|D|*7374Chapter6.分类:AdvancedMethods贝叶斯信念网络后向传播分类ClassificationbyBackpropagation支持向量机SupportVectorMachinesClassificationbyUsingFrequentPatternsLazyLearners(orLearningfromYourNeighbors)其他分类方法AdditionalTopicsRegardingClassificationSummary15Chapter6.分类:AdvancedMeth7475分类:一个数学映射Classification:预测分类的类标签E.g.,个人主页分类xi=(x1,x2,x3,…),yi=+1or–1x1:#ofword“homepage”x2:#ofword“welcome”

xX=n,yY={+1,–1},推导一个函数f:XY

线性分类二元分类问题红线上面的点属于class‘x’下面的点属于class‘o’Examples:SVM,Perceptron,ProbabilisticClassifiersxxxxxxxxxxooooooooooooo16分类:一个数学映射Classification:预测分类7576SVM—SupportVectorMachines一个相对新的分类方法,适用于linearandnonlineardata使用一个非线性映射把原始训练数据变换到高维空间中在新的维上,搜索线性优化分离超平面hyperplane(i.e.,“决策边界”)用一个合适的足够高维的映射,两类数据总是可以被超平面分开SVM使用supportvectors(“基本”选练元组)和边缘margins(由支持向量定义)发现超平面17SVM—SupportVectorMachines一7677SVM—历史和应用Vapnikandcolleagues(1992)—基础工作来自于Vapnik&Chervonenkis’statisticallearningtheoryin1960sFeatures:训练慢但是准确度高,由于能够建模非线性决策边界(marginmaximization)Usedfor:分类和数值预测应用:手写数字识别,objectrecognition,speakeridentification,基准时间序列预测检验

18SVM—历史和应用Vapnikandcolleagu7778支持向量机的一般哲学SupportVectorsSmallMargin边界LargeMargin19支持向量机的一般哲学SupportVectorsSma7822十二月2022DataMining:ConceptsandTechniques79SVM—MarginsandSupportVectors17十二月2022DataMining:Concep7980SVM—当数据线性可分时mD为(X1,y1),…,(X|D|,y|D|),其中Xi

带标签yi的训练元组有无数条直线(hyperplanes)可以分离两个类,但我们需要发现最好的一个(对未知数据有最小化的分类误差)SVMsearchesforthehyperplanewiththelargestmargin,i.e.,maximummarginalhyperplane(MMH)21SVM—当数据线性可分时mD为(X1,y1),…,8081SVM—线性可分一个分离超平面可以写成W●X+b=0W={w1,w2,…,wn}权重向量和标量b(bias)对于2-D,可以写成w0+w1x1+w2x2=0超平面定义了边缘的边界:H1:w0+w1x1+w2x2≥1foryi=+1,andH2:w0+w1x1+w2x2≤–1foryi=–1任何一个位于超平面H1orH2(i.e.,thesidesdefiningthemargin)的样本为supportvectors最大边缘是2/‖w‖→max是一个

cons

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论