数据挖掘导论第四章_第1页
数据挖掘导论第四章_第2页
数据挖掘导论第四章_第3页
数据挖掘导论第四章_第4页
数据挖掘导论第四章_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘导论Pang-ningTan,MichaelStieinbach,andVipinKumar著PearsonEducationLTD.范明等译人民邮电出版社第4章分类:基本概念、决策树

与模型评估引言:预备知识,解决分类问题的一般方法决策树归纳模型的过分拟合评估分类器的性能引言24十月2023数据挖掘导论4分类:定义Givenacollectionofrecords(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclass.Findamodelforclassattributeasafunctionofthevaluesofotherattributes.Goal:previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestsetisusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit24十月2023数据挖掘导论5分类:解释24十月2023数据挖掘导论6分类任务的例子肿瘤:Predictingtumorcellsasbenignormalignant信用卡交易:Classifyingcreditcardtransactions

aslegitimateorfraudulent蛋白质结构:Classifyingsecondarystructuresofprotein

asalpha-helix,beta-sheet,orrandomcoil新闻:Categorizingnewsstoriesasfinance,

weather,entertainment,sports,etc24十月2023数据挖掘导论7分类:技术DecisionTreebasedMethodsRule-basedMethodsMemorybasedreasoningNeuralNetworksNaïveBayesandBayesianBeliefNetworksSupportVectorMachines4.3决策树归纳24十月2023数据挖掘导论924十月2023数据挖掘导论10决策树:例子categoricalcategoricalcontinuousclassSplittingAttributesTrainingDataModel:DecisionTreeYESNONONOYesNoMarried

Single,Divorced<80K>80KRefundMarStTaxInc24十月2023数据挖掘导论11决策树树中包含三种结点根结点(rootnode):没有入边,有零条或多条出边内部结点(internalnode):恰有一条入边和两条或多条出边叶结点(leafnode)或终端结点(terminalnode):恰有一条入边,但没有出边24十月2023数据挖掘导论12决策树分类任务:应用模型DecisionTree24十月2023数据挖掘导论13决策树:使用模型TestDataStartfromtherootoftree.YESNONONOYesNoMarried

Single,Divorced<80K>80KRefundMarStTaxInc24十月2023数据挖掘导论14决策树:使用模型TestDataYESNONONOYesNoMarried

Single,Divorced<80K>80KRefundMarStTaxInc24十月2023数据挖掘导论15决策树:使用模型TestDataYESNONONOYesNoMarried

Single,Divorced<80K>80KRefundMarStTaxIncRefund

Marital

Status

Taxable

Income

Cheat

No

Married

80K

?

10

24十月2023数据挖掘导论16决策树:使用模型TestDataYESNONONOYesNoMarried

Single,Divorced<80K>80KRefundMarStTaxIncRefund

Marital

Status

Taxable

Income

Cheat

No

Married

80K

?

10

24十月2023数据挖掘导论17决策树:使用模型TestDataYESNONONOYesNoMarriedSingle,Divorced<80K>80KRefundMarStTaxIncRefund

Marital

Status

Taxable

Income

Cheat

No

Married

80K

?

10

24十月2023数据挖掘导论18决策树:使用模型TestDataYESNONONOYesNoMarriedSingle,Divorced<80K>80KRefundMarStTaxIncRefund

Marital

Status

Taxable

Income

Cheat

No

Married

80K

?

10

AssignCheatto“No”24十月2023数据挖掘导论19决策树分类任务:学习模型DecisionTree24十月2023数据挖掘导论20决策树归纳ManyAlgorithms:Hunt’sAlgorithm(oneoftheearliest)CARTID3,C4.5SLIQ,SPRINT24十月2023数据挖掘导论21Hunt算法的一般结构LetDt

bethesetoftrainingrecordsthatreachanodetGeneralProcedure:IfDt

containsrecordsthatbelongthesameclassyt,thentisaleafnodelabeledasytIfDt

isanemptyset,thentisaleafnodelabeledbythedefaultclass,ydIfDtcontainsrecordsthatbelongtomorethanoneclass,useanattributetesttosplitthedataintosmallersubsets.Recursivelyapplytheproceduretoeachsubset.24十月2023数据挖掘导论22Hunt算法:例Don’tCheatRefundDon’tCheatDon’tCheatYesNoRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarriedTaxableIncomeDon’tCheat<80K>=80KRefundDon’tCheatYesNoMaritalStatusDon’tCheatCheatSingle,DivorcedMarried24十月2023数据挖掘导论23决策树归纳Greedystrategy.Splittherecordsbasedonanattributetestthatoptimizescertaincriterion.IssuesDeterminehowtosplittherecordsHowtospecifytheattributetestcondition?Howtodeterminethebestsplit?DeterminewhentostopsplittingDiscussabovethreeissuesindetails24十月2023数据挖掘导论24如何指定属性测试条件DependsonattributetypesNominalOrdinalContinuousDependsonnumberofwaystosplit2-waysplitMulti-waysplit24十月2023数据挖掘导论25划分:标称属性Multi-waysplit:Useasmanypartitionsasdistinctvalues.Binarysplit:Dividesvaluesintotwosubsets.Needtofindoptimalpartitionfromallpossiblepartitions.CarTypeFamilySportsLuxuryCarType{Sports,Luxury}{Family}CarType{Family,Luxury}{Sports}CarType{Sports,Family}{Luxury}24十月2023数据挖掘导论26划分:序数属性Multi-waysplit:Useasmanypartitionsasdistinctvalues.Binarysplit:Dividesvaluesintotwosubsets.Needtofindoptimalpartitionfromallpossiblepartitions.Whataboutthissplit?SizeSmallMediumLargeSize{Medium,

Large}{Small}Size{Small,Medium}{Large}Size{Small,Large}{Medium}24十月2023数据挖掘导论27划分:连续属性DifferentwaysofhandlingDiscretizationtoformanordinalcategoricalattributeStatic–discretizeonceatthebeginningCanbetreatedasordinalattributeDynamic–rangescanbefoundbyequalintervalbucketing,equalfrequencybucketing(percentiles),orclustering.BinaryDecision:(A<v)or(Av)considerallpossiblesplitsandfindsthebestcutcanbemorecomputeintensive24十月2023数据挖掘导论28划分:连续属性(续)TaxableIncome>97K?YesNo(ii)BinarysplitTaxableIncome?(i)Multi-waysplit<10K[10K,25K)[25K,50K)[50K,80K)>80K24十月2023数据挖掘导论29如何确定最佳划分BeforeSplitting:10recordsofclass0,

10recordsofclass1Whichtestconditionisthebest?OwnCar?C0:6C1:4C0:4C1:6C0:1C1:3C0:8C1:0C0:1C1:7CarType?YesNoFamilySportsLuxuryC0:1C1:0C0:1C1:0C0:0C1:1StudentID?...c1c10c20C0:0C1:1...c1124十月2023数据挖掘导论30如何确定最佳划分(续)Greedyapproach:NodeswithhomogeneousclassdistributionarepreferredNeedameasureofnodeimpurityNon-homogeneous,HighdegreeofimpurityHomogeneous,Lowdegreeofimpurity24十月2023数据挖掘导论31结点的不纯度结点的不纯度设有c个类,t是结点,p(i|t)表示给定结点t中属于类i的记录所占的比例EntropyGiniIndexMisclassificationerror24十月2023数据挖掘导论32标准比较不同的不纯性度量是一致的对于二类问题24十月2023数据挖掘导论33划分的增益划分的增益设结点parent上有N个记录设结点parent被划分成k部分,即parent有k个子女v1,…,vk设I(vj)是结点vj的不纯度,则划分的增益为其中,N(vj)是结点vj的记录数,I(.)可以是entropy(.),Gini(.),error(.)等反映结点parent划分为v1,…,vk后不纯度的降低越大,越有利于分类信息增益(informationgain)当不纯度用entropy度量时,称为信息增益info(Gain)24十月2023数据挖掘导论34如何确定最佳划分(续)基本思想如果采用二元划分,则对非二元属性确定最佳划分对于分类和序数属性,需要考虑所有可能对于连续属性,如果不离散化,需要采用二元划分如何确定最佳划分点,见后面的例子属性最佳划分是不纯度最低的划分对每个属性的最佳划分,计算划分增益结点的最佳划分是划分增益最大的属性(最佳)划分24十月2023数据挖掘导论35连续属性的最佳划分点确定最佳划分点把属性值由小到大排序v(1)

v(2)

v(k)(取相邻值的中点为划分点:如果v(i)<v(i+1),则取(v(i)+v(i+1))/2为划分点评估每个划分点,选取不纯度最低的划分SplitPositionsSortedValuesCheatNoNoNoYesYesYesNoNoNoNoTaxableIncome60707585909510012012522055657280879297110122172230<=><=><=><=><=><=><=><=><=><=><=>Yes0303030312213030303030No0716253434343443526170Gini0.4000.3750.3430.4170.4000.3000.3430.3750.40024十月2023数据挖掘导论36连续属性的最佳划分点(续)确定连续属性的最佳划分点的计算开销可能很大需要计算k1个可能的划分点产生的划分的不纯度减少待考察的划分点方法如果v(i)<v(i+1),但是v(i)和v(i+1),是同类元组的取值,则最佳划分点一定不在v(i)和v(i+1)之间.SplitPositionsSortedValuesCheatNoNoNoYesYesYesNoNoNoNoTaxableIncome60707585909510012012522055657280879297110122172230<=><=><=><=><=><=><=><=><=><=><=>Yes0303030312213030303030No0716253434343443526170Gini0.3430.30024十月2023数据挖掘导论37增益率熵和Gini指标等不纯性度量往往有利于具有大量不同值的属性一个极端的例子:顾客ID(如身份证号)导致最纯的划分,但无助于分类解决方案使用二元划分使用增益率C0:1C1:0C0:1C1:0C0:0C1:1CostomerID?...c1c10c20C0:0C1:1...c1124十月2023数据挖掘导论38增益率(续)增益率是划分增益与划分信息的比GainRatio=/SplitInfo其中划分信息SplitInfo划分信息又称划分的熵用来克服信息增益的缺点C4.5采用增益率24十月2023数据挖掘导论39停止条件StopexpandinganodewhenalltherecordsbelongtothesameclassStopexpandinganodewhenalltherecordshavesimilarattributevaluesStopexpandinganodewhenthereisnoattributeavailableEarlytermination(tobediscussedlater)24十月2023数据挖掘导论40其他问题:缺失属性值如何让处理缺失属性值Missingvaluesaffectdecisiontreeconstructioninthreedifferentways:AffectshowimpuritymeasuresarecomputedAffectshowtodistributeinstancewithmissingvaluetochildnodesAffectshowatestinstancewithmissingvalueisclassified24十月2023数据挖掘导论41缺失属性值:计算不纯度量SplitonRefund:

Entropy(Refund=Yes)=0Entropy(Refund=No)

=–(2/6)log(2/6)–(4/6)log(4/6)=0.9183Entropy(Children)

=0.3(0)+0.6(0.9183)=0.551Gain=0.9(0.8813–0.551)=0.3303MissingvalueBeforeSplitting:

Entropy(Parent)

=–0.3log(0.3)–

(0.7)log(0.7)=0.881324十月2023数据挖掘导论42缺失属性值:实例分布RefundYesNoProbabilitythatRefund=Yesis3/9ProbabilitythatRefund=Nois6/9Assignrecordtotheleftchildwithweight=3/9andtotherightchildwithweight=6/9YesNoRefund24十月2023数据挖掘导论43缺失属性值:实例分类MarriedSingleDivorcedTotalClass=No3104Class=Yes6/9112.67Total3.67216.67Newrecord:RefundMarStTaxIncYESNONONOYesNoMarried

Single,

Divorced<80K>80KProbabilitythatMaritalStatus

=Marriedis3.67/6.67ProbabilitythatMaritalStatus={Single,Divorced}is3/6.674.3决策树归纳24十月2023数据挖掘导论45决策树归纳算法createdNode()为决策树建立新结点决策树的结点或者是一个测试条件,记作node.test_cond;或者是一个类标号,记作node.labe

find_best_split()确定应当选择哪个属性作为划分训练记录的测试条件计算

或GainRatioClassify(t)为叶结点t确定类标号TreeGrowth(E,F)E:当前数据集,F:当前属性集24十月2023数据挖掘导论46决策树归纳算法(续)算法4.1决策树归纳算法的框架TreeGrowth(E,F)1:ifstopping_cond(E,F)=truethen2:leaf=createNode()3:leaf.label=Classify(E)4:returnleaf

5:else6:root=createNode()7:root.test_cond=find_best_split(E,F)8:令V={v|v是root.test_cond的一个可能的输出}9:for每个v

Vdo10:Ev={e|root.test_cond(e)=v

并且e

E}11:child=TreeGrowth(Ev,F)12:将child作为root的派生结点添加到树中,并将边(root

child)标记为v13:endfor14:endif15:returnroot24十月2023数据挖掘导论47决策树:例WebRobot/CrawlerDetection建立分类模型,区分人类用户与Web机器人有Web服务器日志导出Web会话记录Web会话记录包含12个属性(见下页)数据集包含2916个记录Web机器人(类1)和人类用户(类2)会话的个数相等10%的数据用于训练90%的数据用于检验24十月2023数据挖掘导论48决策树:例(续)由Web服务器日志导出的Web会话记录属性描述totalPages一次Web会话提取的页面总数ImagePages一次Web会话提取的图像页总数TotalTime网站访问者所用的时间RepeatedAccess一次Web会话多次请求同一页面ErrorRequest请求网页的错误GET使用GET方式提出的请求百分比POST使用POST方式提出的请求百分比HEAD使用HEAD方式提出的请求百分比BreadthWeb遍历的宽度DepthWeb遍历的深度MultiIP使用多个IP地址的会话MultiAgent使用多个代理的会话24十月2023数据挖掘导论49决策树:例(续)决策树24十月2023数据挖掘导论50决策树:例(续)从以下4个方面区分出Web机器人和人类用户:Web机器人的访问倾向于宽而浅,而人类用户访问比较集中(窄而深)与人类用户不同,Web机器人很少访问与Web文档相关的图片页Web机器人的会话的长度趋于较长,包含了大量请求页面Web机器人更可能对相同的文档发出重复的请求,因为人类用户访问的网页常常会被浏览器保存24十月2023数据挖掘导论51决策树归纳的特点一般特点构建分类模型的非参数方法不要求任何先验假设,不假定类和其他属性服从一定的概率分布贪心的、自顶向下的递归划分策略建立决策树找到最佳的决策树是NP完全问题决策边界是直线(平面),平行于“坐标轴”24十月2023数据挖掘导论52决策树归纳的特点(续)优点快速建立模型,快速分类如果数据集可以放在内存,建立决策树很快分类时间复杂度:最坏情况下为O(w),其中w是树的最大深度分类准确率高特别适合包含固定属性(维度不高)的记录数据决策树相对容易解释小型决策树容易解释对于噪声的干扰具有相当好的鲁棒性可以采用避免过拟合的方法不受冗余属性、不相关属性影响自动选择最好的属性进行划分24十月2023数据挖掘导论53决策树归纳的特点(续)存在问题数据碎片(datafragmentation)问题在叶结点,记录可能太少,对于叶结点代表的类,不能做出具有统计意义的判决子树可能在决策树中重复多次使得决策树过于复杂,难以解释24十月2023数据挖掘导论54决策树归纳的特点(续)其他问题平行于坐标轴的边界限制了决策树的能力一个需要斜边界的例子使用斜边界x+y<1更好4.4模型的过分拟合24十月2023数据挖掘导论56概述训练误差vs泛化误差训练误差(trainingerror)又称再代入误差(resubstitutionerror),表现误差(apparenterror)模型在训练集上误分类样本所占的比例泛化误差(generalizationerror)模型在未知记录上的期望误差通常在检验集上估计,因此又称检验误差欠拟合vs过拟合欠拟合(underfitting):训练和检验误差都很大过拟合(overfitting):训练误差小,但检验误差大24十月2023数据挖掘导论57概述(续)训练误差和检验误差与模型复杂度的关系训练误差检验误差误差率结点数24十月2023数据挖掘导论58噪声导致的过拟合哺乳动物的分类问题训练集中,蝙蝠和鲸被错误地标记为非哺乳类动物这类错误可以视为噪声名称体温胎生4条腿冬眠哺乳动物豪猪猫蝙蝠鲸蝾螈科莫多巨蜥蟒蛇鲑鱼鹰虹鳉恒温恒温恒温恒温冷血冷血冷血冷血恒温冷血是是是是否否否否否是是是否否是是否否否否是否是否是否是否否否是是否*否*否否否否否否24十月2023数据挖掘导论59噪声导致的过拟合(续)检验数据集名称体温胎生4条腿冬眠哺乳动物人鸽子象豹纹鲨海龟企鹅鳗海豚针鼹希拉毒蜥

恒温恒温恒温冷血冷血冷血冷血恒温恒温冷血

是否是是否否否是否否

否否是否是否否否是是

否否否否否否否否是是

是否是否否否否是是否

24十月2023数据挖掘导论60噪声导致的过拟合(续)基于含噪声训练数据建立的决策树左:训练误差为0,但在检验集上,人和海豚都被误分类为非哺乳类动物.针鼹是个例外,其检验记录中的类标号与训练集中相似的记录的类标号相反右:训练误差20%,检验误差10%体温胎生4条腿是否是否哺乳类

动物非哺乳

类动物非哺乳

类动物恒温冷血胎生非哺乳

类动物是否哺乳类

动物非哺乳

类动物体温恒温冷血非哺乳

类动物24十月2023数据挖掘导论61缺乏代表性样本导致的过分拟合训练样本太少

缺乏代表性样本学习算法仍然继续细化模型过拟合例:一个小训练集名称体温胎生4条腿冬眠哺乳动物蝾螈虹鳉鹰弱夜鹰鸭嘴兽冷血冷血恒温恒温恒温否是否否否是否否否是是否否是是否否否否是24十月2023数据挖掘导论62缺乏代表性样本(续)基于小样本的决策树人、大象和海豚都被误分类体温冬眠4条腿是否是否哺乳类

动物非哺乳

类动物非哺乳

类动物恒温冷血非哺乳

类动物24十月2023数据挖掘导论63过拟合过拟合导致具有不必要的复杂度的决策树需要对决策树剪枝,降低复杂度如何评估一个分支是否需要剪去估计泛化误差在训练集上估计使用再代入估计结合模型复杂度估计统计上界在确认集(validationset)上估计确认集是训练集的一部分,不是检验集24十月2023数据挖掘导论64Occam剃刀Occam’sRazorGiventwomodelsofsimilargeneralizationerrors,oneshouldpreferthesimplermodeloverthemorecomplexmodelEinsteinEverythingshouldbemadeassimpleaspossible,butnotsimpler.24十月2023数据挖掘导论65估计泛化误差使用再代入误差:再代入误差就是训练误差假设训练数据集可以很好地代表整体数据提供对泛化误差的乐观估计,一般很难剪枝24十月2023数据挖掘导论66估计泛化误差(续)结合模型复杂度悲观误差评估最小描述长度悲观误差评估用训练误差与模型复杂度罚项的和估计泛化误差eg(T)其中,n(t)是结点t分类的训练记录数e(t)是被误分类的记录数k是决策树的叶结点数e(T)决策树的总训练误差Nt是训练记录数

(ti)是每个结点ti对应的罚项,

(T)是树的罚项(结点罚项和)24十月2023数据挖掘导论67悲观误差评估:例例:24个记录,TL有7个树叶,TR有4个树叶取

(ti)=0.5意味对于二路划分,(ti)=0.5意味只要减少一个错误就可以划分一个结点24十月2023数据挖掘导论68最小描述长度最小描述长度(MinimumDescriptionLength,MDL)原则Cost(Model,Data)=Cost(Data|Model)+Cost(Model)Costisthenumberofbitsneededforencoding.Searchfortheleastcostlymodel.Cost(Data|Model)encodesthemisclassificationerrors.Cost(Model)usesnodeencoding(numberofchildren)plussplittingconditionencodingABA?B?C?1001YesNoB1B2C1C224十月2023数据挖掘导论69使用确认集训练数据集分为两个较小的子集,一个子集用于训练,而另一个称作确认集,用于估计泛化误差典型的做法三分之二的训练集来建立模型三分之一用作误差估计优点:简单,较好地估计泛化误差缺点:减少了用于训练的记录24十月2023数据挖掘导论70处理过拟合:剪枝Pre-Pruning(EarlyStoppingRule)Stopthealgorithmbeforeitbecomesafully-growntreeTypicalstoppingconditionsforanode:StopifallinstancesbelongtothesameclassStopifalltheattributevaluesarethesameMorerestrictiveconditions:Stopifnumberofinstancesislessthansomeuser-specifiedthresholdStopifclassdistributionofinstancesareindependentoftheavailablefeatures(e.g.,using

2test)Stopifexpandingthecurrentnodedoesnotimproveimpuritymeasures(e.g.,Giniorinformationgain).24十月2023数据挖掘导论71处理过拟合:剪枝Post-pruningGrowdecisiontreetoitsentiretyTrimthenodesofthedecisiontreeinabottom-upfashionIfgeneralizationerrorimprovesaftertrimming,replacesub-treebyaleafnode.Classlabelofleafnodeisdeterminedfrommajorityclassofinstancesinthesub-treeCanuseMDLforpost-pruning24十月2023数据挖掘导论72后剪枝:例Class=Yes20Class=No10Error=10/30TrainingError(Beforesplitting)=10/30Pessimisticerror=(10+0.5)/30=10.5/30TrainingError(Aftersplitting)=9/30Pessimisticerror(Aftersplitting) =(9+40.5)/30=11/30

PRUNE!Class=Yes8Class=No4Class=Yes3Class=No4Class=Yes4Class=No1Class=Yes5Class=No1A?A1A2A3A424十月2023数据挖掘导论73后剪枝:例Web机器人检测决策树的后剪枝子树提升子树替换决策树:简化后的决策树:24十月2023数据挖掘导论74评估度量FocusonthepredictivecapabilityofamodelRatherthanhowfastittakestoclassifyorbuildmodels,scalability,etc.Accuracy:Mostwidely-usedmetric被正确分类样本所占的比例ConfusionMatrix(二类问题)PREDICTEDCLASSACTUAL

CLASSClass=YesClass=NoClass=YesabClass=Nocda:TP(truepositive)b:FN(falsenegative)c:FP(falsepositive)d:TN(truenegative)24十月2023数据挖掘导论75分类准确率的局限性Considera2-classproblemNumberofClass0examples=9900NumberofClass1examples=100Ifamodelpredictseverythingtobeclass0,itsaccuracyis9900/10000=99%Accuracyismisleadingbecausemodeldoesnotdetectanyclass1exampleWilldiscussinthenextchapter24十月2023数据挖掘导论76评估方法保持(Holdout)方法2/3用于训练,1/3用于检验局限性用于训练的被标记样本较少模型可能高度依赖于训练集和检验集的构成训练集越小,模型的方差越大;如果训练集太大,根据用较小的检验集估计的准确率又不太可靠随机二次抽样(randomsubsampling)重复保持方法k次模型准确率24十月2023数据挖掘导论77评估方法(续)交叉验证(cross-validation)k-foldcross-validationPartitiondataintokdisjointsubsetsk-fold:trainonk

1partitions,testontheremainingoneThisprocedureisrepeatedktimes,eachpartitionisusedfortestingexactlyonceLeave-one-out:k=nStratifiedk-foldcross-validationTheclassdistributionofsamplesineachfoldisapproximatlythesameasintheinitialdataStratified10-foldcross-validationisrecommendedRelativelylowbiasanvariance24十月2023数据挖掘导论78评估方法(续)自助法(bootstrap)采用有放回抽样得到自助样本,作为训练集自助样本大约包含原始数据中63.2%的记录一个记录被抽取的概率是1

(1

1/N)N

1

e

1=0.632未抽中的样本作为检验集抽样过程重复b次,产生b个自助样本计算分类准确率的.632自助法其中,

i是第i个分类器在检验集上的分类准确率,accs是第i个分类器在原数据集上的分类准确率比较分类器的性能24十月2023数据挖掘导论80检验的显著性Giventwomodels:ModelM1:accuracy=85%,testedon30instancesModelM2:accuracy=75%,testedon5000instancesCanwesayM1isbetterthanM2?HowmuchconfidencecanweplaceonaccuracyofM1andM2?Canthedifferenceinperformancemeasurebeexplainedasaresultofrandomfluctuationsinthetestset?24十月2023数据挖掘导论81准确率的置信区间PredictioncanberegardedasaBernoullitrialABernoullitrialhas2possibleoutcomesPossibleoutcomesforprediction:correctorwrongCollectionofBernoullitrialshasaBinomialdistribution:xBin(N,p)x:numberofcorrectpredictionse.g:Tossafaircoin50times,howmanyheadswouldturnup?

Expectednumberofheads=N

p=500.5=25Givenx(#ofcorrectpredictions)orequivalently,acc=x/N,andN(#oftestinstances),Canwepredictp(trueaccuracyofmodel)?24十月2023数据挖掘导论82

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论