数学建模的数据挖掘方法_第1页
数学建模的数据挖掘方法_第2页
数学建模的数据挖掘方法_第3页
数学建模的数据挖掘方法_第4页
数学建模的数据挖掘方法_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模的数据挖掘方法第1页,共93页,2023年,2月20日,星期五2、支持向量机(supportvectormachinesSVM)吴雄华第2页,共93页,2023年,2月20日,星期五

定义:设训练数据集为:

可以被一个超平面

分开,如果这个向量集(即训练数据集)被超平面没有错误的分开,且离超平面最近的向量与超平面之间的距离之和最大,则称此超平面为此向量集的最优(分类)超平面。如图1所示:1最优分类超平面第3页,共93页,2023年,2月20日,星期五对超平面方程两边乘以相同系数仍表示该平面,因此可以做如下假设:这样最优分类超平面应该满足如下条件:可以统一写为第4页,共93页,2023年,2月20日,星期五其中到平面

的距离为

为平面上任意一点。因此,

到平面

的最小距离为

第5页,共93页,2023年,2月20日,星期五要找到最优分类超平面,可以转换为如下的一个二次规划问题:引入Lagrange函数:

第6页,共93页,2023年,2月20日,星期五令相应的偏导数为即:代入原式,得到第7页,共93页,2023年,2月20日,星期五因此可以把上述二次规划转为它的对偶问题:解此二次规划可得到

其中

对应的

支持向量机由此而名。称为支持向量,第8页,共93页,2023年,2月20日,星期五由Kuhn-Tucker条件,最优超平面的系数b

可由

对应的方程

得到,这样便得到了最优分类超平面方程,进而可以用该方程进行分类:若

,则

,则

第9页,共93页,2023年,2月20日,星期五2.若数据在输入空间线性不可分,则出超平面的约束条件需引入松弛变量

,相应的得到如下的二次规划:第10页,共93页,2023年,2月20日,星期五若

,则

,则

按如上方法同理可得到其对偶问题:同样可以得到判别函数第11页,共93页,2023年,2月20日,星期五3.支持向量机支持向量机(Supportvectormachines,SVM)实现的是如下思想:通过某个非线性的映射将输入向量映射到一个更高维的空间中,使得这些样本在高维空间中线性可分,然后在该空间构造最优分类超平面。如图所示:第12页,共93页,2023年,2月20日,星期五同时注意到,在原空间中构造最优分类超平面主要解决两个问题:1、点积运算2、求解二次规划可以证明,在高维空间中构造最优分类超平面,也只需知道其点积运算即可,而不需要知道映射

的具体形式。

第13页,共93页,2023年,2月20日,星期五考虑Hilbert空间中内积的一个一般表达式:其中

是输入空间向量

空间在特征中的映像,根据Hilbert-Schmidt理论,

(CourantandHilbert,1953)可以是满足如下定理的任意对称函数定理(Mercer)

要保证L2下的对称函数能以正的系数

展开成

(即描述了在某特征空间中的一个内积)充分必要条件是:对满足的所有

条件

成立。第14页,共93页,2023年,2月20日,星期五在SVM中,满足上面定理的通常称为核函数空间中的点积运算。

,引入核函数的概念可以解决高维常用的核函数有:

多项式核函数:

高斯核函数:

这样便可在高维空间中的解决点积运算:第15页,共93页,2023年,2月20日,星期五这样只要把前面的点积运算用核函数代替,便可得到高维空间中相应的最优分类超平面。即例第16页,共93页,2023年,2月20日,星期五3、基于决策树的分类方法例1.下表是用于构造分类模型的数据集,包括14个样本和5个属性:Outlook、Temperature、Humidity、Windy和Play,其中前4个属性是天气,最后一个属性是根据前4个属性的情况说明这样的天气状况是否适合比赛。各属性取值如下:Outlook:sunny(s),overcast(o),rain(r);Temperature:hot(h),mild(m),cool(c);Humidity:high(h),normal(n);Windy:false,truePlay:Yes(y),no(n)第17页,共93页,2023年,2月20日,星期五训练样本集如下OutlookTempHumiWindyPlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN第18页,共93页,2023年,2月20日,星期五决策树是类似如下的一棵树OutlooksunnyrainovercastPlay=noPlay=yeswindyfalsePlay=yesTruePlay=no给定一个新的天气象:“rain,hot,high,true”,则判别其类别第19页,共93页,2023年,2月20日,星期五决策树的构造:分裂属性的选择四、基于信息增益的特征选择策略1.相关概念设信息源X的取值为A=(a1,a2,…,an),ai出现的概率为pi,称I(ai)=log(1/pi)=-logpi为ai的信息量;称为X的信息熵。第20页,共93页,2023年,2月20日,星期五决策树分类方法利用信息量增加(信息增益)作为特征选择的一种指标。信息增益衡量每个属性对分裂后的数据子集的信息量的贡献。假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,称为集合T的信息熵。如果m=1,即T的样本都属于一个类,则I(T)=0,达到最小值,何时I(T)达到最大?第21页,共93页,2023年,2月20日,星期五假设属性A把集合T划分为v个子集{T1,T2,..,Tv},其中Ti所包含的样本数为ni,那么划分后的熵就是:分裂后的信息增益定义为基于信息理论的特征选择方法就是逐一计算每种分裂的信息增益,选择信息增益最大的属性作为分裂属性。下面以前面给出的数据集为例,利用信息增益方法构造决策树。第22页,共93页,2023年,2月20日,星期五第一步:计算训练样本集T的信息量。分类属性Play有两个类,其样本数统计如下:因此T的信息量为:第二步:计算每个属性的信息增益,对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:样本集TPlay=yesPlay=no样本数95第23页,共93页,2023年,2月20日,星期五Outlook的信息熵为:OutlookPlay=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)32514第24页,共93页,2023年,2月20日,星期五Outlook的信息增益为:同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)31414第25页,共93页,2023年,2月20日,星期五Temperature的信息熵为:Temperature的信息增益为:第26页,共93页,2023年,2月20日,星期五对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其信息增益值分别为0.1653和0.0481.第27页,共93页,2023年,2月20日,星期五第三步:比较四个属性的信息增益,按大小顺序排列为Gain(Outlook)>Gain(Humidity)>Gain(Windy)>Gain(Temperature)因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast第28页,共93页,2023年,2月20日,星期五第二层结点的选择与首结点类似,具体选择过程如下:1)对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFY作为新样本集第29页,共93页,2023年,2月20日,星期五计算T的信息量为:对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101显然第30页,共93页,2023年,2月20日,星期五对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第31页,共93页,2023年,2月20日,星期五因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第32页,共93页,2023年,2月20日,星期五若取Temperature,则重新确定记录集如下:OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFYTempSunnyHighMPlay=NoPlay=No可以看出其三个分支H,C和M下的所有记录也属于相同的类,此分支算法结束。其分支结构如右:CPlay=Yes第33页,共93页,2023年,2月20日,星期五2)同理,对于Rain分支,统计数据如下:WindyRainFalseTruePlay=YesPlay=NoOutlook=RTempHumiWindyPlayMHFYCNFYCNTNMNFYMHTN因此选Windy其分支结构如右:第34页,共93页,2023年,2月20日,星期五3)同理,对于Overcast分支,统计数据如下:Play=Yes该分支下所有记录均为同一类,因此该分支算法结束,其结构如下右。Outlook=OvercastTempHumiWindyPlayHHFYCNTYMNTYMHTYHNFYOvercast第35页,共93页,2023年,2月20日,星期五综合以上结果,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第36页,共93页,2023年,2月20日,星期五决策树构造好后,给出新的对象便可判别其类别,例如,新的天气对象为:1)“Overcast,cool,high,False”2)“Rain,Mild,Normal,True”,其类别分别为:第37页,共93页,2023年,2月20日,星期五五、基于数据分布的特征选择策略除了基于信息增益的特征选择策略外,还可以根据结点的数据类别的分布来选择最优分裂结点,称之为GiniIndex方法。定义:假设训练集T包含n个样本,这些样本分别属于m个类,其中第i个类在T中出现的比例为pi,则T的GiniIndex定义为:假设属性A把集合T划分为v个子集{T1,T2,..,Tv},其中Ti所包含的样本数为ni,那么这个划分的GiniIndex为:第38页,共93页,2023年,2月20日,星期五GiniIndex的特征选择方法就是逐一计算按每个属性分裂后的GiniIndex值,选择giniIndex值最小的属性作为分裂属性。下面以前面给出的数据集为例,利用GiniIndex选择策略构造决策树的过程。对总样本进行统计如下:样本集TPlay=yesPlay=no样本数95样本集T的giniIndex值为第39页,共93页,2023年,2月20日,星期五对于Outlook属性,它有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:OutlookPlay=yesPlay=nototalSunny(T1)134Overcast(T2)505Rain(T3)325每个子集的GiniIndex值如下:因此属性Outlook的GiniIndex值为:第40页,共93页,2023年,2月20日,星期五同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nototalhot(T1)224mild(T2)426cool(T3)314因此属性Temperature的GiniIndex值为:第41页,共93页,2023年,2月20日,星期五对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=nototalNormal(T1)347high(T2)61714WindyPlay=yesPlay=nototalTrue(T1)336False(T2)62814计算其GiniIndex值分别为0.3674和0.4357.第42页,共93页,2023年,2月20日,星期五第三步:比较四个属性的GiniIndex值如下:因此应该选Outlook作为首分裂结点,即决策树的形状为:OutlookSunnyRainOvercast属性OutLTempHumiWindyGiniIndex值0.27850.3750.36740.4357第43页,共93页,2023年,2月20日,星期五第二层结点的选择与首结点类似,具体选择过程如下:对于“Sunny”的分支,从原数据集T中统计出Outlook属性值为sunny的样本作为新的数据集T。Outlook=STempHumiWindyPlayTHHFNHHTNMHFNCNFY第44页,共93页,2023年,2月20日,星期五对于Temperature属性,简单统计如下:TemperaturePlay=yesPlay=nototalhot(T1)022mild(T2)011cool(T3)101第45页,共93页,2023年,2月20日,星期五对于Humidity属性,简单统计如下:显然HumidityPlay=yesPlay=nototalNormal(T1)101high(T2)033WindyPlay=yesPlay=nototalF(T1)123T(T2)011第46页,共93页,2023年,2月20日,星期五因此Sunny分支下的分裂属性可选Temperature或Humidity,若取Humidity,则其属性H和N下的记录都为相同的类,该分支算法结束。OutlookTempHumiWindyPlaySHHFNSHHTNSMHFNSCNFY其分支结构如下:HumiditySunnyHighNormalPlay=NoPlay=Yes第47页,共93页,2023年,2月20日,星期五剩下的计算类似,最后得到决策树如下:OutlookTempSunnyHighMPlay=NoPlay=NoCPlay=YesWindyFalsePlay=YesPlay=NoTrueRainPlay=YesOvercast第48页,共93页,2023年,2月20日,星期五六、信息增益和GiniIndex值的另一个应用考虑如下问题:预测贷款申请者是否会按时归还贷款,历史数据如下:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K否2否已婚100K否3否单身70K否4是已婚120K否5否离异95K是6否已婚60K否7是离异220K否8否单身85K是9否已婚75K否10否单身90K是第49页,共93页,2023年,2月20日,星期五对于“年收入”属性,它是连续型变量,按前面决策树的构造方法,应该每个属性都是离散型属性。为此,应该把连续型属性划分成若干个区间,这样把该属性化为离散型属性。简单的,若划分为两个区间,如何划分?可以用信息增益或GiniIndex值方法。步骤如下:把连续型属性值由小到大排列,取每两个值的中间值作为候选划分点:类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172第50页,共93页,2023年,2月20日,星期五然后计算按各个候选划分点划分的信息增益或GiniIndex值,例如,用GiniIndex值方法如下:类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172对于候选点65,划分后类别统计如下类=N类=Y<65(T1)10>=65(T2)63第51页,共93页,2023年,2月20日,星期五类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172对于候选点72,划分后类别统计如下类=N类=Y<70(T1)20>=70(T2)53第52页,共93页,2023年,2月20日,星期五类NNNYYYNNNN值607075859095100120125220候选划分点657280879297110122172对于候选点80,对于候选点87,对于候选点92,对于候选点97,对于候选点110,对于候选点122,对于候选点172,最佳候选点第53页,共93页,2023年,2月20日,星期五根据上面的分析,可把“年收入”属性划分成两个区间(0,97)和[97,10000)分别设为属性A1和A2,则原数据集变为:顾客Id有房婚姻状况年收入拖欠贷款1是单身125K(A2)否2否已婚100K(A2)否3否单身70K(A1)否4是已婚120K(A2)否5否离异95K(A1)是6否已婚60K(A1)否7是离异220K(A2)否8否单身85K(A1)是9否已婚75K(A1)否10否单身90K(A1)是第54页,共93页,2023年,2月20日,星期五再按前面的方法构造决策树,便可对类似的顾客:“否,单身,100K”进行分类判别。第55页,共93页,2023年,2月20日,星期五七、朴素贝叶斯分类法1.朴素贝叶斯分类方法描述

设样本集T有n个属性:A1,A2,…,An,可能的类别有m个:C1,C2,…,Cm,待分类的样本为x={X1,X2,…Xn},分别计算条件概率:则条件概率P(Ci|X)最大所对应的类Ci即为X所在的类。在公式(1)中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比较大小即可。

第56页,共93页,2023年,2月20日,星期五各概率的计算如下:

另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时有:2.条件概率

P(xj|Ci)的估计第57页,共93页,2023年,2月20日,星期五条件概率

P(xj|Ci)的估计值分两种情况情形1.第j个属性Aj为离散型

的情况此时,条件概率P(xj|Ci)可按如下公式计算:第58页,共93页,2023年,2月20日,星期五例1:给定训练样本集如下,请用贝叶斯方法判别对象:“rain,hot,high,true”的类别。OutlookTempHumiWindyPlaySHHFNSHHTNOHHFYRMHFYRCNFYRCNTNOCNTYSMHFNSCNFYRMNFYOMNTYOMHTYOHNFYRMHTN第59页,共93页,2023年,2月20日,星期五解:分类属性Play有两个类,Play=yes(C1)和其Play=no(C2),样本数统计如下:于是P(C1)=9/14,P(C2)=5/14对于Outlook属性,数据汇总如下表:样本集TPlay=yes(C1)Play=no(C2)样本数95第60页,共93页,2023年,2月20日,星期五于是各条件概率为:OutlookC1(Y)C2(N)Sunny13Overcast50Rain32Total95,,,第61页,共93页,2023年,2月20日,星期五同理对于Temperature属性,它也有3个属性值,把样本集T分成3个子集,每个子集的类别统计如下:TemperaturePlay=yesPlay=nohot22mild42cool31total95于是各条件概率为:,,,第62页,共93页,2023年,2月20日,星期五对于Humidity属性和Windy属性,统计如下:HumidityPlay=yesPlay=noNormal34high61total95WindyPlay=yesPlay=noTrue33False62total95试计算其“条件概率”。第63页,共93页,2023年,2月20日,星期五对于待分类样本:分别计算以下两个概率:=0.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274

,因此

为第二类,即不适合比赛。

第64页,共93页,2023年,2月20日,星期五情形2.第j个属性Aj为连续型

的情况tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离婚220否8否单身85是9否已婚75否10否单身90是考虑如下的训练样本集,如何判别样本的类别?第65页,共93页,2023年,2月20日,星期五属性“年收入”为连续型数据类型,此时如果再用公式

来估计条件概率已不合适,例如,若新样本的“年收入”为110K,则类似的新样本将无法判别。

有两种策略可以用了估计连续型属性的条件概率:1.把连续属性离散化;2.用概率分布来估计条件概率第66页,共93页,2023年,2月20日,星期五1.把连续属性离散化如前面构造决策树的GiniIndex或信息增益方法,把连续属性划分成几个区间,即连续属性离散化。按前面所述,如果把“年收入”划分成两个区间,则最佳的候选划分点为97K,对应区间为

(0,97)和[97,10000)。通过计算类Ci中属性“年收入”落入对应区间的比例来估计条件概率即把训练数据集修改为下表第67页,共93页,2023年,2月20日,星期五tid有房婚姻状况年收入<97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是用Bayes方法估计每个条件概率后,对新给出的任何样本都可以判别。第68页,共93页,2023年,2月20日,星期五2.用概率分布来估计条件概率假设连续型属性服从某种概率分布(通常假设服从正态分布),然后用训练数据估计出分布的参数,进而计算相应的条件概率。如上例中,假设“年收入”属性为随机变量

对于每个类

Ci,属性值xj属于类Ci的概率为

和分别为类Ci中随机变量xj的期望和方差可分别用

Ci中xj的观察值的样本均值和标准差估计。第69页,共93页,2023年,2月20日,星期五如上表数据中“年收入”数据,分别属于两类,设类别C1=“否”,C2=“是”,对应的观察值如下:类别

C1=“否”的两个参数估计如下:

年收入125100701209560220857590拖欠贷款否否否否是否否是否是类别C1=“否”的两个参数估计为:第70页,共93页,2023年,2月20日,星期五

同理,类别C2=“是”的两个参数估计为:对于新样本

可以估计“年收入”属性相应的条件概率为:

第71页,共93页,2023年,2月20日,星期五

下面用上述方法来判别新样本数据汇总如下:样本集所属的类别。

类别C1(No)C2(Yes)total73属性“有房”C1(No)C2(Yes)是30否43Total73第72页,共93页,2023年,2月20日,星期五

属性“婚姻状况”C1(No)C2(Yes)离异11单身22已婚40Total73对于属性“年输入”,已估计相应的条件概率为:第73页,共93页,2023年,2月20日,星期五

由以上概率计算样本

相应的条件概率为:

因此新样本属于第二类,即“是”拖欠贷款。问题1:有一个属性的类条件概率为0,则整个类的后验概率就等于0,如果样本

的类条件概率X应该如何判别?第74页,共93页,2023年,2月20日,星期五

问题2:对于连续型属性Xj,估计条件概率时把它视为连续型随机变量,估计的条件概率为那么,这样估计是否合理?内的类条件概率为问题2的解释:但我们知道,对于连续型随机变量,有假设Xj落在区间对于连续型属性Xj的每个取值xj,都使用同一个小正数在比较时,

果,因此公式(5)仍可以用了估计相应的条件概率。成为一个常数乘法因此,不影响比较结第75页,共93页,2023年,2月20日,星期五

对于问题1,通常使用m值法来估计条件概率以解决这种情况。m值估计法:条件概率的估计值用下式进行估计其中,n为训练样本中类Ci的总实例数,nc为Ci类中取值为xj的实例数,m和p是用户事先给定的参数。一般m为正整数,p是位于0与1之间的小数。例.设m=10,p=1/4,试对前面所给的数据重新估计离散型属性的各条件概率。第76页,共93页,2023年,2月20日,星期五tid有房婚姻状况年收入<97K拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是第77页,共93页,2023年,2月20日,星期五最临近分类算法(K-临近算法)数据挖掘分类算法之第78页,共93页,2023年,2月20日,星期五一、引例下图给出了二分类训练样本,待判样本当K=5时,可以找K个与待判样本最临近的样本所在的类别作为参考。绿色圆将被赋予红色三角形那个类;当K=3时,因此绿色圆被赋予蓝色四方形类。绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?第79页,共93页,2023年,2月20日,星期五二、基本思想形象解释:K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思想是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。“如果走像鸭子,叫像鸭子,看起来还像鸭子,那么它就很可能是一只鸭子。”第80页,共93页,2023年,2月20日,星期五在KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。样本z的k-最临近是指和z距离最小的k个数据点。最临近分类器把每个样本看成d维空间的一个数据点,其中d是属性个数。给定一个测试样本z,使用前面介绍的任意一种临近性度量,计算该测试样本与训练集中其他数据点的临近度。第81页,共93页,2023年,2月20日,星期五图1-c图1-b图1-a下图给出待判数据点的1-最临近、2-最临近和3-最临近示意图。判为负类随机判别判为正类第82页,共93页,2023年,2月20日,星期五给定训练样本集D和最临近数k计算待判样本与D中每个样本的距离选择与z距离最小的k个样本组成集合Dk待判样本zK-最临近算法流程图根据Dk中样本的类别,按少数服从多数的原则决定z的类别结束第83页,共93页,2023年,2月20日,星期五例1设训练样本集如下表,xi0.5

3.0

4.54.

64.9

5.2

5.3

5.5

7.0

9.5

y

--

+

+

+

+

请根据1-最临近、3-最临近、5-最临近及7-最临近,分别对样本x=5.0进行分类判别。第84页,共93页,2023年,2月20日,星期五解:待判样本x=0.5与训练样本间的距离平方(欧氏距离)计算如下表:xi0.5

3.0

4.54.

64.9

5.2

5.3

5.5

7.0

9.5

d220.2540.2560.1640.0110.0420.0930.2554720.25y

--

+

+

+

+

按7-最临近,x应为+类。因此,按1-最临近,x应为+类;按3-最临近,x应为-类;按5-最临近,x应为+类;第85页,共93页,2023年,2月20日,星期五思考:改进思路1:根据距离加权判别;改进思路2:选择不同的k值判决后,再按少数服从多数的原则重新表决(二次表决法);改进思路3:结合改进思路1和2进行改进(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论