dataminingch5-分类算法数据仓库与数据挖掘_第1页
dataminingch5-分类算法数据仓库与数据挖掘_第2页
dataminingch5-分类算法数据仓库与数据挖掘_第3页
dataminingch5-分类算法数据仓库与数据挖掘_第4页
dataminingch5-分类算法数据仓库与数据挖掘_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《数据仓库与数据挖掘》分类算法:学习邮电大学计算机应用中心朴素

分类器实例:文本分类主要内容法则法则和概念学习2推理提供了推理的一种概率两个基本假设a)待考查的量遵循某概率分布b)可根据这些概率及已观察到的数据进行推理,以作出最优的决策推理对机器学习十分重要它为衡量多个假设的置信度提供了定量的方法为直接操作概率的学习算法提供了基础为其他算法的分析提供了理论框架法则3法则概率学习系统的一般框架各种量的概率分布观察数据概率学习机假设及概率极大后验假设4法则机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设最佳假设:在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设理论提供了一种基于假设的先验概率、以及观察到的数据本身计算假设概率的方法各种量的概率分布观察数据概率学习机假设及概率极大后验假设5后基本术语D:训练数据H:

假设空间h:

假设P(h):假设h的先验概率(Prior

Probability)即没有训练数据前假设h拥有的初始概率P(D):训练数据的先验概率即在没有确定某一假设成立时D的概率P(D|h):似然度,在假设h成立的情况下,观察到D的概率法验概则率,给定训练数据D时h成立的概率6定理P(D|h)

P(h)P(h|D)

=P(D)后验概率正比于P(h)和P(D|h)反比于P(D)D独立于h出现的概率越大,则D对h的支持度越小公式是

学习的基础,它提供了根据先验概率P(h)、P(D)以及观察概率P(D|h),计算后验概率P(h|D)的方法法则7极大后验( um

a

posteriori,

MAP)假设给定数据D和H中假设的先验概率,具有最大后验概率的假设hhMAP

=

argmax

P(h|D)hHP(D|h)

P(h)=argmaxhH

P(D)=

argmax P(D|h)

P(h)法则hH不依赖假设h为一个常量8法则极大似然假设( um

Liklihood,ML)当H中的假设具有相同的先验概率时,给定h,使P(D|h)最大的假设hML:=argmax

P(D|h)hHhML

=

argmax

P(h|D)hHP(D|h)

P(h)=argmaxhH

P(D)=argmax P(D|h)

P(h)hH不依赖假设h为一个常量910法则公式极大后验(um

a

posteriori,

MAP)假设计算公式极大似然(计算公式P(D)P(h

|

D)

P(D

|

h)P(h)计算P(h|D)的方法给定数据D时可能性最大的假设h∈HhMAP

argmax

P(h

|

D)P(D)P(D

|

h)P(h)hHhH

argmax

argmax

P(D

|

h)P(h)hHum

likelihood,ML)假设P(D)不依赖于h

argmax

P(D

|

h)hHhML使P(D|h)(给定h时数据D的似然度)最大的假设法则举例:一个天气估计问题两个假设H:

h1={晴天}、h2={非晴天}可观察到的数据:温度高+和温度低-先验知识p(h)晴天的概率0.99:P(h1)=0.99非晴天0.01:P(h2)=0.01观察到的概率P(D|h):P(温度高|晴天)=0.85度低|非晴天)=0.93现在观察到温度低,判断是否非晴天?11法则极大后验计算P(非晴天|温度低)∝P(温度低|非晴天)*P(温度低)=0.93*0.01

=

0.0093P(晴天|温度低)∝P(温度低|晴天)*P(温度高)=0.15*0.99

=

0.1485答案:晴天12极大似然计算P(非晴天|温度低)∝P(温度低|非晴天)=

0.93P(晴天|温度低)∝P(温度低|晴天)=

0.15法则答案:非晴天13问题:新来的

的检查结果为,应如何诊断?法则另一个例子:医疗两个假设H:h1={问题有 }

h2={

无}可观察数据为化验结果:(正)和Θ(负)先验知识:P(cancer)=0.008观察数据:P(

|

cancer

)

0.98P(

|

cancer

)

0.97142020/11/2715法则—示例无可选的假设:

;P(cancer

)

0.008P(

|

cancer

)

0.98P(

|

cancer

)

0.03假定有一

,化验测试,该

有 否?因此,P(cancer

)

0.992P(

|

cancer

)

0.02P(

|

cancer

)

0.97P(

|

cancer

)P(cancer

)

(0.98)

(0.008)

0.0078P

cancer P

cancer

()|()0(.03)(0.

992

0.0)

298hMAP

注:

(1)推理的结果很大地依赖于先验概率;(2)并没有完全地被接受或

假设,而只是在观察到较多的数据后假设的可能性增大或减小了。hMAPhH

argmax

P(D

|

h)P(h)乘

则:P(AB)=P(A|B)P(B)=P(B|A)P(A)加

则:P(AB)=P(A)+P(B)-P(AB)法则:P(h|D)=P(D|h)P(h)/P(D)全概率法则:如果事件A1...An互斥,且满足ni1

P(Ai

)

1

,则i1基本概率公P(B式)

表nP(B

|

Ai

)P(

Ai

)16朴素

分类器实例:文本分类主要内容法则法则和概念学习17法则和概念学习

法则为计算给定训练数据下任一假设的后验概率提供了原则性方法概念学习问题定义在实例空间X上的有限的假设空间H,任务是学习某个目标概念c:X→{0,1}Brute-Force

MAP学习算法对于H中每个假设h,计算后验概率P(h

|

D)

P(D

|

h)P(h)输出有最高后验概率的假设hMAP

argmax

P(h

|

D)hHBrute-Force算法需要计算每个假设的后验概率,计算复杂度较高18P(D)MAP假设和一致学习器假定训练数据D是无噪声的,即di=c(xi)目标概念c包含在假设空间H中每个假设的概率相同从而由于所有假设的概率之和是1,因此由于训练数据无噪声,那么给定假设h时,与h一致的D|

H

|191的概率为1,不一致的概率为0,因此P(h)i

i

i0

otherwise1

d

,

d

h(x

)P(D

|

h)

P(D)

P(D)每个一致的假设都是MAP假设MAP假设和一致学习器考虑Brute-Force

MAP算法h与D不一致P(h

|

D)

h与D一致

0P(D)0

P(h)1

1201P(h

|D)

|

H

|

|

H

|

MAP假设和一致学习器P(D)的计算因此|

VSH

,D

|1|

H

||

VSH

,D

|1P(D)P(h

|

D)

|

H

|

|

H

|

21|

H

|1

|

VSH

,D

||

H

|0

1

|

H

|P(D)

P(D

|

hi

)P(hi)hi

Hi H,Di H,Di H,D1

1

|

H

|1

1

h

VSh

VSh

VSM假设的概率演化情况初始时所有假设具有相同的概率当训练数据逐步出现后,不一致假设的概率变为0,而整个概率的和为1,它们均匀分布到剩余的一致假设中22MA 设和一致学习器一致学习器如果某个学习器输出的假设在训练样例上为0错误率,则称为一致学习器如果H上有均匀的先验概率,且训练数据是确定性和无噪声的,任意一致学习器将输出一个MAP假设Find-S算法按照特殊到一般的顺序搜索架设空间H,并输出一个极大特殊的一致假设,因此可知在上面定义的P(h)和P(D|h)概率分布下,它输出MAP假设更一般地,对于先验概率偏袒于更特殊假设的任何概率分布,Find-S输出的假设都是MAP假设因此:框架提出了一种刻画学习算法(如Find-S算法)行为的方法,即使该学习算法不进行概率操作23小结学习的重要性能够计算显式的假设概率,是解决相应学习问题的最有实际价值的方法之一段,而这些算法不为理解其它学习算法提供了一种有效一定直接操作概率数据特点观察到的每个训练样例可以增量式地降低或升高某假设的估计概率其他算

在某个假设与任一样例不一致时完全去掉该假设先验知识可以与观察数据一起决定假设的最终概率方法可允许假设做出不确定性的比如今天是晴天的概率为93%24难点需要概率的初始知识当这概率预先未知时,可以基于背景知识、预先准备好的数据以及关于基准分布的假定来估计这些概率一般情况下确定最优假设的计算代价比较大(同候选假设的数量成线性关系)小结25朴素

分类器实例:文本分类主要内容法则法则和概念学习26前面我们

的问题是给定训练数据,最可能的假设是什么?另一个相关的更有意义的问题是给定训练数据,对新实例的最可能的分类是什么?最优分类器27最优分类器最优分类器如果新实例的可能分类可取某集合V中的任一值vj,那么概率P(vj|D)表示新实例分类为vj的概率P(vj

|

D)

P(vj

|

hi

)P(hi

|

D)hi

Hhi

Hv

j

V新实例的最优分类为使P(vj|D)最大的vj值,为:arg

max

P(vj

|

hi

)P(hi

|

D)28例子假设空间H:包含三个假设h1,h2,h3给定数据D时,三个假设的后验概率分别是P(h1|D)

=0.4,

P(h2

|D)

=

0.3,

P(h3

|D)

=

0.3若一新实例x被h1分类为正,被h2和h3分类为反问题:给出x的分类?最优分类器29hi

H例子已知:新实例的可能分类集合为V={+,-}P(h1|D)=0.4,

P(-|h1)=0,

P(+|h1)=1P(h2|D)=0.3,

P(-|h2)=1,

P(+|h2)=0P(h3|D)=0.3,

P(-|h3)=1,

P(+|h2)=0因此

P(

|

hi

)P(hi

|

D)

0.4hi

H

P(

|

hi

)P(hi

|D)

0.6Dh)|P()h|(v最优i

分类器j

{,

},

i

Hhv

Hhiij30最优分类器最优分类器能从给定训练数据中获得最好的性能,但算法的开销很大31朴素分类器学习任务给定训练集合D={(xi,yi)},其中每个实例x=<

a1,...,an

>,由属性值的合取描述,yi∈

V学

个分类函数f(x)对新给定的实例xnew=<a1,...,an>,得到最可能的目标值vMAPvMAP

argmax

P(vj

|

a1,...,an

)v

j32朴素分类器使用公式

arg

max

P(a1

,...,an

|

v

j

)P(vj

)v

j

V基于训练数据估计p(v)和p(x|v)估计P(vj)很容易计算每个目标值vj出现在训练数据中的频率估计P(a1,...an|vj)遇到数据稀疏问题除非有一个非常大的训练数据集,否则无法获得可靠的估计P(a1

,...,an

)P(a1

,...,an

|

v

j

)P(vj

)MAPvjv

V

arg

max33朴素分类器独立性假设在给定目标值时,属性值之间相互条件独立,即P(a1,...,an

|

vj

)

P(ai

|

vj

)i最终的朴素分类器v

j

VvNB

argmax

P(vj

)P(ai

|

vj

)i34从训练数据中估计不同P(ai|vj)项的数量比要估计P(a1,...,an|vj)项所需的量小得多只要条件独立性得到满足,朴素

分类vNB等于MAP分类,否则是近似朴素

分类器与其他学习方法的区别没有明确地搜索可能假设空间的过程假设的形成不需要搜索,只是简单地计算训练样例中不同数据组合的出现频率朴素 分类器35给新实例分类:朴<O素utle分mper类atur器e=cool,Humidity=high,Wind=strong>例子36朴素 分类器朴素分类器P

P(cool|no)P(high|no)P(strong|no)=0.0206vj

j

j

j

jP(v

)P(sunny

|

v

)P(cool|

v

)P(high

|

v

)P(strong

|

v

)j根据上计算出上式需要的概率值P(yes)=9/14=0.64P(no)=5/14=0.36P(strong|yes)=3/9=0.33P(strong|no)=3/5=0.60...求vNBP(yes)P(sunny|yes)P(cool|yes)P(high|yes)P(strong|yes)=0.0053arg

maxv

{yes,no}j

i

i

jjv

{yes,no}

arg

max

P(v

)

P(a

|

v

)NBv37m是

为等效样本大小的常量朴素•本分大小类的原器因是将n个实际的观察样本扩大,加上m拟样本估计概率我们通过在全部事件基础上观察某事件出现的比例来估计概率当样本很小时,采用平滑技术,m-估计nc

mpn

mp是将要确定的概率的先验估计在缺少其他信息时,选择p的一种典型的方法是均匀概率,比如某属性有k个可能值,那么p=1/k38朴素

分类器实例:文本分类大纲法则法则和概念学习39文本分类问题框架实例空间X包含了所有的文本文档给定某未知目标函数f(x)的一组训练样例D={(xi,f(xi))},f(x)的值来自某有限集合V任务是从训练样例中学习,

后续文本文档的目标值应用实例邮件我感

的电子机器学习的稿网页40分类器的两个主要问题:设计朴素文档的表示怎样将任意文档表示为属性值的形式概率的估计如何估计朴素

分类器所需的概率文本分类41文本分类假定:我们共有1000个训练文档其中700个分类为dislike,300个分类为like,现在要对下面的新文档进行分类:for

theThis

is

an

examplenaive

Bayes

classifier.

Thiscontains

only

one

paragraph,

or

twosentences.42文档的表示给定一个文本文档,对每个单词的位置定义一个属性,该属性的值为在此位置上找到的英文单词例如:以下文档This

is

anexample for

thenaive

Bayesclassifier.

This contains

only

oneparagraph,

or

twosentences可表示为19个属性每个属性的值a1=this,

a2=is,

a3=an,

…文本分类43文本分类概率估计此处

分类器隐含的独立性假设并不成立。通常,某个位置上出现某个单词的概率与前后位置上出现的单词是相关的但是在实践中,朴素学习器在许多文本分类问题中性能非常好19i1P

a1

this v

j

P

a19

sentences v

j

"v

j

{like

,dislike

}

P

v

jv

j

{like

,dislike

}

argmax

P(vj

)

P(ai

|

v

j

)vNB4445文本分类概率项P(vi)的估计P(vi)的估计:P(dislike)=0.7,p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论