naivebayes朴素贝叶斯文本分类_第1页
naivebayes朴素贝叶斯文本分类_第2页
naivebayes朴素贝叶斯文本分类_第3页
naivebayes朴素贝叶斯文本分类_第4页
naivebayes朴素贝叶斯文本分类_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/3/101 naive贝叶斯文本分类 2021/3/102 朴素贝叶斯具有容易实现,运行速度 快的特点,被广泛使用 2021/3/103 朴素贝叶斯算法简介 在分类(classification)问题中,常常需要把一个事物分 到某个类别。一个事物具有很多属性,把它的众多属性 看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表 这个事物。 有类别集合 y=(y1,y2,y3,.yn) 分别计算 p(y1|x) p(y2|x) p(y3|x). p(yn|x), 如果p(yk|x) =max p(y1|x) p(y2|x) p(y3|x). p(yn|x) , x就属于y

2、k类。 2021/3/104 如何计算如何计算 p(y p(yk k|x)|x) 方法:运用贝叶斯公式方法:运用贝叶斯公式 p(y p(yk k|x)=p(x|y|x)=p(x|yK K) )* *p(yp(yk k)/p(x)/p(x) 在之前已介绍x=(x1,x2,x3,xn),朴素贝叶斯假设 x1,x2,x3,xn 是相互独立的(朴素贝叶斯存在的朴素贝叶斯存在的bug) 则有 p( x | yk ) = p( x1,x2,x3,xn|yk ) = p( x1 | yk ) *p( x2 | yk ) . *p( xn | yk ) (1) (1)式中等式最右边部分的各项是可以通过统计得到

3、的, p(yk)和p(x)也是已知的,这样我们就可以算出p(yp(yk k|x)|x) 2021/3/105 现在开始进入本文的主旨部分:如何将贝叶斯分类器应现在开始进入本文的主旨部分:如何将贝叶斯分类器应 用到用到语义消歧语义消歧文本分类上来。文本分类上来。 1 在文本分类中,假设我们有一个文档在文本分类中,假设我们有一个文档d 和一个固定的和一个固定的 类集合类集合C=c1,c2,cj 2 我们把一堆打了标签的文档集合我们把一堆打了标签的文档集合作为训练样本,作为训练样本, 比如比如 就是说文本就是说文本 “hello world” 的类型标签是的类型标签是computer 3 通过训练样

4、本来得到一个映射函数,可以把文本通过训练样本来得到一个映射函数,可以把文本x映射映射 到类型到类型ck中中 2021/3/106 计算映射函数的多项式模型计算映射函数的多项式模型 设某文档设某文档d=(t1,t2,tk),tk是该文档中出现过的单词是该文档中出现过的单词 ,允许重复允许重复 先验概率先验概率P(c)= 类类c下单词总数下单词总数/整个训练样本的单词总数整个训练样本的单词总数 类条件概率类条件概率P(tk|c)=(类类c下单词下单词tk在各个文档中出现过的次数之在各个文档中出现过的次数之和和+1)/ (类类c下单词总数下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个)是训练样本的单词表(即抽取单词,单词出现多次,只算一个) |V|则表示训练样本包含多少种单词。则表示训练样本包含多少种单词。 2021/3/107 演示文本分类 本程序通过事先从文档输入训练集,产生一个条件概率 矩阵,来指导之后的文本分类。在分类结果完成后,用 户可以选择分类是否正确,如果分类正确,新输入的结 果会作为新的训练加入训练集(昨晚才写完,可能有bug) 这体现了方法论中经验主义的的特点,在不断的分类中 分类器会不断学习,成长。 注:注:文档资料素材和资料部分文档资料素材和资料部分 来自网络,如不慎侵

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论