机器学习实验报告-朴素贝叶斯学习和分类文本_第1页
机器学习实验报告-朴素贝叶斯学习和分类文本_第2页
机器学习实验报告-朴素贝叶斯学习和分类文本_第3页
机器学习实验报告-朴素贝叶斯学习和分类文本_第4页
机器学习实验报告-朴素贝叶斯学习和分类文本_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、机器学习实验报告朴素贝叶斯学习和分类文本(2015年度秋季学期)一、 实验内容问题:通过朴素贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类二、 实验设计实验原理与设计:在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表这个事物。类别也是有很多种,用集合y=y1,y2,ym表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(classification)。x的集合记为x,称为属性集。一般x和y的关系是不确定

2、的,你只能在某种程度上说x有多大可能性属于类y1,比如说x有80%的可能性属于类y1,这时可以把x和y看做是随机变量,p(y|x)称为y的后验概率(posterior probability),与之相对的,p(y)称为y的先验概率(prior probability)1。在训练阶段,我们要根据从训练数据中收集的信息,对x和y的每一种组合学习后验概率p(y|x)。分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出所有的p(y|x), 其中最大的那个y,即为x所属分类。根据贝叶斯公式,后验概率为 在比较不同y值的后验概率时,分母p(x)总是常数,因此可以忽略。先验概率p(y)可以通过计算训

3、练集中属于每一个类的训练样本所占的比例容易地估计。在文本分类中,假设我们有一个文档dx,x是文档向量空间(document space),和一个固定的类集合c=c1,c2,cj,类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,xc。例如:=beijing joins the world trade organization, china对于这个只有一句话的文档,我们把它归类到 china,即打上china标签。我们期望用某种训练算法,训练出一个函数,能够将文档映射到某一个类别: :xc这种类型的学习方法叫做有监督学习,因为事先有一个监督者(我们事先

4、给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习。实验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采用极易中文分词组件2、先验概率计算,n表示训练文本集总数量。3、条件概率计算,为在条件a下发生的条件事件b发生的条件概率。x给定的文本属性,c给定的分类4、对给定的文本进行分类三、测试数据训练集文本:数据样例选用sogou实验室的文本分类数据的mini版本类别及标号测试数据文本:通过观察可知,该文本预期为it类文章三、 实验结果运行结果如下图根据数据集的分类编号可知,该测试文本属于it,与预期相符五、遇到的困难及解决方法、心得体会通过此次实验,让我对朴素贝叶斯有了更深刻的理解,原本只是了解基本的先验概率公式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论