朴素贝叶斯多项式模型_第1页
朴素贝叶斯多项式模型_第2页
朴素贝叶斯多项式模型_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朴素贝叶斯分类--多项式模型1.多项式模型简介朴素贝叶斯分类器是一种有监督学习,针对文本分类常见有两种模型,多项式模型(词频型)和伯努利模型(文档型)。多项式模型以单词为粒度,伯努利模型以文件为粒度。对于一个文档A,多项式模型中,只有在A中出现过的单词,才会参与后验概率计算。2.多项式模型基本原理及实例2.1基本原理已知类别c={“c2,c3,…,CJ与文档集合D={D“2,…设某一文档£的词向量为£={片1,d.2,…片1}(可重复)设训练文档中出现的单词(单词出现多次,只算一次)即语料库为V对于待分类文档A={X1,码厂肌}'则有:1)计算文档类别的先验概率PC=DjWc'Dj'丄i(£p(c.)则可以认为是类别q在整体上占多大比例(有多大可能性)。某单词d门在类别C,下的条件概率Jlj1P(%(q—%+1p(%(q可以看作是单词%在证明£属于类q上提供了多大的证据。对于待分类文档A被判为类C』勺概率假设文档A中的词即%码,…化相互独立,则有PC.nAPapAC.i—iiPA~_PA—pqpAi,a2,-a.c.P~APCPACPAC-PACi1i2imiPA对于同一文档PA—定,因此只需计算分子的值。多项式模型基于以上三步,最终以第三步中计算出的后验概率最大者为文档A所属类别。2.2实例给定一组分好类的文本训练数据,如下:docIDdoc类别(yesno)1ChineseBeijingChineseyes2ChineseChineseShanghaiyes3ChineseMacaoyes4TokyoJapanChineseno给定一个新样本A,对其进行分类。该文本词向量表示为A={Chinese,Chinese,Chinese,Tokyo,Japan},类另U集合为C二{yes,no}.解题步骤:类yes下总共有8个单词,类no下总共有3个单词,训练样本单词总数为V=11,因此P(yes)=8/11,P(no)=3/11。类条件概率计算如下:P(Chinese|yes)=(5+1)/(8+6)=6/14=3/7P(Japan|yes)=P(Tokyo|yes)=(0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo|no)=(1+1)/(3+6)=2/9分母中的8,是指yes类别下单词(可重复记)的长度,也即训练样本的单词总数,6是指训练样本有Chinese,Beijing,Shanghai,Macao,Tokyo,Japan共6个单词,3是指no类下共有3个单词。有了以上类条件概率,开始计算后验概率:P(yes|A)=(3/7)3x(1/14)x(1/14)x(8/11)=216/739508=0.00029209P(no|A)=(2/9)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论