版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、-. z数据挖掘8:朴素贝叶斯分类算法原理与实践隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下根本原理,再以文本分类实践。一个简单的例子朴素贝叶斯算法是一个典型的统计学习方法,主要理论根底就是一个贝叶斯公式,贝叶斯公式的根本定义如下:这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,*看出特征,P(Yk|*)就是在特征*的情况下求Yk类别的概率,而对P(Yk|*)的计算又全部转化到类别Yk的特征分布上来。举个例子,大学的时候,*男生经常去图书室晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是
2、每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,图书馆又不开空调,如果那个女生没有去自修室,该男生也就不去,每次男生鼓足勇气说:嘿,你明天还来不?,啊,不知道,看情况。然后该男生每天就把她去自习室与否以及一些其他情况做一下记录,用Y表示该女生是否去自习室,即Y=去,不去,*是跟去自修室有关联的一系列条件,比方当天上了哪门主课,蹲点统计了一段时间后,该男生打算今天不再蹲点,而是先预测一下她会不会去,现在已经知道了今天上了常微分方法这么主课,于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程),看哪个概率大,如果P(Y=去|常微分方程) P(Y=不去|常
3、微分方程),那这个男生不管多热都屁颠屁颠去自习室了,否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下,那天主课是常微分的概率P(常微分方程|Y=去),注意公式右边的分母对每个类别去/不去都是一样的,所以计算的时候忽略掉分母,这样虽然得到的概率值已经不再是01之间,但是其大小还是能选择类别。后来他发现还有一些其他条件可以挖,比方当天星期几、当天的天气,以及上一次与她在自修室的气氛,统计了一段时间后,该男子一计算,发现不好算了,因为总结历史的公式:这里n=3,*(1)表示主课,*(2)表示天气,*(3)表示星期几,*(4)表示气氛,Y仍然是去,不去,现在主课有8门
4、,天气有晴、雨、阴三种、气氛有A+,A,B+,B,C五种,则总共需要估计的参数有8*3*7*5*2=1680个,每天只能收集到一条数据,则等凑齐1680条数据大学都毕业了,男生打呼不妙,于是做了一个独立性假设,假设这些影响她去自习室的原因是独立互不相关的,于是有了这个独立假设后,需要估计的参数就变为,(8+3+7+5)*2 = 46个了,而且每天收集的一条数据,可以提供4个参数,这样该男生就预测越来越准了。朴素贝叶斯分类器讲了上面的小故事,我们来朴素贝叶斯分类器的表示形式:当特征为为*时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此
5、计算时可以不考虑分母,即朴素贝叶斯的朴素表达在其对各个条件的独立性假设上,加上独立假设后,大大减少了参数假设空间。在文本分类上的应用文本分类的应用很多,比方垃圾和垃圾短信的过滤就是一个2分类问题,新闻分类、文本情感分析等都可以看成是文本分类问题,分类问题由两步组成:训练和预测,要建立一个分类模型,至少需要有一个训练数据集。贝叶斯模型可以很自然地应用到文本分类上:现在有一篇文档dDocument,判断它属于哪个类别ck,只需要计算文档d属于哪一个类别的概率最大:在分类问题中,我们并不是把所有的特征都用上,对一篇文档d,我们只用其中的局部特征词项nd表示d中的总词条数目,因为很多词项对分类是没有价
6、值的,比方一些停用词的,是,在在每个类别中都会出现,这个词项还会模糊分类的决策面,关于特征词的选取,我的这篇文章有介绍。用特征词项表示文档后,计算文档d的类别转化为:注意P(Ck|d)只是正比于后面那局部公式,完整的计算还有一个分母,但我们前面讨论了,对每个类别而已分母都是一样的,于是在我们只需要计算分子就能够进展分类了。实际的计算过程中,多个概率值P(tj|ck)的连乘很容易下溢出为0,因此转化为对数计算,连乘就变成了累加:我们只需要从训练数据集中,计算每一个类别的出现概率P(ck)和每一个类别中各个特征词项的概率P(tj|ck),而这些概率值的计算都采用最大似然估计,说到底就是统计每个词在
7、各个类别中出现的次数和各个类别的文档的数目:其中,Nck表示训练集中ck类文档的数目,N训练集中文档总数;Tjk表示词项tj在类别ck中出现的次数,V是所有类别的词项集合。这里对词的位置作了独立性假设,即两个词只要它们出现的次数一样,那不管它们在文档的出现位置,它们大概率值P(tj|ck)都是一样,这个位置独立性假设与现实很不相符,比方放马屁跟马放屁表述的是不同的容,但实践发现,位置独立性假设得到的模型准确率并不低,因为大多数文本分类都是靠词的差异来区分,而不是词的位置,如果考虑词的位置,则问题将表达相当复杂,以至于我们无从下手。然后需要注意的一个问题是ti可能没有出现在ck类别的训练集,却出
8、现在ck类别的测试集合中,这样因为Tik为0,导致连乘概率值都为0,其他特征词出现得再多,该文档也不会被分到ck类别,而且在对数累加的情况下,0值导致计算错误,处理这种问题的方法是采样加1平滑,即认为每个词在各个类别中都至少出现过一次,即下面这个例子来自于参考文献1,假设有如下的训练集合测试集:现在要计算docID为5的测试文档是否属于China类别,首先计算个各类的概率,P(c=China)=3/4,P(c!=China)=1/4,然后计算各个类中词项的概率:注意分母8+6中8表示China类的词项出现的总次数是8,+6表示平滑,6是总词项的个数,然后计算测试文档属于各个类别的概率:可以看出
9、该测试文档应该属于CHina类别。文本分类实践我找了搜狗的搜狐新闻数据的历史简洁版,总共包括汽车、财经、it、*等9类新闻,一共16289条新闻,搜狗给的数据是每一篇新闻用一个t*t文件保存,我预处理了一下,把所有的新闻文档保存在一个文本文件中,每一行是一篇新闻,同时保存新闻的id,id的首字母表示类标,预处理并分词后的例如如下:我用6289条新闻作为训练集,剩余1万条用于测试,采用互信息进展文本特征的提取,总共提取的特征词是700个左右。分类的结果如下8343总共10000条新闻,分类正确的8343条,正确率0.8343,这里主要是演示贝叶斯的分类过程,只考虑了正确
10、率也没有考虑其他评价指标,也没有进展优化。贝叶斯分类的效率高,训练时,只需要扫描一遍训练集,记录每个词出现的次数,以及各类文档出现的次数,测试时也只需要扫描一次测试集,从运行效率这个角度而言,朴素贝叶斯的效率是最高的,而准确率也能到达一个理想的效果。我的实现代码如下:1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878
11、88990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128#!encoding=utf-8importrandomimportsysimportmathimportcollectionsimportsysdefshuffle():将原来的文本打乱顺序,用于得到训练集和测试集datas =line.strip() forline insys.stdinrandom.shuffle(datas)forline indatas:printl
12、ine lables =A,B,C,D,E,F,G,H,Ideflable2id(lable):fori in*range(len(lables):iflable =lablesi:returniraiseE*ception(Error lable %s%(lable)defdocdict():return0*len(lables)defmutalInfo(N,Nij,Ni_,N_j):#print N,Nij,Ni_,N_jreturnNij *1.0/N *math.log(N *(Nij+1)*1.0/(Ni_*N_j)/math.log(2)defcountForMI():基于统计每个
13、词在每个类别出现的次数,以及每类的文档数docCount =0 *len(lables)#每个类的词数目wordCount =collections.defaultdict(docdict) forline insys.stdin:lable,te*t =line.strip().split( ,1)inde* =lable2id(lable0) words =te*t.split( )forword inwords:wordCountwordinde* +=1docCountinde* +=1miDict =collections.defaultdict(docdict)#互信息值N =su
14、m(docCount)fork,vs inwordCount.items():fori in*range(len(vs):N11 =vsiN10 =sum(vs) -N11N01 =docCounti -N11N00 =N -N11 -N10 -N01mi =mutalInfo(N,N11,N10+N11,N01+N11) +mutalInfo(N,N10,N10+N11,N00+N10)+mutalInfo(N,N01,N01+N11,N01+N00)+mutalInfo(N,N00,N00+N10,N00+N01)miDictki =mifWords =set()fori in*range
15、(len(docCount):keyf =lambda*:*1isortedDict =sorted(miDict.items(),key=keyf,reverse=True)forj in*range(100):fWords.add(sortedDictj0)printdocCount#打印各个类的文档数目forfword infWords:printfworddefloadFeatureWord():导入特征词f =open(feature.t*t)docCounts =eval(f.readline()features =set()forline inf:features.add(lin
16、e.strip()f.close()returndocCounts,featuresdeftrainBayes():训练贝叶斯模型,实际上计算每个类中特征词的出现次数docCounts,features =loadFeatureWord()wordCount =collections.defaultdict(docdict) tCount =0*len(docCounts)#每类文档特征词出现的次数forline insys.stdin:lable,te*t =line.strip().split( ,1)inde* =lable2id(lable0) words =te*t.split( )
17、forword inwords:ifword infeatures:tCountinde* +=1wordCountwordinde* +=1fork,v inwordCount.items():scores =(vi+1) *1.0/(tCounti+len(wordCount) fori in*range(len(v)#加1平滑print%st%s%(k,scores)defloadModel():导入贝叶斯模型f =open(model.t*t)scores =forline inf:word,counts =line.strip().rsplit(t,1) scoresword =ev
18、al(counts)f.close()returnscoresdefpredict():预测文档的类标,标准输入每一行为一个文档docCounts,features =loadFeatureWord() docscores =math.log(count *1.0/sum(docCounts) forcount indocCountsscores =loadModel()rCount =0docCount =0forline insys.stdin:lable,te*t =line.strip().split( ,1)inde* =lable2id(lable0) words =te*t.split( )preValues =list(docscores)forword inwords:ifword infeatures: fori in*range(len(preValues):preValuesi+=math.log(scoreswordi)m =ma*(preValues)pInde* =preValues.inde*(m)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 和过招作文课程设计
- 集成电路课程设计VGA
- 认识机器人steam课程设计
- 过控原理课程设计
- 生命教育的课程设计
- 2024项目用款借款协议式样
- 二手房子首付协议书范文模板
- 现货合同模板
- 2024年度年福建省高校教师资格证之高等教育心理学考前冲刺试卷B卷含答案
- 2024年度山西省高校教师资格证之高等教育法规测试卷(含答案)
- 十二指肠溃疡伴穿孔的护理查房
- 市场营销策划(本)-形考任务三(第八~十章)-国开(CQ)-参考资料
- 中信证券测评真题答案大全
- 部编版小学六年级道德与法治上册全册知识点汇编
- 数字时代的数字化政府
- 文旅推广短片策划方案相关7篇
- 2023-2024学年高中主题班会燃激情之烈火拓青春之华章 课件
- 中医药文化进校园-中医药健康伴我行课件
- 市政管道开槽施工-市政排水管道的施工
- 居住建筑户型分析
- 机电一体化职业生涯
评论
0/150
提交评论