




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
课程大纲朴素贝叶斯算法原理Bayes算法概述Bayes算法思想Bayes算法要点Python实现Python实现1、理解朴素贝叶斯算法的核心思想2、理解朴素贝叶斯算法的代码实现3、掌握朴素贝叶斯算法的应用步骤:数据处理、建模、运算和结果判定1.朴素贝叶斯分类算法原理1.1概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注:朴素的意思是条注:朴素的意思是条件概率独立性1.2算法思想如果一个事物在一些属性条件发生的情况下,事物属于A的概率>属于B的概率,则判在你的脑海中,有这么一个判断流程:1、这个人的肤色是黑色<特征>已知的是条件概率:p(黑色|非洲人)>3、没有其他辅助信息的情况下,最好的判断就是非洲人这就是朴素贝叶斯的思想基础。先验知识:先验知识:P(黑色|非洲人)=0.8P(讲英语|非洲人)=0.1P(黑色|美国人)=0.2P(讲英语|美国人)=0.9P(非洲人|(讲英语,黑色))朴朴素贝叶斯分类器P(美国人|(讲英语,黑色))P(非洲人|(讲英语,黑色))的分子=0.1*0.8*0.5=0.04P(美国人|(讲英语,黑色))的分子=0.9*0.2*0.5=0.09从而比较这两个概率的大小就等价于比较这两个分子的值:可以得出结论,此人应该是:美国人我们的判断结果就是:此人来自美国!p(A|xy)=p(Axy)/p(xy)=p(Axy)/p(x)p(y)=p(A)/p(x)*p(A)/p(y)*p(xy)/p(xy)=p(A|x)p(A|y)讲了上面的小故事,我们来朴素贝叶斯分类器讲了上面的小故事,我们来朴素贝叶斯分类器的表示形式:别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即1.3算法要点1.3.1算法步骤1、分解2、计算各类数据中,各特征的条件概率BpB属于C类的概率p(C|特征1)......)征2、特征3、特征4......4、计算各特征的各条件概率的乘积,如下所示:判断为A类的概率:p(A|特征1)*p(A|特征2)*p(A|特征3)*p(A|特征4).....判断为B类的概率:p(B|特征1)*p(B|特征2)*p(B|特征3)*p(B|特征4).....判断为C类的概率:p(C|特征1)*p(C|特征2)*p(C|特征3)*p(C|特征4).....5、结果中的最大值就是该样本所属的类别1.3.2算法应用举例大众点评、淘宝等电商上都会有大量的用户评论,比如:00现在需要使用朴素贝叶斯分类算法来自动分类其他的评论,比如:b格1.3.3算法应用流程1、分解出先验数据中的各特征(即分词,比如“衣服”“质量太差”“差”“不纯”“帅”“漂亮”,“赞”……)2、计算各类别(好评、差评)中,各特征的条件概率3、计算类别概率P(好评|(c1,c2,c5,c8))的分子=p(“c1”|好评)*p(“c2”|好评)*……p(好评)P(好评|(c1,c2,c5,c8))的分子=p(“c1”|差评)*p(“c2”|差评)*……p(差评)5、显然P(差评)的结果值更大,因此a被判别为“差评”2.朴素贝叶斯分类算法案例12.1需求有以下先验数据,使用bayes算法对未知类别数据分类帖子内容类别'my','dog','has','flea','problems','help','please'0'maybe','not','take','him','to','dog','park','stupid'1'my','dalmation','is','so','cute','I','love','him'0'stop','posting','stupid','worthless','garbage'1'mr','licks','ate','my','steak','how','to','stop','him'0'quit','buying','worthless','dog','food','stupid'1'love','my','dalmation'stupidgarbage'??2.2模型分析跟1.3.2节中的举例基本一致,中文换成英文即可(1)词表到词向量的转换函数fromfromnumpyimport*#过滤网站的恶意留言#创建一个实验样本defloadDataSet():postingList=[['my','dog','has','flea','problems','help','please'],['maybe','not','take','him','to','dog','park','stupid'],['my','dalmation','is','so','cute','I','love','him'],['stop','posting','stupid','worthless','garbage'],['mr','licks','ate','my','steak','how','to','stop','him'],['quit','buying','worthless','dog','food','stupid']]classVec=[0,1,0,1,0,1]returnpostingList,classVec#创建一个包含在所有文档中出现的不重复词的列表defcreateVocabList(dataSet):vocabSet=set([])#创建一个空集fordocumentindataSet:vocabSet=vocabSet|set(document)#创建两个集合的并集returnlist(vocabSet)#将文档词条转换成词向量defdefsetOfWords2Vec(vocabList,inputSet):returnVec=[0]*len(vocabList)#创建一个其中所含元素都为0的向量forwordininputSet:ifwordinvocabList:#returnVec[vocabList.index(word)]=1一次出现的位置词集模型returnVec[vocabList.index(word)]+=1else:print"theword:%sisnotinmyVocabulary!"%wordec#index函数在字符串里找到字符第#文档的词袋模型每个单词可从词向量计算概率#朴素贝叶斯分类器训练函数从词向量计算概率deftrainNB0(trainMatrix,trainCategory):numTrainDocs=len(trainMatrix)numWords=len(trainMatrix[0])pAbusive=sum(trainCategory)/float(numTrainDocs)#p0Num=zeros(numWords);p1Num=zeros(numWords)#p0Denom=0.0;p1Denom=0.0p0Num=ones(numWords);#避免一个概率值为0,最后的乘积也为0p1Num=ones(numWords);#用来统计两类数据中,各词的词频p0Denom=2.0;#用于统计0类中的总数p1Denom=2.0#用于统计1类中的总数foriinrange(numTrainDocs):iftrainCategory[i]==1:p1Num+=trainMatrix[i]p1Denom+=sum(trainMatrix[i])p0Num+=trainMatrix[i]p0Denom+=sum(trainMatrix[i])#p1Vect=p1Num/p1Denom#p0Vect=p0Num/p0Denomp1Vect=log(p1Num/p1Denom)p0Vect=log(p0Num/p0Denom)出是由太多很小的数相乘得到的returnp0Vect,p1Vect,pAbusive中,每个次的发生概率#避免下溢出或者浮点数舍入导致的错误3)根据现实情况修改分类器注意:主要从以下两点对分类器进行修改①贝叶斯概率需要计算多个概率的乘积以获得文档属于某个类别的概率,即计算pwpw1)p(w2|1)。如果其中一个概率值为0,那么最后的乘积也为0免下溢出或者浮点数舍入导致的错误。##朴素贝叶斯分类器defclassifyNB(vec2Classify,p0Vec,p1Vec,pClass1):p1=sum(vec2Classify*p1Vec)+log(pClass1)p0=sum(vec2Classify*p0Vec)+log(1.0-pClass1)ifp1>p0:return1else:return0deftestingNB():listOPosts,listClasses=loadDataSet()eateVocabListlistOPoststrainMat=[]forpostinDocinlistOPosts:trainMat.append(setOfWords2Vec(myVocabList,postinDoc))pVpVpAb=trainNB0(array(trainMat),array(listClasses))testEntry=['love','my','dalmation']thisDoc=array(setOfWords2Vec(myVocabList,testEntry))printtestEntry,'classifiedas:',classifyNB(thisDoc,p0V,p1V,pAb)testEntry=['stupid','garbage']thisDoc=array(setOfWords2Vec(myVocabList,testEntry))printtestEntry,'classifiedas:',classifyNB(thisDoc,p0V,p1V,pAb)测试>>>>>>reload(bayes)<module‘bayes’from‘bayes
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年供应链风险管理体系构建与家电行业案例分析研究报告
- 小学科技节活动方案
- 联通活动促销方案
- 中国校园O2O行业发展监测及投资战略规划研究报告
- 中国汽车全景环视系统市场深度分析及行业前景展望报告
- 装修工程可行性研究报告
- 中国汽车防盗器行业市场调查研究及投资策略研究报告
- 农电工工作总结
- 银杏肉项目投资可行性研究分析报告(2024-2030版)
- 2024年中国塑料行业节能减排行业调查报告
- 社区工作者考试(选择题200题)带答案
- 2025年高校教师资格证之高等教育心理学通关题库附带答案
- 广东省2025年化学高一下期末教学质量检测模拟试题含解析
- 法院督办约谈制度方案
- 2025至2030全球及中国隔膜式氢气压缩机行业项目调研及市场前景预测评估报告
- 社区上半年安全生产工作总结
- 2025民用建筑智能配电设计标准
- 2025至2030中国精神病医院行业发展分析及发展趋势分析与未来投资战略咨询研究报告
- 2025年河南省中考英语试卷及答案
- 2025中国临床肿瘤学会CSCO肿瘤厌食-恶病质综合征诊疗指南解读课件
- 中国平安钻石俱乐部课件
评论
0/150
提交评论