




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习实验报告朴素贝叶斯学习和分类文本(2015年度秋季学期)、实验内容问题:通过朴素贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类、实验设计
实验原理与设计:在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物。类别也是有很多种,用集合Y=y1,y2,…ym表示。如果x属于y1类别,就可以给x打上y1标签,意思是说x属于y1类别。这就是所谓的分类(Classification)。*的集合记为X,称为属性集。一般X和Y的关系是不确定的,你只能在某种程度上说x有多大可能性属于类yl,比如说x有80%的可能性属于类yl,这时可以把X和Y看做是随机变量,P(Y|X)称为Y的后验概率(posteriorprobability),与之相对的,P(Y)称为Y的先验概率(priorprobability)1。在训练阶段,我们要根据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(Y|X)。分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出所有的P(Y|x),其中最大的那个y,即为x所属分类。根据贝叶斯公式,P(Y\X)=P(X\Y)P[Y}P(Y\X)=P(X\Y)P[Y}后验概率为在比较不同Y值的后验概率时,分母P(X)总是常数,因此可以忽略。先验概率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。在文本分类中,假设我们有一个文档d£X,X是文档向量空间(documentspace),和一个固定的类集合C={c1,c2,…,cj},类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合〈山。>作为训练样本,<d,c>£XXC。例如:<d,c>={BeijingjoinstheWorldTradeOrganization,China}对于这个只有一句话的文档,我们把它归类到China,即打上china标签。我们期望用某种训练算法,训练出一个函数Y,能够将文档映射到某一个类别:Y:X-C这种类型的学习方法叫做有监督学习,因为事先有一个监督者(我们事先给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴素贝叶斯分类器是一种有监督学习。实验主要代码:由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采用极易中文分词组件
publicclassChineseSpliter(/**k特定的知三4行三Kij再paramteict洽定的注本paramsplitToken用干Si■利的课里"比"|"力^return在河症早的毋ipublicstaticStringsplitfStringtexljStringsplitTokerStringresult=null;MMAnalyz^ranalyzer=n,MMAnal,yzer();tryresult=analyzer.seginent(te^tjsplitToken);catch(lOExceptione)e.printStackTrace();returnresultj先验概率计算,N表示训练文本集总数量。fpublizzlaaarriorFrcbabi1itirtzrivate启;:二TraininjDataEanag-eetdm=neT.<7"ainingDataKanage"();**先验概率Gpacam二给定的分类Oreturn给定条件下的先喊概率Vpi;bli2a:白;二二:二二百七caLculat之FtfEt=ingg-JzL?itrez=OF;三二ca:ITc=T±n,getTr-ainingFileCcunt^zula55i^ica-iDri{ci;IT=tim.getlrainingFileCcunt();re7-He『IT;returnre-;条件概率计算,为在条件A下发生的条件事件B发生的条件概率。x?给定的文本属性,c?给定的分类
2atati2:二3日:calciilazeFxc<STrirLjKrStrinjc)「……四・It-二日:I-l^c=t±rbg=tCuuzi;匚0n;□1口区吃丫口工二]niliudtj.口m{u,也,;zloatlie=tdin.二二自ininn三二二巳匚unnttf二1己331:二匚己士10口(匚,;zlD3t7=tim.jetlraningZlasaizizatiDELS().length;Mt=(Nxc-1)/{Me-M-5;〃为了避免出现二:这样极端情况,进行加权处理returnret;对给定的文本进行分类publicstringelasaizyI'Szrinj"extJtenns=ChireseSpliterrsplic(test,ri11hsplit(",);〃中文分词处理[分词后结果可能还包含有信用伺〕t==比①£七呼风工日口(正皿3”〃去掉停用同5以免星匆同分类ScringnClasses=tim.,gstlraningCldssifications()flc-atprcbilit^=0..OFrLLSLCCldS31*l-Re3LlL>CIS=H.SW&2匚己皿113K匚1日331二YRRSUI00;〃分类焙果(int±=0;i<01333£3..length;i++)StringCi-口!anm[i];"第:1个分类prebility=ca.lcPrcd(t£ms?Ci>;〃计苴给定的文本属性向里比"3在给定的分类ti中的分类条件概率“保存分蟒果ClassizyEesultcr=newClassizi'Reault();cr.LiassiricaEldq=11;"分类cr.prDbiLity=probi二匚¥;“关键字在分类的条件概率Svst-emrout-,print;ln("Inprocess--Pr,):Syjtem.out.pziat1n(Cit11:"+probility)}crs.add(cr);三、测试数据训练集文本:数据样例选用Sogou实验室的文本分类数据的mini版本.C000007.C000007.cooooos.COOOO1O.COOOO130000014C00001S.C000020COOOO22.COOOO23CW0024,ClasELiEt.brt2O1S/V320;1B文件夹2016/1/320:13文件夹2016/1732018文件夹2015/1/320:13文件夹2016/1/320;18文件夹2016/17320:10文件夹2O16/V320:18文件夹2016/1/320:18文件夹2016/1/32018文件夹2O1&/1/32糖13文件夹2006/10/2611:37立本文档类别及标号C000007汽车C000008财经C000010ITC000013健康C000014便育C000016旅游C000020教育C000022招聘C000023文化C000024军事测试数据文本:燃公司斜山4兆觐帅触响触中国网2月二日报道美联社消息,他就公司提出以氾启忆美元现金加股票的侑格收购搜索网站触必司,龈棉出以每股31美元的价格收购底虎。徵软的收购报价棚叫二月1日的收盘柏二一,*美瀚价晓仙桃处司通虎公司的股东可以选择以现金或股票进行交易。燃和雅虎公司在二式《年底和2口口?年初已在寻求双方合作口而近两年,底虐一直处于困it:市场份额下涓■1运营业震不佳、股价大幅下跌。对于力图瓶以网福有斫作为的制域说।雌鹿虎瑙是—荆监0M方具用潸强般补性口:小和通过观察可知,该文本预期为IT类文章三、实验结果运行结果如下图
Inproce5sC^^00734.0S54457E-7InprocessC&W00S:3.7337093E-9Inproce553.9367528E-4InprocessCW0@13:4.&463947E-11InprocessC&&e914L.395S&73E-Z®InprocessC^O016=L.436«195E-15InprocessCW«02©:6.3035146E-18InprocessC&W022:5.,2257925E-16Inprocess,,,.CW*023:Q.&S93S7E-22Inprocess
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 修理厂租房合同
- 中介房屋出租合同
- 建筑工地施工安全防范及免责条款合同
- 区住宅区物业管理委托合同
- 夫妻离婚合同协议书
- 智慧餐饮供应链管理系统开发及运营合同
- 成都商品房买卖合同
- 大连翻译职业学院《影视剧配音》2023-2024学年第二学期期末试卷
- 济源职业技术学院《产品结构设计》2023-2024学年第二学期期末试卷
- 铜仁职业技术学院《明清档案学》2023-2024学年第二学期期末试卷
- 幕墙工安全技术交底
- 集装箱七点检查表
- 7S管理标准目视化管理标准
- 篮球场改造工程投标方案(技术方案)
- 茉莉花的生长习性及栽培管理办法
- 蛤蟆先生去看心理医生
- 悬挑式卸料平台安拆作业安全技术交底
- 疾病诊断编码库ICD-10
- 脑血管造影病人的护理-课件
- 阿里巴巴管理精髓管理者必修的24招
- 西汉-北京大学历史学系教学课件
评论
0/150
提交评论