下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器学习试验报告朴实贝叶斯学习和分类文本(2022年度秋季学期)一、试验内容问题:通过朴实贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类 二、试验设计试验原理与设计:在分类(classification)问题中,经常需要把一个事物分到某个类别。一 个事物具有许多属性,把它的众多属性看做一个向量,即x=(xl/X2,x3,xn), 用x这个向量来代表这个事物。类别也是有许多种,用集合Y=yl,y2,ym表 示。假如x属于yl类别,就可以给x打上yl标签,意思是说x属于yl类别。 这就是所谓的分类(Classification)。x的集合记为X,称为属性集。一般X和Y 的关系
2、是不确定的,你只能在某种程度上说x有多大可能性属于类yl,比方 说x有80%的可能性属于类yl,这时可以把X和Y看做是随机变量,P(Y|X) 称为Y的后验概率(posterior probability),与之相对的,P(Y)称为Y的先验 概率(prior probability) 1。在训练阶段,我们要依据从训练数据中提供的信 息,对X和Y的每一种组合学习后验概率P(Y|X)O分类时,来了一个实例x, 在刚才训练得到的一堆后验概率中找出全部的P(Y|x),其中最大的那个y, 即为x所属分类。依据贝叶斯公式,后验概率为p(y|x)=p(y|x)=p(x|y)p(y)p(x)在比拟不同Y值的后验
3、概率时,分母P(X)总是常数,因此可以忽视。先 验概率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例简单 地估量。在文本分类中,假设我们有一个文档dX, X是文档向量空间(document space),和一个固定的类集合C=cl,c2,”cj,类别又称为标签。明显,文档 向量空间是一个高维度空间。我们把一堆打了标签的文档集合d,c作为训练 样本,d,cGXxCo 例如:d,c=Beijing joins the World Trade Organization, China对于这个只有一句话的文档,我们把它归类到China,即打上china标 签。我们期望用某种训练算法,训练出
4、一个函数V,能够将文档映射到某一 个类别:V:X玲C这种类型的学习方法叫做有监督学习,由于事先有一个监 督者(我们事先给出了一堆打好标签的文档)像个老师一样监督着整个学习 过程。朴实贝叶斯分类器是一种有监督学习。试验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特 征变量向量首先需要对文本进行中文分词。这里采纳极易中文分词组件public class ChineseSpliter(/*考治定的文本独行中文分巨param text洽定的文本Iparam splitToken 用于分S.的修力”|return分完亮早的文本/public static Strin
5、g split(String text,String splitToker String result = null;MMAnalyzer analyzer = new MMAnalyzer();try (result = analyzer.segment(text? splitToken);)catch (lOException e) (e.printStackTrace(); Ireturn result;)先验概率计算,N表示训练文本集总数量。public class FrierFrcbability (prirate static TrainingDataKanager tdiri =
6、new TrainingData2anager ();先验概率param c给定的分类return给定条件下的先验概率*/public static zlcat calculatePc(String c) (float ret = OF;zlcat Nc = tdm.getTrainingFileCcunt0fCla33ificaticn(c);float N = tdm.getTrainingFileCcunt(); ret = Nc / N; return ret;)条件概率计算,为在条件A下发生的条件大事B发生的条件概率。x给定的文本 属性,c给定的分类pub-11 c static f
7、lcat calculatePxc(String xr String c) ( float ret = OF;float Nxc = tdm.getCountCcntainKeyOfCla3sificaticn(cr x);flcat Nc = tdm.getTrainingFileCcunt0fCla33izicaticn(c);flcat V = tn.getTraning21a33izicaticn3).length;ret = (Nxc + 1) / (Nc + M + V); /为了防止出现。这样极端情况,进行加权处理 return ret;)对给定的文本进行分类public Str
8、ing classify(String text) String terms = null;terms= ChineseSpliter. split (text, ) .3plit(w );中文分词处理(分词后结果可能还包含有信用词) terms = DrcpSspWords (七erms);/去掉停用词,以免影响分类String Cla33e3 = tn.getTraningCla33ificaticns();flcat prcbility = 0.0F;Li3t cr3 = new AirayLi3Cla33ifYRe3ulc();分类结果 for (int i = 0; i Cla3se
9、s.length; i+) (String Ci = Classes i;第i个分类probility = calcFrcd(terms, Ui);计算给定的文本属性向里csms在给定的分类CTi中的分类条件概率 /保存分类结果 ClassifyResult cr = new Cla33ifyResult();cr. classification = Ci; 分类cr. probility = pebility;/关键字在分类的条件概率System, out .printin (wIn process .”);System.out.printin(Ci + prcbility);cr3.add
10、(cr);三、测试数据训练集文本:数据样例选用Sogou试验室的文本分类数据的mini版本C000007C000008,C000010COOOO13C000014C000016COOOO2OCOOOO22COOOO23C000024,ClassList.txt2016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182016/1/3 20:182006/10/26 11:37文件夹 文件夹 文件夹 文件
11、夹 文件夹 文件夹 文件夹 文件夹文件夹 文件夹文本文档类别及标号C000007 汽车C000008 财经C000010 ITC000013C000014C000016C000020C000022C000023C000024测试数据文本:微软公司提出以44 5亿美元的价格收购雅虎巾国网2月1日报道美联社消息,微软公司提出以4堂亿美元现金加股票的价格收购搜索网站雅虎公司。微软提出以每股31美元的价格收购雅虎。微软的收购报价较雅虎二月31日的收盘价19.工美元溢价微软公司称雅虎公司的股东可以选择以现金或 股票进行交易。微软和雅虎公司在20箕年底和2007年初已在寻求双方合作。而近两年,雅虎一直处于
12、困境:市场份额下滑、运营业绩不佳、股价大幅下跌。对于力图 在互联网市场有所作为的微软来说,收购雅虎无疑是一条捷径,因为双方具有非常强的互补性。(小桥)通过观看可知,该文本预期为IT类文章三、试验结果运行结果如下列图In process.C000007: 4.0854457E-7In process.C000008: 3.7337093E-9In process.C000010: 3.9367328E-4In process.C000013: 4.6463947E-11In process.C000014: 1.3958673E-20In process.C00O016: 1.4360195E-15In process.C000020: 6.3035146E-18In process.C000022: 5.2257925E-16In process.C000023: 9.089387E-22In p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024城市二手房买卖合同(32篇)
- 沪教版九年级化学上册(上海版)全套讲义
- 农业金融服务提升产量潜力
- 高一化学教案:专题第三单元第二课时有机高分子的合成
- 2024高中化学第二章烃和卤代烃2-1苯的结构与性质课时作业含解析新人教版选修5
- 2024高中地理第四章自然环境对人类活动的影响4自然灾害对人类的危害课时作业含解析湘教版必修1
- 2024高中生物第五章生态系统及其稳定性第5节生态系统的稳定性精练含解析新人教版必修3
- 2024高中语文第二课千言万语总关“音”第2节耳听为虚-同音字和同音词练习含解析新人教版选修语言文字应用
- 2024高中语文精读课文一第1课1长安十年作业含解析新人教版选修中外传记蚜
- 2024高考历史一轮复习方案专题六古代中国经济的基本结构与特点专题综合测验含解析人民版
- 部编版语文三年级下册第二单元整体作业设计
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之11:“5领导作用-5.5岗位、职责和权限”(雷泽佳编制-2025B0)
- 物联网安全风险评估剖析-洞察分析
- 2024年-江西省安全员C证考试题库
- 物业保安培训工作计划
- 开题报告课件(最终)
- 治未病科室建设
- 投标部述职报告
- 2024天津高考英语试题及答案
- 中国高铁技术的发展与展望
- 2014-2024年高考语文真题汇编之诗歌鉴赏含答案解析
评论
0/150
提交评论