下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上1. 问题描述用高效朴素贝叶斯算法对Web 新闻文本进行分类模型的设计2.算法结构我们要判别一个文本的类别,就要计算出该文本属于各类别条件概率,根据贝叶斯原理可以得出: (1.1)然后比较各类别条件概率大小,选择类别条件概率最大者为该文本分类,如下 (1.2)而要计算出,先要先验概率,其计算方法如下:先将展开其变成由一个由词语为单位组成的词组向量,即,然后得出: (1.3)而则是训练样本各类别文本数量与训练样本总数之比,计算公式如下: (1.4)至于它是表示每篇训练文档出现的概率,因为都一样,所以在实际计算时可以不用考虑。所以实际计算的公式可以估算为 (1.5)由式(
2、1.5)可知,然而这样多个小数连续相乘最后的结果会非常小导致出现下溢问题,令计算结果无效。为解决这个问题,我们在使用式(1.5)计算时需要做一些数学转换来防止出现这个数值下溢问题,而这些数学处理就令等式1.5 两边取对数,如下: (1.6)3.特征提取本文将采用 jieba 分词模块来对文本进行分词及提取有代表性的关键词作为特征,jieba 分词模块自带的词库中包含着每个词的词频(TF)及反文档频率(IDF),每个词的 TF 值,IDF 值均由原作者通过大量文本训练统计出来的,所以具有一般性,使用该方法得到的关键词用人工标准来判断能反映出文本主题。当使用 jieba 分词模块的提取关键词功能时
3、,它会对在对文本进行分词的同时会利用每个词的 TF 值及 IDF值计算出每个词的权重(Weight = TF*IDF),然后根据权重大小对词进行排序,至于返回前多少歌词则由用户设定。另外,在使用提取特征词功能的时候还能去除标点符号及对文本主题无意义的停用词。根据 jieba 分词模块提取关键词的方法可知,它直接可以对单个文本提取关键词,利用这个特点,在对待分类文本也作关键词提取处理,只保留当中有代表性的关键词,这样既能大大减少生成词向量的时间又能提高分类准确率。4.设计算法采用朴素贝叶斯算法作为文本分类算法时,因其每个特征出现概率相互独立且每个特征重要程度相等的假设,所以选择一种高效的特征选择
4、方法显得尤为重要。本文运用jieba 中文分词模块的TF-IDF标准对训练新闻文本进行特征选择,实现一个基于朴素贝叶斯的文本分类模型。5.训练算法模型的训练是利用已转换为词向量的训练文本计算出每类文本的先验概率 ,其计算过程的伪代码如下:for each document training dataset:for each class training dataset:if a word appear document:increase the count for the wordfor each class training dataset:for each word document:di
5、vided the count of each word by total count of words to get the prior probabilityreturn the prior probability训练结果为四个由四类文本所包含的词在该类文本所出现的概率组成的长度为 23368 数组,如下:军事类:8. 9. 9. , 9. 9.财经类:9. 9. 9. ., 9. 9.体育类:9. 9. 9. ., 9. 9.社会类:9. 9. 8. ., 9. 9.注:因为各个词出现的概率都作了取自然对数的处理,所以均为负值。6. 总结表1军事类新闻财经类新闻体育类新闻社会类新闻查全率
6、98.82%99.02%96.13%97.10%查准率99.44%99.11%98.50%96.74%调和平均值99.13%99.06%97.30%96.92% 注:调和平均值 = 查全率 × 查准率 × 2/查全率 + 查准率。表2军事类新闻财经类新闻体育类新闻社会类新闻查全率97.73%98.26%95.04%95.10%查准率96.35%97.51%87.04%90.70%调和平均值97.04%97.88%90.86%92.84%先对待分类文本进行关键词提取,每篇提取前 20 个权重最大的词,再转换成词向量,然后与模型训练计算出来的先验概率一起计算出文本属于每一类文本的概率,然后比较大小,选择概率最大的并判别文本属于哪个类别,输出类别标签。实验测试结果如表 1 所示。从实验结果可以看出,对待分类文本采用 TF-IDF 算法提取关键字后,再运用朴素贝叶斯算法对文本进行分类,各类新闻文本都取得不错的分类效果,尤其军事类与财经类新闻的查准率调和平均值都超过了 99%。分类速度约为 900 篇/min。如不对待分类文本进行关键词提取,直接利用模型进行分类,其测试结果如表 2 所示。从表 2 各指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年广西百色市田东芒乡红城投资集团有限公司招聘笔试参考题库附带答案详解
- 2025年江西上饶高铁经济试验区投资建设有限公司招聘笔试参考题库附带答案详解
- 广东省深圳市宝安区2024-2025学年七年级上学期期末调研语文试卷
- 二零二五年度智能建筑泥工班组施工合作合同范本3篇
- 2025年度专业厨师个人劳务雇佣合同2篇
- 二零二五年度美容美发店客户满意度调查分析合同4篇
- 2024年度青海省公共营养师之四级营养师高分通关题型题库附解析答案
- 2024-2025学年高中政治第1单元公民的政治生活第2课第1框民主奄:投出理性一票训练含解析
- 2025年度餐饮业派遣员工食品安全管理合同4篇
- 科技与生态小学科学课中的可持续发展教育探讨
- 2024年高考语文思辨类作文预测+考前模拟题+高分范文
- 桥本甲状腺炎-90天治疗方案
- 《量化交易之门》连载27:风险的角度谈收益MAR和夏普比率
- (2024年)安全注射培训课件
- 2024版《建设工程开工、停工、复工安全管理台账表格(流程图、申请表、报审表、考核表、通知单等)》模版
- 部编版《道德与法治》六年级下册教材分析万永霞
- 粘液腺肺癌病理报告
- 酒店人防管理制度
- 油田酸化工艺技术
- 上海高考英语词汇手册列表
- 移动商务内容运营(吴洪贵)任务五 其他内容类型的生产
评论
0/150
提交评论