计算机应用技术论文:文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择_第1页
计算机应用技术论文:文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择_第2页
计算机应用技术论文:文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择_第3页
计算机应用技术论文:文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择_第4页
计算机应用技术论文:文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机应用技术论文:基于朴素贝叶斯方法的中文文本分类研究【中文摘要】计算机与网络技术自出现以来 ,发展迅速,并日趋完善,互联网已成为获取信息的主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用Java在MyEclipse平台上实现了基于朴素贝叶斯方法的中文文本分类系统。本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。本文通过实验表明信息增益和 χ2统计量是朴素贝叶斯文本分类较好的特征选择方法。【英文摘要】Sincethetechnologyofcomputerandnetworkappeared,ithadbeendevelopedveryrapidly.Networkhasbecomingoneofthemostmainly-usedinformationsource.Becausemostoftheinformationinthenetworkistextdatatype,automatictextcategorizationwhichistheimportantbasicofeffectiveorganizationandmanagementtextdatahasbecomeanimportantstudyfield.NaiveBayesclassificationmethodisbasedontheBayesiantheory,whichisacceptedassimpleandeffectiveprobabilityclassificationmeth...【关键词】文本分类 朴素贝叶斯分类 多变量伯努利模型 多项式模型 特征选择【英文关键词】TextCategorizationNaivebayesclassificationMulti-variateBernoulliModelMultinomialModelFeatureSelection【目录】基于朴素贝叶斯方法的中文文本分类研究 摘要5-6 Abstract 6 第1章绪论9-14 1.1 研究背景及意义1.2文本分类研究现状9-111.3朴素贝叶斯与文本分类11-121.4本文的工作121.5本文的组织结构12-14第2章文本分类技术14-222.1文本分类的过程14-152.2文本向量表示15-192.2.1文本预处理15-162.2.2向量空间模型16-172.2.3特征权重17-192.3文本分类方法19-202.3.1决策树分类器192.3.2k近邻分类器19-202.3.3朴素贝叶斯分类器202.3.4支持向量机分类器202.4性能评估方法20-212.5本章小结21-22第3章朴素贝叶斯分类模型22-323.1贝叶斯基础理论22-243.1.1贝叶斯定理22-233.1.2极大后验假设与极大似然假设事件的独立性23-243.2朴素贝叶斯分类器24-25 3.3 朴素贝叶斯文本分类 25-28 朴素贝叶斯文本分类算法25-263.3.2多变量伯努利模型26-273.3.3多项式模型27-283.3.4两个模型的区别283.4朴素贝叶斯分类器的改进28-293.5实验设计与结果比较29-313.5.1实验1:多项式模式与多变量伯努利模型比较29-303.5.2实验2:改进后的多项式模型与多项式模型比较30-313.5.3实验小结313.6本章小结31-32第4章选择性朴素贝叶斯方法32-404.1常用的特征选择方法32-354.1.1文档频率324.1.2信息增益32-334.1.3χ~2统计量33-344.1.4互信息34-354.2实验设计与结果分析35-384.3特征选择实验比较38-394.4本章小结39-40第5章朴素贝叶斯文本分类的设计与实现40-425.1系统的实现405.2系统模块40-415.3本章小结41-42第6章结论与展望42-446.1工作总结426.2后续工作42-44参考文献44-46致谢46-47攻读硕士学位期间发表论文情况47沁园春·雪北国风光,千里冰封,万里雪飘。望长城内外,惟余莽莽;大河上下,顿失滔滔。山舞银蛇,原驰蜡象, 欲与天公试比高。须晴日, 看红装素裹,分外妖娆。江山如此多娇, 引无数英雄竞折腰。惜秦皇汉武,略输文采;唐宗宋祖,稍逊风骚。一代天骄,成吉思汗,只识弯弓射大雕。俱往矣,数风流人物, 还看今朝。克出师表两汉:诸葛亮先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体;陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理;不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下:愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。

“能”,是以众议举宠为督:亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之、信之,则汉室之隆,可计日而待也 。臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明;故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论