基于朴素贝叶斯的新闻文本分类_第1页
基于朴素贝叶斯的新闻文本分类_第2页
基于朴素贝叶斯的新闻文本分类_第3页
基于朴素贝叶斯的新闻文本分类_第4页
基于朴素贝叶斯的新闻文本分类_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

23基于朴素贝叶斯的新闻文本分类内容摘要:本文包含了朴素贝叶斯算法的基本公式、方法,以及基于该算法进行新闻文本分类的方法,并结合由多篇新闻文本所构成的具体数据库实例构建数据模型,据此展开数据分析。关键词:朴素贝叶斯;文本分类;中文分词当下,我们正处在一个信息化的时代,每天都要面临数以万计的信息轰炸。网络作为连通全世界的巨大数据空间,无时无刻不在有着新闻的产生。这些新闻涵盖了各个领域、各个范围,跨越了空间的界限,冲击着人们的消息网。然而对于个人而言,一段时间之内所能接收到的信息是有限的,也就是说,将全网所产生的所有新闻逐条阅读、全数了解是一件不可能的事。加之并非所有的新闻都是“有用”的,这里的“有用”一方面指存在某些假新闻或无意义的新闻,更重要的是,从另一方面讲,每个人都有自己的兴趣点,只有特定种类的新闻才会引起他的关注,也只有他所感兴趣的那部分新闻,才算是对他“有用”的新闻。这就意味着,我们有必要给每条新闻都打上专属标签,也就是进行文本分类,以便于后续针对用户个人的阅读习惯为每位用户进行个性化推荐,使他们能够快速精准地找到自己感兴趣的新闻内容,来提高用户的阅读使用体验。朴素贝叶斯分类算法介绍在介绍朴素贝叶斯分类之前,我们有必要先简单的了解一下贝叶斯分类算法。贝叶斯分类算法是一种统计学算法,它是一种非常具有代表性的不确定性知识表示和推理方法。贝叶斯分类算法基于假设的先验概率,以及给定假设下观察到不同数据的概率,来计算后验概率。我们可以通过下面的公式对该算法进行更清晰的了解,贝叶斯公式即:上述公式中的A和B分别代表了两个不同的事件,P(Bi)为事件Bi发生的概率,P(A│Bi)为在Bi发生的条件下事件A发生的概率,P(Bi│A)为在A发生的条件下事件Bi的概率。在实际应用中,当对如新闻文本之类的某个事物分类时,常常需要考虑到事物自身的各个属性。我们可以将公式中的事件A看作是B的属性集,而它包含了{A1,A2,……,An}多个不同属性。在此基础上,我们通常把P(A│Bi)叫做Bi的先验概率,而把P(Bi│A)叫做Bi的后验概率。根据公式所示,贝叶斯分类的思想即根据c发生的概率、x发生的概率,以及c的先验概率,来计算c的后验概率。贝叶斯分类会计算出一个样本中各类别ci不同的后验概率,并进行比较,其中后验概率P最大的ci就是该样本所属的类别。进一步地,我们将继续对朴素贝叶斯分类算法进行介绍。它是贝叶斯分类算法的一种特殊形式,与常规贝叶斯分类算法的主要区别在于,朴素贝叶斯分类时把事物的不同属性看作是独立的,与其他各属性都不相关。比如一种动物,它生活在海洋,是最大的哺乳动物,根据前述的几个特征属性,我们可以判定这个动物是蓝鲸。然而尽管它的这些属性之间可能会存在某些联系,朴素贝叶斯分类器在进行分类计算时会认为它们在概率分布上是完全独立的,最后只需得出在这些属性下这个样本属于哪一类的概率最大即为最终结果。数据分析模型的构造使用SPSSModeler软件进行模型的训练和构造。首先,从网络中下载中文新闻文本分类数据集,数据集包含训练文本和测试文本两部分。训练文本共将新闻分为体育、娱乐、家具、房产、教育、时尚、时政、游戏、科技、财经十大类。将文本导入工作流中,并设置好相关参数,可以利用软件自动生成表格。在对文本进行处理的过程中,我发现大段的长文本无法进行类型识别,会导致缺省值的出现,因此我采用了先分词、后处理的方式。首先将训练用的新闻文本主逐条分开,以多个的文本文档的形式根据分类存放在几个不同的文件夹中。接下来用python中自带的jieba库,先对各个类别的新闻进行分词处理。考虑到数据量以及其重复度,仅仅根据新闻文本中所出现过的词汇的词频,对每条新闻中出现率最高的词语进行记录和保存,也就是说,我们将每条新闻仅用其出现率最好的一个词表示,把长新闻压缩成短词汇。由于数据的基数比较大,因此本次测试可以暂时将压缩新闻内容所带来的误差忽略不计。此外,还应该将重复出现的词语去掉,进一步压缩数据量。由于朴素贝叶斯分类方法具有一定的限制性(会在后文思考与反思中进行详细说明),因此在实际应用当中,我们采用贝叶斯网络的方式,对朴素贝叶斯进行优化升级,来进行文本的分类。本次采用TAN的策略以及勾选似然比方式进行测试。点击运行后我们可以看到,成功生成了一个贝叶斯模型。接下来就可以利用这个模型,进一步对测试数据进行分类处理了。贝叶斯分类算法的意义朴素贝叶斯分类算法是一种具有很强的数学背景,并且目前被广泛应用于各个领域的一种算法,它主要被用于预测分析领域。它的分类机制可以进一步划分为二分类和多分类这两种相关问题,比如针对文本分类,通过朴素贝叶斯分类可以实现垃圾邮件、垃圾短信的鉴别这种二分类的问题,也可以实现如上述实例所展示的新闻文本分类、文本情感分析这种多分类的问题,在实际应用中,贝叶斯算法主要被应用于多分类的领域,用来预测多类目标变量的概率。由于贝叶斯算法的简单快捷,这种算法能够用于实时预测,同时,还可以和协同过滤机制相结合,设计完成用户的自动推荐系统,比如类似于今日头条这类的网站或是app,可以根据用户的喜好需求,进行主页的量身定制,用户可以在主页刷到自己感兴趣的新闻内容,省去了搜索的复杂步骤。思考与反思通过实例可以看出,朴素贝叶斯分类算法具有鲜明的特点。它的主要优点有:逻辑简单、快速、高效、便于实现,而且分类的效果也比较好。在进行模型训练时,它不需要很多的训练数据,只需要很小规模的数据集,当任务量增大时,可以进行增量式的训练。这种算法对于缺失数据也不太敏感,因此相比于其他各种算法,它尤其适用于文本分类。总的来说,这种算法的时空开销小,而且比较稳定,健壮性非常好。当然,事物都具有两面性,除了上述优点之外,朴素贝叶斯分类算法的缺点也很明确。首先,从理论上来讲,朴素贝叶斯算法要求事先知道样本的先验概率,而样本的先验概率大多由假设的模型所决定,但是假设模型的多样性会导致预测结果可能会产生偏差,效果并不尽如人意。并且朴素贝叶斯分类的大前提是“将事物的不同属性看作是独立的,与其他各属性都不相关”,这个假设前提在实际应用中其实是不合理的,因为事物的各个属性往往都存在着或多或少的关联,当这种关联较小时,样本更接近于朴素贝叶斯算法的要求,分类的效果也就会更理想,然而当属性关联非常紧密的时候,模型预测的效果性能也就大大降低了。我们可以通过一些手段来对朴素贝叶斯算法进行性能优化和改进,如可以将连续特征转换为正态分布形式,也可以用拉普拉斯估计修正含有“零频率问题”的数据集,或者改进特征选择的方式等等。除了上述手段外,为了改进朴素贝叶斯算法,使它更贴近于实际生活应用的场景,我们可以将它进一步扩展半朴素贝叶斯分类算法。这种算法主要采用两种策略,其一是SPODE方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论