中文文本分类方法研究分析_第1页
中文文本分类方法研究分析_第2页
中文文本分类方法研究分析_第3页
中文文本分类方法研究分析_第4页
中文文本分类方法研究分析_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 中文文本分类方法研究 李凯Summary:由于现实生活中大多数信息被存储为文本,因此文本挖掘具有在商业上的高潜在价值。实际应用中可以从许多信息来源中挖掘知识,然而,非结构化文本仍然是最容易获得的知识来源。该文介绍了文本分类的过程以及对三种分类器的概述,并在最后对三种分类器分别实验,以及对实验结果分析得知本实验环境下支持向量机分类器的分类效果要好于另外两种分类器。Key:文本分类;文本表示;特征选择;权重;文本分类器:TP311 :A :1009-3044(2019)04-0242-03Abstract: Since most of the information in real life i

2、s stored as text, text mining has high commercial potential. In practice, knowledge can be mined from many sources of information, however, unstructured text is still the most accessible source of knowledge.This paper introduces the process of text classification and the overview of the three classi

3、fiers. Finally, the experiments of the three classifiers and the analysis of the experimental results show that the classification effect of the support vector machine classifier is better than the other two classifiers.Key words: text classification;text representation;feature selection;weightstext

4、 classifier自數字文档开始以来,自动文本分类一直是一个重要的应用和研究课题。文本分类(text categorization)是数据挖掘、机器学习、模式识别这三个学科在某一具体领域应用的结合。由于我们每天都要处理大量的文本文档,因此,对文本分类的研究是十分有必要的。1文本分类的一般过程文本分类的任务可以近似为一个未知的目标函数:DCT, F,其中,D=d1,d2,d|D|是一个文档的领域,C=c1,c2,c|C|是一组预定义的类别。对于来说T值与F值分别表示文档dj是否属于类ci1。2文本预处理文本预处理的主要任务是首先对中文文本进行分词处理,然后再删除停用词。由于中文中的单词之间没

5、有像英文单词间可以利用空格作为明显的分割标记,因此首先要对文本进行分词处理2。中文分词方法主要方法以及分词方法之间的比较如表1表示。3文本表示5文本分类算法5.1朴素贝叶斯分类器朴素贝叶斯分类器(NB)是一种基于贝叶斯定理的概率分类器,具有强大的独立性假设。它被认为是最基本的文本分类技术之一,在垃圾邮件检测、个人邮件分类、文档分类、语言检测和情感检测等方面有着广泛的应用。贝叶斯分类器计算量小,训练数据量小,是一种高效的分类器4。5.2基于支持向量机的分类器基于支持向量机(SVM)是一种基于统计学习理论和结构风险最小化原理的有监督学习的机器学习算法。SVM通常被用于解决线性约束凸二次规划问题(Q

6、P),并且该解决方案具有唯一的最优超平面,它的最终目标是找到这样的最优的高维分类超平面。5.3 k-最近邻法k-最近邻法(KNN)是一种有监督的机器学习算法,它预先存储所有可用的样本,并基于相似性度量(如距离函数)对新的样本进行分类。KNN算法是基于空间中接近的点(文档)属于同一类的原则。6文本分类性能评测常用的文本分类器性能评价方法有召回率(Recall),准确率(Precision),F-度量值等。7 实验结果与分析本实验的数据采用搜狗新闻数据集,该数据集一共有10类新闻,每类新闻60000条文本数据,其中训练集取90%,测试集取10%。本实验文档都是以空间向量的形式表示并且采用信息增益法

7、与TF-IDF权值法来进行特征选择与特征权重的计算。我们从预处理好的文本中提取80%作为训练文本集,20%作为测试文本集, 分别将文本集投入朴素贝叶斯分类器(NB)、支持向量机分类器(SVM)、k-最近邻分类器(KNN)三种分类器中进行三组实验。为了评估短文本分类系统的性能,评估方法选择了传统的评估标准:准确率P、召回率 R ,以及两者的综合评价 F-度量值。实验结果如表2:从上表来看, 准确率在整体上是要明显高于召回率。KNN分类器的准确率最高, SVM分类器的召回率最高。从宏平均F-度量值上看, 朴素贝叶斯分类器和K-最近邻分类器在分类效果上相差较小。支持向量机分类器在分类效果上较优于另外

8、两种分类器。文本分类的过程中在数据预处理时采取的分词方法和特征选择方法对分类效果是有直接影响的,因此上述结论不是绝对的。8结语本文主要分析了文本分类的过程并在最后描述了分类器性能评价并从实验上进行比较。通常情况下,不能将单个文本表示方法和分类器作为任何通用的模型。应根据数据的特征,选择相应的文本表示方法和分类器,以此来确保分类结果达到预期的效果。Reference:1 宗成庆.统计自然语言处理M.清华大学出版社,2013.2 林少波.中文文本分类特征提取方法的研究与实现D.重庆大学,2011.3 奉国和.文本分类性能评价研究J.情报杂志,2011,30(8):66-70.4 YAN Rui, CAO Xian-bin, LI Kai, Dynamic Assembly Classification Algorithm for

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论