计算机应用技术论文自然语言处理 文本分类 数据挖掘.doc_第1页
计算机应用技术论文自然语言处理 文本分类 数据挖掘.doc_第2页
计算机应用技术论文自然语言处理 文本分类 数据挖掘.doc_第3页
计算机应用技术论文自然语言处理 文本分类 数据挖掘.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机应用技术论文:基于自然语言处理的文本分类分析与研究【中文摘要】当今,随着信息技术不断向前发展,在机器学习这门计算机学科中,有关模式识别的理论知识已经日趋成熟,同时应用到了许多领域,其中一个重要的研究方向是基于统计的自然语言处理。由于互联网的兴起,基于自然语言表述的电子文本信息越来越多,在这么多的电子文本信息中,基于自然语言的信息处理的一个最大目标是怎样有效地获取和管理这些信息。对于提出的这些问题需要对自然语言进行研究和其相关应用,文本分类在这里显得特别重要,它是作为信息检索等问题的基础。文本分类主要分为两个阶段,分别采用了自然语言处理、机器学习、模式识别、文本挖掘技术来实现。因此,文本分类在理论研究上的价值体现在对这些技术的推动。文本分类能够有效的提高网上信息检索的效果,不仅是改进信息获取模式的重要方面,也是内容安全的基础部分。因此分类性能的好坏已经成为关注的焦点,研究文本分类任务的理论和工程应用,将具有重要意义。在现有的研究成果上,本论文对文本分类及其相关技术做了一些研究。首先介绍了文本分类技术的研究现状及该课题研究意义;接着介绍了文本分类的过程和在这个过程中所用到的相关技术,主要对中文分词方法、特征选择方法和文本分类算法做了研究;然后介绍文本分类设计.【英文摘要】Nowadays, with the information technology development, machine learning and pattern recognition in computer science are more and more mature and widely applied to many areas, one of the important research direction is based on the statistics of natural language processing. Due to the rise of the Internet, the electronic text information based on natural language description is exploding, the information processing based on natural language is one of the biggest target how effective these information acquisi.【关键词】自然语言处理 文本分类 数据挖掘 特征选取【英文关键词】Nature Language Processing Text Classification Data Mining Feature Selection and Extraction【目录】基于自然语言处理的文本分类分析与研究摘要4-5Abstract5第一章 绪论9-151.1 课题研究背景与意义9-101.2 文本分类研究现状10-121.3 课题研究内容及方法12-15第二章 自然语言处理技术概述15-202.1 自然语言处理技术概述15-162.2 自然语言语法分析技术16-172.3 生成模型的统计方法17-182.4 判别模型的统计方法18-192.5 无指导的统计方法192.6 本章总结19-20第三章 文本分类的相关技术20-373.1 文本分类基本概念20-233.1.1 文本自动分类的任务20-213.1.2 文本自动分类的类型21-223.1.3 文本自动分类的应用22-233.2 文本表示方法23-253.2.1 表示模型概述23-243.2.2 VSM 模型24-253.3 数据挖掘中决策树分类算法25-293.3.1 分类的定义25-263.3.2 分类预处理及评估准则26-273.3.3 分类算法27-293.4 基于决策树的分类算法29-353.4.1 决策树分类概述29-303.4.2 典型的决策树算法30-343.4.3 决策树的构造以及简化34-353.5 文本分类效果评估方法35-363.6 本章小结36-37第四章 基于自然语言处理的文本分类设计37-534.1 中文文本自动分类的预处理37-424.1.1 基于最大匹配分词算法的中文文本分词处理37-394.1.2 改进的增强型最大匹配分词法(IMM 法)39-424.2 基于KL-Divergence 的特征选取算法42-474.2.1 KL-Divergence 定义42-434.2.2 改进KL-Divergence 特征选取法43-444.2.3 特征权重的计算TFIDF 法44-454.2.4 构建类模型45-474.3 实验测试与结果47-524.3.1 实验目的474.3.2 实验难点47-484.3.2 实验中用到的相关算法简要说明48-504.3.4 实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论