


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文本聚类算法研究 文本聚类算法研究摘要本文对文本聚类做了比较详尽的分析,包括文本聚类的概念和总体介绍,聚类模型,聚类算法以及相关技术等等。文本自动聚类系统是信息处理的重要研究方向,它是指在给定的聚类体系下,根据文本的内容自动划分文本类别的过程。文中重点分析和比较了各种基于不同聚类模型的聚类算法的优劣,对其中一部分算法通过程序加以实现,得到了实验结果。通过实验结果可以直观地看出算法的性能。其中重点实现的是基于向量空间模型的层次聚类算法。该算法是当今国内外文本聚类领域比较流行的算法之一,性能优良,有很高的准确率和召回率。在我对特定文档集进行的聚类实验中
2、,这种方法得出的结果是最满意的。本文共分七章:第一章是绪论,介绍文本聚类的概念,用途,流程并简单介绍了一下文本分类。第二章是分析了几种现有的文本聚类模型和算法,从多角度比较它们的优缺点。第三章介绍了中文文本聚类中的主要问题和关键技术。第四章简述了Smart系统的功能和使用方法。第五章详细说明了文本聚类程序的结构,主要算法的实现,和编制文本聚类器的步骤。第六章给出了对我的毕设程序进行性能评估的数据。第七章是对全文的总结和对未来的展望。关键词:文本聚类,文本分类,向量空间,相似度, 精确度,召回率,层次凝聚算法 Abstract The thesis analyzes text clusterin
3、g in detail, including the definition and general introduction of the text clustering,the model,algorithm and relevant technologies of text clustering,etc.Automatic text clustering is the main researching direction of the Information Procession,it is the process of automatically deviding many texts
4、into different classes with a given clustering method.In the thesis we analyzed and compared kinds of clustering models and algorithms,carried out part of them and got some experimental result.We can see the performance of the algorithms directly from the result.And in this thesis we mainly implemen
5、ted the level-agglomerative algorithm based on the vector space model.This algorithm is one of the most popular algorithms in the field of text clustering nowadays.It has good capability,high precision and recall.In my experiment on given document sets,this algorithm has the most satisfactory result
6、. The thesis is devided into 7 chapters: Chapter1 is the introduction. It introduces the definition,usage,and process of text clustering,and briefly introduced text classification. Chapter2 analyzes some existing models and algorithms of text clustering,compared them with each other from so many asp
7、ects. Chapter3 introduces the main problems and key technologies in text clustering. Chapter4 shows the function and usage of the Smart system. Chapter5 shows the structure of the text clustering program, the implementation of the main algorithms, and the steps to write a text clustering program. Ch
8、apter6 presents some experimental results, and evaluates several text clustering algorithms. Chapter7 is the conclusion and the future work. Key-words: text clustering, text classification, vector space, similarity, precision, recall, level-agglomerative clustering algorithm 目录摘要1 Abstract.2 第一章 绪论.
9、5 11文本聚类概述5 12文本聚类工作流程6 13文本分类概述7 第二章 现有的数据聚类模型和算法10 21基于密度的聚类算法.10 22基于向量空间的聚类算法.13 23基于统计语言的聚类模型.16 231信息熵16 232统计语言模型17 233条件聚类模型18 本章小结.20 第三章 中文文本聚类中的基本问题.21 31中文分词概述.21 32特征词抽取.22 33文本的表示.24 本章小结.25 第四章 SMART系统概述26 41SMART系统简介.26 42 SMART系统中的信息检索.28 43SMART系统的搭建步骤.30 44SMART系统的评价.31 本章小结.33 第五章 文本聚类程序的实现.34 51问题定义34 52程序的基本功能和总体结构34 53程序中数据结构的定义35 54程序中主要算法的实现37 541相关文件操作.3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 物联网对企业运营管理的改进
- 《声声慢》教学设计
- 物联网在工业自动化生产过程中的智能化应用
- 小熊装修房子
- 佛山后勤住宿租赁合同范例
- 公路土方运输合同范例
- 二手车按揭合同范例
- 2025年特种定制电源项目合作计划书
- 养兔回收合同范例
- 腮腺肿物切除术后护理要点
- 管道工(三级)高级工题库(电子题库)附有答案
- 小学预防性侵害主题班会
- DZ∕T 0080-2010 煤炭地球物理测井规范(正式版)
- 《微波法原油含水率在线检测仪》
- 第1课 立足时代 志存高远 (课件+视频)- 【中职专用】高一思想政治《心理健康与职业生涯》(高教版2023·基础模块)
- 19S406建筑排水管道安装-塑料管道
- MOOC 人工智能基础-国防科技大学 中国大学慕课答案
- 装配式建筑预制构件安装-水平构件安装技术
- 部编版语文五年级下册第四单元大单元整体教学设计
- 《厢式货运车系列型谱》
- 第二课-智能多面手-课件-六年级下册信息科技河南大学版
评论
0/150
提交评论