面向传媒领域文本分类训练器的设计_第1页
面向传媒领域文本分类训练器的设计_第2页
面向传媒领域文本分类训练器的设计_第3页
面向传媒领域文本分类训练器的设计_第4页
面向传媒领域文本分类训练器的设计_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    面向传媒领域文本分类训练器的设计    宋燕燕摘要 传媒领域存着在大面积的领域知识,这类领域知识将特征项与文本类别相关联在一起,非常有助于区分文本的具体类别。本文设计方面一种面向传媒领域知识的文本分类训练器,旨在提高传媒领域文本的分类性能。训练器将以非常直观的方式实现关键词检索,特征词提取,文本分类功能,可以方便地对未知的文件进行分类,统计文本关键词出现的频率和文本内容的训练。关键词 文本分类;传媒领域;词频统计;特征词中图分类号 tp3 文献标识码a 文章编号20956363(2016)12003202伴随着互联网的迅猛发展和日益遍及,互联网数

2、据量剧增,电子文本信息迅速的扩大,如何有效地安排和管理这些信息,并且迅速、精确地找到用户所需要的信息是当时信息技术领域面对的一大应战。文本分类作为处理和安排很多文本数据的关键技术,能够在较大程度上处理信息乱现象的问题,便利用户精确地定位所需的信息和分流信息。文本分类是指采用计算机程序对文本集按照一定的分类体系进行分类标记和有效管理,方便用户进行查询。文本分类训练器的设计通常包括文本的特征向量表示、文本特征向量的降维,以及文本分类器的设计与测试等。本文通过分析利用java技术构建分类训练器的结构框架,明确了基于java构建分类训练器理论可行性,并进一步设计了系统的技术流程和功能实现,从而为面向传

3、媒领域的文本分类训练器的研究和应用提供了一种方法。1相关技术介绍文本分类问题的困难之一便是特征空间的高维性,而特征提取的主要功能就是在保留文本核心信息的情况下尽量减少要处理的单词数,也就是降低向量空间维数,从而提高文本处理的效率和精度。特征提取方法成为文本分类中首先要解决的问题。特征提取的常用办法分为根据概率的特征提取办法和根据语义的特征提取办法。根据概率的特征提取办法是先对文档进行分词,过滤掉停用词,并用传统算法对词语权重进行核算,得到权重的排序后,按权重值的大小选择相应的特征作为文档的特征关键字。而根据语义的特征提取办法是在过滤掉停用词后对词语构建网络结构,经过词语网络结构对特征权值进行核

4、算,从而得到终究文档的特征词。现在选用的分类办法根本都是根据机器学习的思维。对于传媒范畴,有些专业词具有显着的种类倾向性,是判别文本种类的重要依据,如:当文本中较多的呈现“新媒体”“媒体”“移动媒体”等这些词语时,咱们就简单将文本联想到媒体工业这一种类。咱们把这些行业内流转度高、尽人皆知、与具体种类有关的语义常识称为范畴常识,把握住范畴常识有助于文本分类。2文本分类训练器功能需求以及设计面向于传媒领域的文本分类训练器的功能需求有以下的几个大的方面:该系统要可以对文本或文件夹进行分类、训练、关键字检索、词频查询、清屏等具体操作来满足用户的多种需求;要给用户提供直观方便的操作界面,设计的图形界面方便用户直观快速的找到自己需要的功能和其它的一些信息;尽可能详细的优化输出功能,让使用者可以更直接看到所需要的文本和训练结果;尽可能多的训练文本,合理设置传媒领域关键词才会使文本分类更加准确。根据功能需求对系统进行设计,主要设计流程如图1所示。3文本分类训练器的实现文本分类训练器采用java开发,分类训练器的属性数据可直接存储于xml文档中,在系统内部可以方便地实现属性数据的读入和读出,满足用户对属性数据直观的获取需求。1)分类模块的实现每个关键词在此类文章里出现的平均比例等于關键词出现次数除以文章总字数,统计关键词种类和数量,然后把这些关键

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论