版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、对科技论文的数字文档的自动分对科技论文的数字文档的自动分类研究类研究山东大学计算机学院 引言 文本自动分类 传统的论文分类法对普通的文献进行分类时准确率为78%左右, 但是利用它对计算机和自动化类的科技文献按照中图分类法进行分类时准确率仅为56 %左右 。 背景介绍 传统的论文分类方法传统的论文分类方法 由于传统的算法不适用于处理文本信息这种非结构的数据,因此必须将其进行结构化转换。近年来应用较多的是向量空间模型(vector space model,vsm)。计算权值的方法有多种:词频统计法、词频逆文本频率(tfidf)、widf算法、shannon信息熵等.。 在对文本进行向量化后,利用学
2、习算法对文本向量进行学习,以得到分类器(knn,svm,n-bayes)。 我们的工作 我们注意到科技论文是一种半结构化文挡,可以把论文的标题、关键词集合和摘要看作为论文的元数据,因为它们精简地反映了文章的核心内容,本文介绍了利用元数据单独分类的效果和利用元数据和分类法相结合的多层分类法。和单纯地使用支持向量机相比,本方法在分类精度和效率上均优于前者。准备工作准备工作 实验:我们考虑比较用文本全文信息与仅用科技论文的标题、关键词和摘要部分作为测试集进行分类的差异。我们从搜集的文献中随机地抽出中图法分类号为tp391、tp392、tp393、tp399的文献:416篇作为测试集,500篇作为训练
3、集。得到分类结果如下: 结论1:仅仅根据标题、关键词、摘要信息进行分类其分类精度是略低于依靠文本全文信息进行分类的,有些类别的分类要明显好于其他类别. 原因1:1)因为标题、关键词和摘要信息中的特征项远远少于全文文本信息中的特征项;2)普通的分词软件对包含了较多专用名词的科技文献进行分词时的效果不太好;3)比较重要的一点是科技文献的某个类(特别是较细的类)的各个子类的文本中存在很多交叉的词项(词或短语),易造成混乱。 改进实验改进实验改进实验:,首先将文本类别扩展到中图法分类号为tp31、tp37、tp39、tp3x,然后相同程度的扩展测试集与训练集。 测试集计 算 机 软 件(tp31)多媒
4、体技术(tp37)计 算 机 应 用(tp39)其他(tp3x)信息处理(tp391)各 专 用 数 据 库(tp392)计算机网络(tp393)其他应用(tp399) 得到分类结果如下: 结论2:在较高一层的类别分类中,无论是使用文本全文信息分类还是仅仅利用标题、关键词、摘要信息进行分类其分类结果都有极大的提高,而利用标题、关键词、摘要信息进行分类的分类精度(查准率与查全率)也接近甚至在个别类别超过了使用文本全文信息进行分类的结果。 原因2: (1)较高一层的类别中存在较少的交叉子项,不容易造成混乱 。 (2)标题、关键词、摘要信息中存在较少的噪声,并且为高层的类别提供了足够的分类信息。 我
5、们的想法 将待分类的文本进行粗分类,然后再对粗分类的结果进行细分类,其中,在进行粗分类的时候仅仅依靠其标题、关键词、摘要信息内容,而在细分类的时候再采用文本全文信息进行分类,并在每一步分类中采用各自的学习算法和相应参数进行学习。我们的想法我们的想法 基于层次的科技论文分类模型 实验与评测实验与评测 样本的选取-科技论文文本数据库的建立. 我们分别使用k-nn与svm两种经典分类方法对科技论文进行了分类,再使用基于层次的分类模型对相同测试集进行了分类,得到结果如下:实验与评测实验与评测svm实验与评测实验与评测 knn实验与评测实验与评测 基于层次的分类模型实验与评测实验与评测 综合的比较: 结
6、论 互联网和科学研究的高速发展迫切需要对科技类文本进行精确而有效的分类。传统的科技文献分类方法无法对处于类边缘的论文进行准确地分类。本文提出一种基于层次的科技论文的分类模型,并通过实验证明,该方法是一种行之有效的提高文本分类的精度与效率的途径。未来的工作包括:在现有基础上,考虑增加参考文献的信息以提高对分类的精度,该模型在不同性质类别(如基于大量文本内容的文学类别和基于大量字符、公式的数学类别等)分类中的应用等等。 参考文献参考文献:1 中国图书馆分类法编辑委员会中国图书馆分类法使用手册m第4版北京:北京图书馆出版社,19992 j gary auguston j,jack minkeran
7、analysis of some graphtheoretical cluster techniquesjjacm,1970,17(4):571 5883 y yang , xin liu a re-examination of text categorization methods, proceedings of acm sigir conference on research and development in information retrieval(sigir),1999:42494 masao fuketa,sangkon lee,takako tsuji et a1a document classification method by using field association wordsjinformation sciences,2000:126(14):57-705 marie-francine moens,jos dumortiertext categorization:the assignment of subject descriptors to magazine articlesjinformation process
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 强化酒店安全管理
- 苏州工会课程设计
- 2024年设备监理师考试题库含答案(满分必刷)
- 餐饮食品销售顾问
- 鞋类设计师工作经验分享
- 秘书工作中的法律知识计划
- 教育用品采购心得
- 化工行业安全管理经验分享
- 广州市工商行政管理局网站政务服务操作指南
- 餐饮行业个人发展计划
- 选矿厂建设课件
- 部编人教版7-9年级语文目录
- 人教版小学数学五年级上册七单元《数学广角-植树问题》单元集体备课整体设计
- 中国超重肥胖医学营养治疗指南
- 严重精神障碍患者家属护理教育
- 汽车4S店市场部工作计划
- 现代营销学原理课件
- 德语语言学导论智慧树知到期末考试答案2024年
- 拒绝早恋主题班会 课件(34张)2023-2024学年主题班会
- 离婚协议书完整版Word模板下载
- 招标代理机构内部监督管理制度
评论
0/150
提交评论