(计算机应用技术专业论文)中文文本分类的研究.pdf_第1页
(计算机应用技术专业论文)中文文本分类的研究.pdf_第2页
(计算机应用技术专业论文)中文文本分类的研究.pdf_第3页
(计算机应用技术专业论文)中文文本分类的研究.pdf_第4页
(计算机应用技术专业论文)中文文本分类的研究.pdf_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文数据集 中图分类号 聊f l 学科分类号 支l d 铀 论文编号 1 0 0 1 0 渊 密级 0 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名 寻佬 学号 p 船心7 获学位专业名称 轩莉遍翻豺: 获学位专业代码 d 8 f 2 口弓 课题来源 钒妞自 研究方向 人燃 论文题目 啦凇铴研院 关键词 。营酌谈确哆翮规番划燃渡肃 论文答辩日期 0 神。8 论文类型 概乃嘲。 f - 学位论文评阅及答辩委员会情况 姓名 职称 工作单位学科专长 指导教师 瓿圉兹啪叱鹚眨娥亏丽阀编蕊术 评阅人1 骅- 柔栅栅新刺入2 1 庭镌疡纭疏 评阅人2 勿茨药搬咭叻“连磁:航厕丽 评阅人3 评阅人4 评阅人5 椭员会拂 群泵蕊摇说客嘶呻掀彳隔闽锯矫 答辩委员i 撤觥碰撇2 喇兰神函钹怼鲸 一 i 答辩委员2 张惑3 乙才嘲剀泼锕踟弱黼木 i 答辩委员3 答辩委员4 答辩委员5 注:一论文类型:i 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询。 三学科分类号在中华人民共和国国家标准( g b t1 3 7 4 5 - 9 ) 学科分类与代码中 查询。 四论文编号由单位代码和年份及学号的后四位组成。 摘要 中文文本分类技术的研究 摘要 随着网络的普及和飞速发展,网络资源已经成为一个普遍全球的 信息宝库,使得人类全部的信息资源以前所未有的方式和程度在全球 内互相连通,它作为一个开放的分布式的信息空间,网络中的信息量 也以指数的速度增长。如何利用计算机进行智能化的信息处理成为近 几年来研究的热点和焦点。由于侧重点的不同,我们可以将其分为如 下几个领域:信息检索、信息提取、文本分类、文本摘要等研究领域, 其中文本分类是一个广为关注的课题,这项技术有很广的市场应用价 值。 文本表示是进行文本分类研究的前提。我们常用的文本表示的方 法有基于向量空间的文本表示方法和基于统计语言模型的文本表示 方法。特征提取和文本表示方法是影响文本分类器两个重要因素。如 何选取特征,用什么样的方式将其表示出来直接影响到文本分类器的 速度和性能。 在数据挖掘的诸多方法中,我们首先对基于向量空间的几种常用 分类方法( 布尔模型、向量空间模型、b p 神经网络) ,进行实验和性 能比较。并通过实验分析出向量维数、阈值等参数设置对各类模型的 影响,为各种分类算法的改进提供了理论依据。 在基于统计语言模型的文本分类方法中,本文主要研究了最大 模型和决策树模型。i d 3 算法是信息过滤中采用较广泛的方法。在对 l 北京化工大学硕士学位论文 i d 3 算法学习分析研究的基础上,实现了一个基于i d 3 算法的决策树 分类程序,该程序可以对中文信息进行有效的分类。此外,该程序还 可以从分类数据中提取分类规则,这些规则可以根据需要进行增加、 删除和修改。实验结果表明决策树分类器确实是一种有效的分类技 术。本文还提出了一种改进的i d 3 算法,以调高运算率。 齐普夫定律首次揭示了西方语系中词频和词序号关系,有很广的 应用价值。本文实现了一个词频统计程序,通过对中文词频的统计验 证了齐普夫定律同样适用于中文词的分布。同时提出了齐普夫定律参 数的估计方法和参数适应性验证方法。 关键词:文本分类、向量空间模型、最大熵模型、i d 3 算法、齐普夫 定律 n 摘要 r e s e a r c ho nc h i n e s et e x tc l a s s i f i c a t i o n t e c h n o l o g y a b s t r a c t w i t ht h ef a c tt h a tt h en e t w o r ku n i v e r s a ld e v e l o p sa tf u l ls p e e d t h e n e t w o r kr e s o u r c ea l r e a d yb e c o m e sac o m m o nw h o l ew o r l di n f o r m a t i o n t r e a s u r e h o u s e a l lh u m a nb e i n gi n f o r m a t i o nr e s o u r c e sa r ec o n n e c t e d e a c ho t h e rw i t hh i t h e r t ou n k n o w nw a ya n dd e g r e ew i t h i nt h ew h o l e w o r l d ,i ti n c r e a s e sb ya sao p e na m o u n t si n f o r m a t i o ns p e e da l s ow i t ht h e e x p o n e n ti nd i s t r i b u t i n gt h ed y a d i ci n f o r m a t i o ns p a c e 。h o wm a k eu s eo fa c o m p u t e rt oc a r r yo u ti n f o r m a t i o np r o c e s s i n gb e c o m e st h eh o ts p o ta n d f o c a lp o i n ti nt h ep a s tf e wy e a r s b e c a u s eo ft h ee m p h a s i sd i f f e r e n t l y , i t c a nb es o r t e ds e v e r a lf i e l d s :i n f o r m a t i o nr e t r i e v a l ,i n f o r m a t i o ne x t r a c t , v e r s i o n c l a s s i f i c a t i o n , v e r s i o na b s t r a c te t c c h i n e s ev e r s i o n c l a s s i f i c a t i o ni so n eo fm o s ti m p o r t a n tp r o b l e m i ti sp a i dc l o s ea t t e n t i o n b e c a u s eo fi t sal u r k i n ga p p l i e sv a l u e t h e r ea r eal o to fm e t h o d sa b o u td a t am i n i n g ;w ec a r r yo u tt h e e x p e r i m e n ta n dt h ef u n c t i o nc o m p a r i s o no ns e v e r a lk i n d sc l a s s i f i c a t i o n m e t h o d s ( s u c ha sb o o l e a nm o d e l ,v e c t o rs p a c em o d e l ,b pn e u r a l n e t w o r k s ) a n dw eh a v ea l s o s t u d i e dp a r a m e t e r ss u c ha sv e c t o r d i m e n s i o n ;t h r e s h o l dv a l u ei n t e r p o s e st h ee f f e c tt om o d e lo fa l lk i n d s i t p r o v i d e dt h et h e o r yb a s i st oa l g o r i t h m i ci m p r o v e m e n t 。 a m o n gm a n ym e t h o d so ft e x tc l a s s i f i c a t i o nb a s e do nc o u n tl a n g u a g e m o d e l ,w em a i n l ys t u d i e dm a x i m u me n t r o p ym o d e la n dd e c i s i o nt r e e m o d e l i d 3a l g o r i t h mi sw i d e l yu s e di ni n f o r m a t i o nf i l t e r w r eh a v e r e a l i z e dap r o g r a mo ft e x tc l a s s i f i c a t i o nb a s e do ni d 3a l g o r i t h m i c p r o c e d u r ec a n c a r r yo u te f f e c t i v ec l a s s i f i c a t i o no nc h i n e s et e x t t h e e x p e r i m e n ti n d i c a t e s t h a td e c i s i o n t r e ei so n ek i n d o fe f f e c t i v e c l a s s i f i c a t i o nt e c h n o l o g yi n d e e d w r eh a v eb r o u g h tf o r w a r do n ek i n do f t h ei d 3a l g o r i t h mi m p r o v i n gi nt h ep a p e r s z i p fl a wh a v er e v e a l e dr e l a t i o n s h i pb e t w e e nw o r df r e q u e n c ya n dw o r d s e r i a ln u m b e ri nt h ew e s tl a n g u a g ef i r s t l y , i th a sv e r yb r o a da p p l i c a t i o n v a l u e t h ee x p e r i m e n tv e r i f i e st h a tz i p fl a wc a na l s ob eu s e di nc h i n e s e w o r dd i s t r i b u t i o na n dw ep r o p o s e daw a yt oe s t i m a t ea n dt ov e r i f yt h e p a r a m e t e r si nt h ep a p e r s n 1 北京化工人学硕士学位论文 k e yw o r d s :t e x t c l a s s i f i c a t i o n ,v e c t o rs p a c em o d e l ,m a x i m u m e n t r o p ym o d e l ,i d 3a l g o r i t h m ,z i p fl a w i v 目录 目录 第一章介绍。1 1 1 论文的背景1 1 2 文本分类的研究现状2 1 3 文本分类概述3 1 3 1 文本分类的概念和特点3 1 3 2 文本分类的评价标准4 1 3 3 文本分类流程及需要解决的问题6 1 4 论文组织结构6 第二章几种常用分类方法的性能研究8 2 1 文本的表示方法8 2 2 文本分类的过程9 2 3 特征提取1 0 2 4 几种分类模型性能分析1 2 2 4 1 布尔逻辑模型一1 2 2 4 2 向量空间模型1 3 2 4 3 人工神经网络模型1 6 2 5 几种文本分类模型实验设计分析1 8 2 5 1 向量空间模型实验方案、数据和分析1 8 2 6 小结。2 7 第三章决策树模型和最大熵模型在文本分类的研究。2 8 3 1 归纳学习的信息论方法2 8 3 1 1 信息论原理与归纳学习的信道模型2 8 3 2 基于决策树算法的文本分类的研究3 0 3 2 1 决策树模型概述。3 0 3 2 2 决策树的算法的表述和规则提取方法3 1 3 2 3 决策树的评价标准3 3 3 3 改进的i d 3 算法3 3 3 3 1i d 3 算法介绍。3 3 3 3 2i d 3 算法伪代码描述3 4 3 3 3i d 3 算法的性能评价。3 5 v 目录 3 3 4 改进i d 3 算法3 6 3 4 基于i d 3 算法的决策树分类实验3 9 3 4 1 原始i d 3 算法建立决策树3 9 3 4 2 改进i d 3 算法建立决策树4 3 3 4 3i d 3 算法的中文文本分类的性能评估:4 4 3 4 4i d 3 算法的文本分类实验方案。4 5 3 4 5 实验结果及分析4 5 3 5 最大熵模型算法4 8 3 5 1 最大熵模型概述4 9 3 5 2 最大熵模型的文本分类实验5 1 3 6 两类分类器的性能比较5 5 第四章齐普夫定律在汉语适应性研究5 7 4 1 齐普夫定律的发展历史5 7 4 2 齐普夫定律的内容5 9 4 3 齐普夫定律的主要应用6 0 4 4 齐普夫定律在汉语适应性实验分析6 1 4 5 总结。6 6 目录 c o n t e n t s c h a p t e r l i n t r o d u c t i o n 】【 1 1b a c k g r o u n d 1 1 2t e x tc l a s s i f i c a t i o no ft h es t a t u sq u o 2 】【3t l ;x tc l a s s i f i c a t i o no u t l i n e d 3 1 3 1t e x tc l a s s i f i c a t i o no ft h ec h a r a c t e r i s t i c sa n dt h e c o n c e p t 3 1 3 2t b x tc l a s s i f i c a t i o ne v a l u a t i o nc r i t e r i a 4 1 3 3t x e tc a t e g o r i z a t i o np r o c e s sa n dt h en e e dt oa d d r e s st h ei s s u e 6 1 4t h e s i so r g a n i z a t i o n a ls t r u c t u r e 6 c h a p t e r 2c o m m o nc l a s s i f i c a t i o np r o p e r t i e s 8 2 】【t l e x tr e p r e s e n t a t i o n 8 2 2 i e x tc l a s s i f i c a t i o np r o c e s s 9 2 3f e a t u r ee x t r a c t i o n 1 0 2 4c l a s s i f i c a t i o nm o d e lp e r f o r m a n c ea n a l y s i s 1 2 2 4 1b o o l e a nl o g i cm o d e l 1 2 2 4 2v e c t o rs p a c em o d e l 1 3 2 4 3a r t i f i c i a ln e u r a ln e t w o r km o d e l 1 6 2 5e x p e r i m e n t a ld e s i g na n da n a l y s i s 1 8 2 5 1v s m e x p e r i m e n t a lp r o g r a m ,d a t aa n da n a l y s i s 1 8 2 6s u m m a r y 2 7 c h a p t e r3d e c i s i o nt r e em o d e la n dt h em a x i m u me n t r o p ym o d e li n t h et e x tc a t e g o r i z a t i o n 2 8 3 1i n d u c t i v el e a r n i n gm e t h o d so fi n f o r m a t i o nt h e o r y 2 8 3 1 1i n f o r m a t i o nt h e r ya n dt h ep r i n c i p l eo fi n d u c t i v el e a r n i n gc h a n n e lm o d e l 。2 8 3 2b a s e do nt h ed e c i s i o nt r e ec l a s s i f i c a t i o na l g o r i t h mo ft h et e x t 。3 0 3 2 1d e c i s i o nt r e em o d e lo u t l i n e d 3 0 b 2 2d e c i s i o nt r e ea l g o r i t h me x p r e s s i o na n dr u l ee x t r a c t i o nm e t h o d 3 1 3 2 3d e c i s i o nt r e ee v a l u a t i o nc r i t e r i a 3 3 3 3i m p r o v e di d 3a l g o r i t h m :3 3 3 3 1i d 3a l g o r i t h mi n t r o d u c e d 。3 3 1 目录 3 3 2i d 3 p s e u d o c o d ed e s c r i p t i o n 3 4 3 3 3i d 3a l g o r i t h mp e r f o r m a n c ee v a l u a t i o n 3 5 3 3 4i m p r o v e di d 3a l g o r i t h m 3 6 3 4i d 3a l g o r i t h mb a s e do nt h ed e c i s i o nt r e ec l a s s i f i c a t i o ne x p e r i m e n t 3 9 3 4 1o r i g i n a li d 3a l g o r i t h md e c i s i o nt r e e 3 9 3 4 2i m p r o v e di d 3d e c i s i o nt r e ea l g o r i t h m 4 3 3 4 3i d 3a l g o r i t h mt e x tc a t e g o r i z a t i o np e r f o r m a n c ee v a l u a t i o n 4 4 3 4 4i d 3t e x tc l a s s i f i c a t i o na l g o r i t h mp i l o tp r o g r a m 4 5 3 4 5t h ee x p e r i m e n t a lr e s u l t sa n da n a l y s i s 4 5 3 5m a x i m u m e n t r o p ya l g o r i t h m 4 8 3 5 1m a x i m u me n t r o p ym o d e lo v e r v i e w 4 9 3 5 2m a x i m u m e n t r o p ym o d e lt e x tc l a s s i f i c a t i o ne x p e r i m e n t 5 1 3 6t h et w ot y p e so fc l a s s i f i c a t i o np e r f o r m a n c ec o m p a r i s o n 5 5 c h a p t e r 4z i p fo nc h i n e s ea d a p t a b i l i t y 5 7 4 1z i p fo fd e v e l o p m e n to fh i s t o r y 5 7 4 2z i p fo fc o n t e n t s 5 9 4 3z i p fo fa p p l i c a t i o n :;i ) 4 4z i p fo fe x p e r i m e n t a la n a l y s i s 6 1 4 5s u m m a r y 6 6 c h a p t e r 5a g g r e g a t e 6 7 5 1s u m m i n gu pt h ew o r k 6 7 5 2f o r e c a s t 6 8 r e f e r e n c e s 6 9 a p p e n d i x1v s mp r o c e d u r e sf o s s 7 2 a p p e n d i x 2i d 3d e c i s i o nt r e ec l a s s i f i e r si n t r o d u c e d 7 7 t l i a n k s r e s e a r c hr e s u l t sa n dt h ea c a d e m i c a u t h o ra n dp r o f e s s o rp r o f i l e l i 8 :i 第一章绪论 1 1 论文的背景 第一章绪论 随着网络的普及和飞速发展,网络资源已经成为一个普遍全球的信息宝库, 使得人类全部的信息资源以前所未有的方式和速度在全球内互相连通,它作为一 个开放的分布式的信息空问,网络中的信息量也以指数的速度增长。人们如何在 大量的信息中迅速的提取所需要的信息,由此出现了信息迷向的现象。如果计算 机能够在信息的辨识和处理方面,对用户提供适当的支持和帮助,那将能够极大 的改善目前用户面临的困境和提高信息使用效率。 如何利用计算机进行智能化的信息处理成为近几年来研究的热点和焦点。 由于侧重点的不同,我们可以将其分为如下几个领域:信息检索、信息提取、文 本分类、文本摘要等研究领域,这些研究的目的都是为了帮助用户对网络上大量 的信息加以辨识、分类,按用户兴趣加以筛选、排序,甚至提炼出要点形成摘录。 智能化的搜索引擎极大的提高了用户搜索信息的能力。 文本分类是其中一个广为关注的课题,这项技术既有潜在的市场应用价值, 又具有相当的难度。文本分类的应用领域很广,如果对新闻出版按照栏目进行分 类,可分为政治、体育、军事等不同的主题;如果对于垃圾邮件的判定,类别为 垃圾邮件和非垃圾邮件。同时,文本分类技术还可以应用于自然语言处理或者信 息处理领域的系统中,通过使用分类技术提高了系统某些方面的性能。例如,在 分词系统中,需要进行词性标注,可以认为是一个分类问题被分为名词、动词、 形容词等;在信息过滤中、也可以应用分类方法,可将其分为两类:用户感兴趣 的文档和用户不感兴趣的文档。通过使用分类技术,使得这些系统中某些难题可 以有与以往不同的解决方案。 文本的自动分类是数值分类学和信息处理技术相结合的研究方向t 2 1 。在最初 的分类学中,人们往往通过经验和专业知识对事务进行定性分析,很少使用数学 工具。随着信息的不断增长。信息之间的关系也日益复杂,从而导致分类程度越 来越细,分类规模也越来越大,这时仅仅用定性分析是无法满足要求的,于是人 们在分类过程中引入数学工具,使用统计、人工智能等各种方法处理信息,从而 形成了数值分类学,大大推动了信息处理技术前进的步伐。 直到8 0 年代末,在文本分类方面占主导地位的一直是基于知识工程的分类方 法,即有专业人员手工编写分类规则进行分类,其中最著名的系统是为路透针开 发的c o n s t r u e 系统妇1 。9 0 年代以来,随着信息存储技术和通信技术的迅猛发展, 火量的文字信息开始以计算机可读的形式存在,而且其数量每天仍在急剧增加。 第一章绪论 在这种情况下,基于学习的文本分类方法逐渐取代了基于知识工程的分类方法, 成为文本分类的主流技术。 1 2 文本分类的研究现状 国外对于文本自动分类的研究发展的较早,在2 0 世纪5 0 年代末,h e l u h n 对文本自动分类进行了开创性的研究,将词频统计思想应用于自动文本分类中。 目前它被广泛应用于电子会议、数字图书馆、搜索引擎、信息检索等方面t 4 1 。 文本的自动分类主要经历了四个发展阶段: 研究文本自动分类的可能性一( 1 9 5 8 1 9 6 4 ) 进入文本自动分类的实验性阶段一( 1 9 6 5 1 9 7 4 ) 文本分类的实用性阶段 因特网文本自动分类研究阶段( 1 9 9 0 一至今) 国外对于文本自动分类应用系统有卡内基集团路透社开发的c h r u c h 9 5 系 统,它能对路透社成千上万的稿件进行自动分类;德国o l d e n b u r g 大学一个研究 项目g e r h a r d ;欧洲资助的研究项目d e s i r e ;搜索引擎c o 胍其目标是获取 计算机科学方面的研究论文,对于部分从以往采集的p s 格式的论文,采用关键 词来进行检索,p s 格式的论文通过概率统计技术被自动根据标题来分类,论文 的题目、作者等采用隐马尔科夫模型来抽取i s l 。 国内对于文本自动分类的研究起步较晚,1 9 8 1 年侯汉青教授对于计算机在 文本分类工作中的应用做了探讨。此后,我国陆续研制了一批计算机辅助分类系 统和自动分类系统。南京大学的邹涛等人运用向量空间模型设计了一个中文文档 自动分类系统。中科院计算所的李晓黎、史中植等人应用概念推理进行文本分类 的研究。中国农业大学的陶兰等人用k o h o n e n 网络设计了文本自动分类系统, 它是一种自适应的神经网络1 6 1 0 文本自动分类问题最初是应信息检索的要求而出现的,在早期的研究中, 主要采用信息检索技术中布尔模型对文本进行分类,随着计算机运算速度的不断 第一章绪论 1 3 文本分类概述 1 3 1 文本分类的概念和特点 文本分类是w e b 文本挖掘领域中一个极为重要的问题,特别是在半结构化 w e b 文本信息极为丰富的情况下,以分类为基础的各种应用,如个人信息代理、 搜索引擎、网上信息发布等等,已经成为有效控制和利用海量信息的重要手段。 同时,文本分类涉及文本表示、特征选取、文本表示、学习算法以及算法决策等 复杂技术的综合应用馏1 ,是一个复杂的系统问题。他也是我们研究w e b 挖掘中 超文本的理论基础。 简单的说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容 和属性,将大量的文本归到一个或多个类别中。从数学的角度来看,文本分类是 一个映射过程,它将未表明类别的文本映射到已有的类别中,该映射可以是一一 映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数 学公式表示如式( 1 1 ) : 厂= 4 _ b 其中a = ( d 1 ,d 2 ,j 凡) b = ( c l ,c 2 。( ) 。式( 1 1 ) a 为所有待分类的文本的集合;b 为给定分类系统下,所有类别的集合。a 可以为无限集合,而b 必须为有限集合。文本分类的映射f 是文本分类系统的关 键,同时系统根据训练集的样本信息总结出的分类规律,来建立判别公式和判别 规则。文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总 结出分类的判别公式或判别规则。然后在遇到新文本时,根据总结出的判别规则, 确定新文本的类别。 在文本分类方面占主导地位的一直是基于知识工程的分类方法1 9 1 即由专业 人员编写分类规则来指导分类。近年来,基于机器学习的文本分类逐渐取代了基 于知识工程的方法,成为文本分类的主流技术。 基于机器学习的文本分类方法通常包含两个既相互独立又彼此联系的基本过 程,即离线训练过程和在线分类过程 1 0 1 。 1 离线训练过程的主要任务是对文本进行必要的分析和处理,找到能有效概括 类别信息或鉴别信息的特征表示,从而从训练文本( 一般为已知类别的文档) 中 学习分类知识,构建分类器。 2 在线分类过程的主要任务是将待分类文本转化成与训练文本相同的表示形 3 第一章绪论 式,并用训练好的分类器对其实施分类。为确保分类器的分类性能,需要不断的 对分类器的实际分类结果进行评估,并根据评估结果对原先的文本表示方式进行 必要的调整,使得分类效果达到最优,即一个反馈的过程。如图( 1 1 ) 图1 - 1 基于机器学习的文本分类的基本过程 f i g l 1t e x tc a t e g o r i z a t i o np r o c e s sb a s e do nm a c h i n el e a r n i n g 1 3 2 文本分类的评价标准 准确、快速是文本分类系统的目标 i i i 。由于文本分类任务很多,评价标准 也有很多。文本分类从根本上说是一个映射过程,所以评价文本分类系统的标准 是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评 价映射准确程度的参照物是通过专家思考判断后对文本分类结果( 这里假设人工 分类完全正确并排除个人思维的差异) ,与人工分类结果越接近,分类的准确程 度就越高,评价方法在文本自动分类中具有越重要的作用,特征抽取和分类器训 练都需要调用评价方法,文本分类的评价方法主要有一下几种u 刀: 1 准确度召回率曲线 这类方法是从信息检索的角度出发,把文本分类作为一个排序问题进行评 价。评价围绕着准确度一召回率曲线进行,最直接的方法是完整描绘出准确度一 召回率曲线。为了比较方便,有时需要计算一个确定的数值,来反映整体准确度 一召回曲线的结果。 2 分类准确率,分类召回率 这类方法是从模式识别的角度出发,将文本分类作为一个识别问题进行评价 的。评价不是围绕一条曲线而是针对某一个点进行的。传统模式识别多使用平均 决策损失作为优化分类器的目标,但文本分类中常用的指标为分类的查全率和分 类的查准率。 4 第一章绪论 本次论文实验使用的是国际上通用的查全率、查准率和f 1 值系统性能评价方 法。 查准率是所有判定的文本中与人工分类结果吻合的文本所占的比率。其数学 公式如式( 1 - 2 ) 下所示: 查准率= 姜蔷鬻驾藿 | 暑耋嚣4 ,。式c - 乞, 查全率是人工分类结果与应有的文本中分类系统吻合的文本所占的比率,其 数学公式如下所示 查全率:坌茎罢妻曼! 要! 妻塑1 0 0 式( 1 - 3 ) 应有的文本数 查全率与漏检率,查准率与误检率为互补关系,要想取得较高的检索效率, 就必须尽可能降低漏检率和误检率。从以上公式可知,查全率和查准率之间存在 着相互制约的现象,即提高查全率会使查准率下降,提高查准率会使查全率下降。 这是由于若要增大查全率,必须使需求表达尽量全面,以确保获得所有可能相关 的信息,因此,用户最终得到的信息量要比实际需求的信息量大,这就造成了相 对低的查准率;若要增大查准率,必须准确表达用户需求,从而保证用户获得的 信息肯定是需要的信息,这就造成一些相关信息不可避免地会被漏掉,降低了查 全率。因此,在实际检索过程中,必须同时兼顾查全率和查准率,不可片面追求 某一方面。 因此存在一种新的评价指标,f 1 测试值,其数学公式如下: f 1 测试值:奎全妻! ! 兰兰至兰+ 1 0 0 式( 1 - 4 ) 查全军+ 歪准翠 3 微平均和宏平均 另外有微平均和宏平均两种计算查全率、查准率和f 1 值的方法 1 3 1 0 微平均:计算每一类的查全率、查准率和f 1 值。 宏平均:计算全部类的查全率、查准率和f 1 值。 微平均( m i c r oa v e r a g i n g ) 计算所有类别中正确分类和错误分类的实例总数, 再求查准率p r 和查全率r e ,宏平均先计算各个类别的查准率p r 和查全率r e , 然后取算术平均,目前还没有关于哪种方法好的定论。当数据集间的差异比较大 时,两者值的差异也比较大。在某类别有较低的通用性时更倾向于宏平均。一般 来说,微平均易受大类结果影响,而宏平均是全部类别取均值,相对易受小类结 果的影响。因此,他们各有利弊,需要具体问题具体分析,根据具体情况采用合 适的评价标准。 5 第一章绪论 1 3 3 文本分类流程及需要解决的问题 文本分类过程主要包括两个步骤:分类器的训练和分类器的测试过程。在训 练的过程中,首先要生成训练文本的特征,得到特征的集合;根据特征选择算法 从文本特征的全集中抽取最优的特征子集;这里的“最优子集是用评价算法来 判定的,它根据分类器对由特征子集所表示的训练文本分类,并对分类性能进行 性能评价、属性选择、分类训练和测试评估构成一个循环,根据测试结果,调整 属性选择和分类训练的参数,使得分类器具有更佳的分类效果t 1 4 1 。 文本分类需要解决如下几个问题: 1 获取训练文本 训练文本及选择时间对文本分类的性能是有较大影响。训练文本集应该能够 广泛代表分类系统所要处理的各个类别中的文本。一般的特征,训练文本应该是 公认的经人工分类的语料库。 2 属性选择 语言是一个开放的系统,作为语言的一种书面物化物或者电子化的文本也是 第一章绪论 对文本表示方法、文本分类流程以及如何提取文本特征进行了详细的介绍。并对 常用的基于布尔模型、向量空间模型和人工神经网络模型的文本分类系统进行实 验、分析、比较。 第3 章基于统计语言模型的文本表示方法的最大熵模型和决策树分类方法 的性能研究。详细介绍了最大熵模型和决策树模型。并对这两种分类模型进行了 性能比较研究及参数设置的对分类器的影响。为了提高i d 3 算法分类器的运算速 度,我们对i d 3 算法进行了修正。 第4 章齐普夫定律在中文文本分类适应性研究。本章介绍了首次揭示词频和 序号关系的著名定律齐普夫定律。通过实验验证了齐普夫定律同样适应于中 文词频。通过实验给出了齐普夫定律参数估计和验证的方法。 第5 章结论,对本文所做工作进行总结。 7 - 第二章几种常用分类方法的性能研究 第二章几种常用分类方法的性能研究 信息革命推动全球经济以前所未有的速度向前发展,网络技术、数据库技术 的普及和发展为信息革命提供了技术保证和平台。一方面,人们希望获得越来越 多的信息;另一方面,在大量的信息中快速和高效地检索所到需要的内容越来越 困难。因此,迫切需要对大量文本信息进行有效的处理,文本分类就相应而生。 从2 0 世纪6 0 年代中期以来,人们提出了大量的文本分类模型n 卯。当前应用 中最主要的三个基本模型是布尔逻辑模型、向量空间模型和神经网络模型。本章 主要是对以上三种模型分别实现,并加以改进、分析、比较。 2 1 文本的表示方法 分类所要解决的问题,就是判定文本与类别之间的映射关系的问题。把文本 和类别关系用数学模型表示出来,才能够对它们之间的相关度进行计算,因而文 本表示模型是文本分类的基础和前提。目前常用的模型有向量空间模型和语言模 型t 1 6 l 。 1 向量空间的文本表示方法 用向量来表示文本。通过语料库的分析以及各种经验可知,选取词作为文本 表示特征是比较合适的,对于一个由n 个词组成的向量空间t m ,屹o o o oo o , ,其 中7 是每个词的权重,我们认为文本是可以用向量空间来进行表示。通过对文 本进行分词,就可以由这些词作为向量的维数来表示文本。布尔向量模型是单纯 用0 ,1 表示某个词是否出现,这

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论