




已阅读5页,还剩46页未读, 继续免费阅读
(计算机软件与理论专业论文)基于向量空间模型的自适应文本过滤系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
山东师范大学硕士学位论文 基于向量空间模型的自适应文本过滤系统研究 摘要 近年来,随着互联网的不断发展和普及,各种各样的信息以爆炸般的速度产生。信息 资源已经成为一种新的财富。但是,信息的日益增多带给人们诸多便利的同时也带来了诸 如犯罪、色情、暴力、迷信以及邪教宣传等不良信息泛滥和信息过载等等很多问题。而且 那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不 便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信 息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经成为当前互联网研 究和发展的一个重要问题。 信息过滤便是在这种情况下产生的。信息过滤随着信息检索的发展而长期被人们研究。 它是一个寻找符合人们兴趣的信息的处理过程,也就是从大量的动态信息中找出最大程度 地满足用户真实需求并且滤除其它无用信息和非法信息的过程。信息过滤根据处理的信息 内容可以分为文本信息过滤和非文本信息过滤。 文本信息过滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索满 足用户需求的文本的过程。t r e c 把文本过滤分为两种类型:一种是基于内容的文本过滤; 另一种是基于合作模式的文本过滤。文本过滤作为信息过滤的一个研究分支,它涉及的知 识范围非常广泛,综合了自然语言理解、人工智能以及知识论等领域的知识,其关键技术 主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及 机器学习等。 本文研究的内容是文本过滤,主要是i n t e m e t 上文本的过滤。论文的主要工作集中在自 适应文本过滤系统的关键技术上,主要从以下几个方面进行了探讨: 1 对当前广泛采用的一些文本过滤评价指标、文本特征项权重评估函数以及用户模板 学习方法进行了总结。 2 在分析研究期望交叉熵和互信息这两个文本特征项权重评估函数的基础上,基于两 者对特征项权重评估的不同侧重功能,提出了将两者结合起来对文本特征项进行权重评估 并在此基础上进行特征提取的方法。相关实验结果验证了该方法的可行性。 3 提出了一种基于概念学习的过滤模板获取方法。该法结合处理文本特征项的需要改 进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中 提取用户过滤模板。实验结果表明,与直接使用主题描述i 作为过滤模板的方法相比,该法 l 山东师范大学硕士学位论文 较大地提高了过滤精度,可以达到比较令人满意的过滤效果。 4 设计了一个实现自适应文本过滤系统的较为详细的流程图,而且针对系统实现的几 个关键过程进行了分析并对分词及文本特征向量降维等问题从理论上给出了解决方法。 关键词:向量空间模型;自适应文本过滤:文本特征提取;用户模板;过滤闽值 中图分类号:t p 3 9 1 i 【 山东师范大学硕士学位论文 r e s e a r c ho f a d a p t i v et e x tf i l t e r i n gs y s t e mb a s e do nv e c t o rs p a c em o d e l a b s t r a c t i nr e c e n ty e a r s v a r i o u si n f o r m a t i o ni sc r e a t e dw i t ht h es p e e do fe x p l o s i o na l o n gw i mt h e r a p i dd e v e l o p m e n ta n dp o p u l a r i z a t i o no fc o m m u n i c a t i o nn e t w o r k s i n f o r m a t i o nr e s o u r c eh a s a l r e a d yb e c o m eak i n do fn e ww e a l t h b u ta si tb r i n g su sm u c hc o n v e n i e n c et h a tt h ei n f o r m a t i o n i n c r e a s e si n c r e a s i n g l y , w em e e tm o r ea n dm o r ep r o b l e m s :s o m ei n f o r m a t i o ns u c ha sd e l i c t 、 e r o t i c i s m 、v i o l e n c e 、s u p e r s t i t i o na n de v i lr e l i g i o ne t ci sh a r m f u lt oo u rh e a r t ;i n f oo v e r l o a da n ds o o n f u r t h e r m o r e ,t h ea m o u n to f t h eu s e l e s so rh a r m f u li n f o r m a t i o nm u c hm o r et h a nw h a tw en e e d , a n di tb r i n g su sm u c hi n c o n v e n i e n c e a tp r e s e n t ,i no r d e rt om a k eu s eo fi n f o r m a t i o nr e s o u r c e a v a i l a b l y , h o wt oe x p r e s st h er e q u i r e m e n t o fu s e r sa c c u r a t e l ya n df a r t h e rs c r e e no u tt h e i n f o r m a t i o nt h a ts a t i s f i e st h eu s e r sa u t o m a t i c a l l ya n df i l t e r i l l e g a li n f o r m a t i o na n du s e l e s s i n f o r m a t i o ni nt h el a r g e s c a l ei n f o r m a t i o nf l o w , h a sa l r e a d yb e c o m ea ni m p o r t a n tp r o b l e mi nt h e r e s e a r c ha n dd e v e l o p m e n to f c o m m u n i c a t i o nn e t w o r k s t oo v e r c o m et h o s ep r o b l e m s ,t h er e s e a r c ho fi n f o r m a t i o nf i l t e r i n gh a sd r a w nm u c ha r e n t i o n i n f o r m a t i o nf i l t e r i n gh a sb e e nr e s e a r c h e d ,f o ral o n gt i m ea l o n gw i t ht h ed e v e l o p m e n to f i n f o r m a t i o nr e t r i e v a l i ti sap r o c e s st os e a r c ht h ei n f o r m a t i o nt h a ts a t i s f i e st h eu s e r s ,n a m e l ya p r o c e s st h a tf i n d so u tt h ei n f o r m a t i o nt h a ts a t i s f i e st h eu s e r sa n df i l t e ri l l e g a li n f o r m a t i o na n d u s e l e s si n f o r m a t i o ni nt h el a r g e s c a l ei n f o r m a t i o nf l o w i n f o r m a t i o nf i l t e r i n gc u nb ed i v i d e di n t o t w op a r t s ,n a m e l yt e x ti n f o r m a t i o nf i l t e r i n ga n dn o n - t e x ti n f o r m a t i o nf i l t e r i n g ,a c c o r d i n gt ot h e c o n t e n to f t h ei n f o r m a t i o nt h a ti sp r o c e s s e d t e x ti n f o r m a t i o nf i l t e r i n g ,n a m e l yt e x tf i l t e r i n g ,i sap r o c e s st h a tf i n d so u tt h et e x tt h a t s a t i s f i e st h eu s e r sf r o mt h el a r g e s c a l et e x tf l o w , a c c o r d i n gt ot h er e q u i r e m e n to ft h eu s e r s t e x t f i l t e r i n gi sd i v i d e di n t ot w ok i n d so ft y p eb yt r e c :o n ei st e x tf i l t e r i n ga c c o r d i n gt ot h ec o n t e n t o f t h et e x t ;a n dt h eo t h e ri st e x tf i l t e r i n go nt h eb a s i so ft h em o d eo fc o o p e r a t i o n a sab r a n c ho f i n f o r m a t i o nf i l t e r i n g ,t e x tf i l t e r i n gr e l a t e st oe x t e n s i v ek n o w l e d g e ,a n di tc o l l i g a t e sal o to f k n o w l e d g ei nn a t u r a ll a n g u a g ec o m p r e h e n s i o n 、a r t i f i c i a li n t e l l i g e n c ea n dk n o w l e d g et h e o r y e t e t 1 1 ek e yt e c h n i q u eo f t e x tf i l t e r i n gm a i n l yi n c l u d e sp a r t i c i p l eo f t e x t 、d e c r e a s i n gd i m e n s i o no f t e x te i g e n v e c t o r 、f e a t u r ee x t r a c t i o n 、i n i t i a l i z a t i o no fu s e rp r o f i l ea n df i l t e r i n gt h r e s h o l da n d m a c h i n e l e a r n i n ge t c t t t 山东师范大学硕士学位论文 t h i sd i s s e r t a t i o nm a i n l ys t u d i e st e x tf i l t e r i n g ,a n di te s p e c i a l l ys t u d i e st h et e x tf i l t e r i n gi n i n t e m e t i tf o c u s e so i lt h ek e yt e c h n i q u e so f t h ea d a p t i v et e x tf i l t e r i n gs y s t e m ,a n dd i s c u s s e saf e w a s p e c t sa sf o l l o w sm a i n l y : 1 t h i sd i s s e r t a t i o ns u m m a r i z e ss o m ee v a l u a t i o nm e a s u r e si nt e x tf i l t e r i n g 、s o m ee v a l u a t i o n f u n c t i o n sa b o u ti m p o r t a n c eo ft e x tf e a t u r ei t e ma n ds o m em e t h o d sa b o u tu s e rp r o f i l el e a r n i n g w h i c ha r eu s e dw i d e l ya tp m s e m 2 t h i sd i s s e r t a t i o ns u g g e s t sam e t h o do fc o m b i n i n gb o t hf u n c t i o nt oe v a l u a t ei m p o r t a n c eo f f e a t u r ei t e mo nt h eb a s i so fa n a l y s i n ga n dr e s e a r c h i n ge x p e c t e dc r o s se n t r o p ya n dm u t u a l i n f o r m a t i o nw h i c ha r ee v a l u a t i o nf u n c t i o n sa b o u ti m p o r t a n c eo ft e x tf e a t u r ei t e ma n du s i n gt h e i r d i f f e r e n tf u n c t i o n t h er e s u l to f r e l e v a n te x p e r i m e n th a sp r o v e dt h ef e a s i b i l i t yo f t h i sm e t h o d 3 t h i sd i s s e r t a t i o nb r i n g sf o r w a r dam e t h o do fc o n s t r u c t i n gf i l t e r i n gp r o f i l e t h em e t h o d i m p r o v e st h ef i n d m a x i m u m - s p e c i a l s u p p o s i o na l g o r i t h mi nt h em e t h o d so fc o l l c e p tl e a r n i n gb y c o m b i n i n g t h en e e df o rd e a l i n gw i t ht h et e x tf e a t u r ei t e m sa n dc o n s t r u c t sf i l t e r i n gp r o f i l ef r o ma f e w 订a i m n gt e x t sb yu s i n gt h en e wa l g o r i t h m t h er e s u l to fe x p e r i m e n t ss h o w st h a t , c o m p a r e d w i t ht h em e t h o dw h i c hu s e st h es u b j e c t d e s c r i p t i o na sf i l t e r i n gp r o f i l es t r a i g h t ,t h i sm e t h o d i m p r o v e st h ep r e c i s i o no ff i l t e r i n gm a r k e d l y , a n d i tc a no b t a i nt h es a t i s f y i n ge f f e c t 4 t h i sd i s s e r t a t i o nd e s i g n e sad e t a i l e df l o wc h a r tt oc a r r yo u tt h ea d a p t i v et e x tf i l t e r i n g s y s t e m , a n da n a l y z e saf e wk e yp r o c e s s e so ft h er e a l i z a t i o no fs y s t e m f u r t h e r m o r e ,i tp r e s e n t si n t h e o r yaf e wr e l e v a n tm e t h o d st or e s o l v e t h ep r o b l e m s ,s u c ha sp a r t i c i p l ea n dd e c r e a s i n g d i m e n s i o no f t e x te i g e n v e c t o ra n ds oo n k e y w o r d s :v e c t o rs p a c em o d e l ;a d a p t i v et e x tf i l t e r i n g ;t e x tf e a t u r ee x t r a c t i o n ;u s e rp r o f i l e f i l t e r i n gt h r e s h o l d c l a s s i l l c a t i o n :t p 3 9 1 i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得( 注:如没有其他需要特别声明的,本栏 可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 辛场易字:俘三敦 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权! 差蕉可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:寻j 辛参 导师签字: 修镌戈 签字日期:2 0 06 年r 月f 日 签字日期:2 0 0 膦j 月z7 日 山东师范大学硕士学位论文 第一章绪论 人类社会已进入飞速发展的信息时代,计算机信息技术的发展,为信息的传播、转换、 存储、创造和处理提供了前所未有的手段,特别是以日新月异的多媒体技术、网络技术为 代表的信息传播技术在各个领域里的广泛应用,海量的信息以爆炸般的速度产生。信息日 益成为社会各领域中最活跃、最具有决定意义的因素,信息资源已经成为一种新的财富。 信息的急剧增加为人们获取所需信息提供了有利的条件,然而面对瞬息万变的信息海 洋,如何帮助人们更迅速、更有效、更准确地找到自己感兴趣的信息就成为一个亟需解决 的问题。 1 1 文本过滤的研究背景和内容 1 1 1 文本过滤的研究背景 随着i n t e r a c t 的不断普及,功能强大的信息网络使人们享受到前所未有的获取信息的便 利条件,使人们能够获得丰富多彩的信息资源,可以说互联网技术己经渗天到我们生活的 各个角落,但是对于因特网上的海量信息,人们却常常感到迷茫。一方面是因为人们在信 息的海洋中查找所需信息需要花费大量的时间和精力。另一方面,网络上提供的信息是形 形色色的。在浩如烟云的信息中充斥了大量的有关各种暴力、犯罪、色情、邪教、反动等 不良信息,这些不良信息正在侵害着人们的精神生活。所以滤除不良信息给人们提供一个 良好的信息资源获取环境已引起人们的高度关注。 在信息爆炸的今天,时间和效率就是一切。借助于某种工具滤除各种非法的、有害的 或无用的信息进而迅速有效得获取有价值的信息已经成为人们事业成功的基础关键问题。 互联网上提供的信息可以分为文本信息和非文本信息( 比如图像、图形和声音等) ,目前的 网络信息大部分表现为文本形式,所以有关文本处理的各种技术在这种形势下得到极大的 促进和发展,文本过滤技术便是其中之一种。国际学术界及企业界对文本过滤表现出极大 兴趣,著名的文本检索会议( t e x tr e t r i e v a lc o n f e r e n c e ,简称t r e c ) 及主题检测和跟踪会议 ( t o p i cd e t e c t i o na n dt r a c k i n g ,简称t d t ) 都把文本过滤作为主要研究内容之一。 1 1 2 文本过滤的研究内容 文本过滤( t e x tf i l t e r i n g ) 是信息过滤( i n f o r m a t i o nf i l t e r i n g ) 的一个研究忿支。信息 山东师范大学硕士学位论文 过滤随着信息检索( i n f o r m a t i o n r e t r i e v a l ) 的发展而长期被人们研究,它是一个寻找符合人 们兴趣的信息的处理过程,也就是从大量的动态信息中找出最大程度地满足用户真实需求 并且滤除其它无用信息和非法信息的过程。 信息过滤根据处理的信息内容可以分为文本信息过滤和非文本信息过滤。文本信息过 滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索满足用户需求的文 本的过程。 t r e c 1 1 把文本过滤分为两种类型:一种是基于内容的文本过滤;另一种是基于合作模 式的文本过滤。 ( 1 ) 基于内容的文本过滤 基于内容的文本过滤( c o n t e n t b a s e df i l t e r i n g ) 假定每个用户相互独立,文本表示只依 赖于文本本身的内容,过滤的结果仅仅依赖于用户的信息需求模型( 即用户模板) 与文本 的匹配程度。基于内容的文本过滤可以通过用户模板学习等方法来提高过滤的效率。 基于内容的文本过滤基本上包括以下几个过程:首先把用户的查询要求表达出来,并 结合一定的训练文本进行相关训练;然后把输入的文本表示出来,以便能够与用户的查询 要求进行相似度计算;最后经过用户查询需求和待滤文本的比较,把输入文本中的相关文 本提交给用户。 ( 2 ) 基于合作模式的文本过滤 基于合作模式的文本过滤,也称为社会过滤( s o c i a l f i l t e r i n g ) 。它不仅根据文本的内容, 还根据其它用户对该内容的评价进行过滤。这种过滤模式的出发点在于任何人的兴趣不是 孤立的,而应处于某个群体当中。在日常生活中,人们接受的信息往往是周围人推荐的结 果。因此,根据相同或者相近兴趣的用户对相应文本作出的评注,向其他用户进行推荐。 基于合作模式文本过滤的基本过程是:首先根据用户对文本的评注结果,将用户划分 为若干不同的类别,使兴趣相同或相近的用户位于同一类;用户的推荐机制综合考虑来自 类别内部和类别外部的影响,按照影响的强度向用户推荐相应的文本;根据用户的评注, 动态调整用户类别以及相应地修改各类参数,以便改善过滤效率。 1 2 文本过滤的发展及现状 1 2 1 文本过滤的产生及发展 文本过滤是信息过滤的一个研究分支, 理解、人工智能以及知识论等领域的知识。 2 它涉及的知识范围非常广泛,综合了自然语言 文本过滤从产生到不断完善经过了较长的二一段 山东师范大学硕士学位论文 时间。 1 9 5 8 年,l u l u l 提出了“商业智能机器”的设想。在这个概念框架中,图书馆工作人员 为每个用户建立用户需求模型,然后通过精确匹配的文本选择方法,为每个用户产生一个 符合用户信息需求的新文本清单;同时记录用户所订阅的文本,用于更新用户的需求模型。 虽然缩微胶片和打印机技术的发展,使得实现过程的物理细节有所不同,但其工作涉及到 了信息过滤系统的每一个方面,为文本过滤的发展奠定了坚实的基础。 1 9 6 9 年,s d i ( s e l e c t i v ed i s s e m i n a t i o n o f i n f o r m a t i o n ,选择性信息分发) 系统引起了人 们的广泛兴趣,导致了美国信息科学协会成立了s i g s d i ( 选择性信息分发系统兴趣小组) 。 当时大多数系统都遵循l u h n 模型,只有极少的系统能够自动更新用户需求模型,其它大多 数系统仍然依靠专门的技术人员或由用户自己维护。s d i 兴起的两个主要原因是实时电子 文本的可用性和用户需求模型与文本匹配计算的可实现性。 1 9 8 2 年,d e n n i n g 提出了“信息过滤”的概念,其目的在于拓宽传统的信息生成与信 息收集的讨论范围。他描述了一个信息过滤的需求例子:对于实时的电子邮件,利用过滤 机制,识别出紧急的邮件和一般例行邮件。他采用了一个“内容过滤器”来实现过滤。其 中,采用的主要技术有:层次组织的邮箱、独立的私人邮箱、特殊的传输机制、阈值接收、 资格验证等。 1 9 8 7 年,m a l o n e 等人发表较有影响的论文,并且研制了系统“i n f o r m a t i o nl e n s ”。提 出了三种信息选择模式,即认知、经济和社会。所谓的认知模式相当于d e n n i n g 的“内容 过滤器”,即基于内容的过滤;经济模式来自于d e n n i n g 的“阈值接收”思想;社会模式是 他最重要的贡献,目前也称为“合作过滤”。在社会过滤系统中,文本的表示是基于阻前读 者对文本的标注,通过交换信息,自动识别具有共同兴趣的团体。 1 9 8 9 年,信息过滤获得了大规模的政府赞助。由美国d a r p a 资助的“m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ”,极大地推动了信息过滤的发展。它将信息抽取技术用于支持信 息的选择,在将自然语言处理技术引入文本过滤研究方面进行了积极地探索。1 9 9 0 :年, d a r p a 建立了t i p s t e r 计划,目的在于利用统计技术进行消息预选。然后再应用复杂的 自然语言处理。这个文本预选过程称之为“文本检测”。 i 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年一次的t r e c ( t e x tr e t r i e v a lc o n f e r e n c e ,文本检索会议) ,对文本检索和文本过滤倾注了极大的热忱。 到2 0 0 4 年为止已举办了1 3 届,t r e c 旨在通过提供规范的大规模语料( g b 级) 和对文本 检索系统性能的客观、公正的评测,来促进技术的交流、发展和产业化;促进政府部门、 学术界、工业界间的交流和合作,加速技术的产业化;发展对文本检索技术的评测技术; 3 山东师范大学硕士学位论文 对文本过滤的形成和发展提供了强有力的支持。 目前,随着网络的不断普及和信息技术的发展,文本处理技术的需求不断增加,使得 文本过滤技术得到了更进一步地发展,并成为信息处理领域中十分重要的研究方向。 1 2 2 文本过滤的发展现状 文本过滤作为一个新的研究领域其任务定义一直在不断地演化,难度越来越大但也越 来越接近于真实环境。2 0 0 0 年举行的t r e c 一9 给出了一个文本过滤项目的任务描述:给定 一个主题描述( 也就是用户需求) ,建立一个能够从文本流中自动选择最相关文本的过滤模 板,继而随着文本流的逐渐进入,过滤系统能够自动地接受或拒绝文本,并得到文本相关 与否的反馈信息,再根据反馈信息自适应地修正过滤模板。 文本过滤作为信息过滤的分支已成为个十分重要的研究方向。目前,国外已出现投 入使用的信息过滤系统,比如c i t e s e e r 。c i t e s e e r 也叫r e s e a r c h i n d e x ,是由n e c 公司在美 国普林斯顿的n e c 研究所( n e cr e s e a r c hi n s t i t u t e ,i n c ) 研制开发的。c i t e s e e r 采用机器自 动识别技术搜集互联网上p o s t s c r i d t 和p d f 文件格式的各种类型的学术论文,然后依照引 文索引方法标弓l 和连接每一篇文献。至今c i t e s e e r 标引的网页数超过1 0 0 0 万,存储的文献 全文达6 0 万篇:内容主要涉及计算机科学领域,主题包括智能代理、人工智能、硬件、软 件工程、数据压缩、人机交互、操作系统、数据库、信息检索、网络技术、机器学习等【2 】。 除了c i t e s e e r ,另外还有p e r s o n a lw e b w a t c h e r 、l e t i z i a 以及i f w e b 等等p j ,这些系统虽然仍 存在许多不足和要改进完善的地方,但是它们在特定范围内成为快速、有力的工具,从而 在一定的程度上为人们迅速地获取有价值的信息提供了方便。 国内包括文本过滤在内的有关信息过滤的研究目前主要多见于一些算法。这些算法主 要是针对自适应过滤系统中文本特征提取、相似度计算、用户模板构造、过滤算法以及模 型设计等一些关键技术进行研究的。在文本特征提取方面,近年来提出了许多算法。比如, 文【4 针对通常采用的用字、词作为特征项的方法具有无法表达文本语义信息的显著缺点, 在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽 取方法;文 5 】根据中文文本的特点,提出了基于因子分析的文本特征抽取机制,通过识别 文本中潜在的概念结构来抽取特征项;文 6 】以向量空间模型为w e b 文本的表示方法,提出 了一个基于遗传算法的w e b 文本特征抽取算法;文【7 】从自动文摘的需求出发,探讨特征词 自动抽取的方法和技术,设计并实现了两种不同的特征词自动抽取算法,即基于分类的特 征词抽取方法和基于统计的特征词抽取方法;文 8 】把文本内容抽象成领域( 静态范畴) 、情 景( 动态描述) 、背景( 褒贬、参照等) 3 个框架,一在语境框架的基础上,设计实现了文本 正 山东师范大学硕士学位论文 特征提取算法 文 9 基于数据挖掘技术,用向量空间模型表示文本,提出了一个基于协同 演化遗传算法的多文本特征抽取算法;文【4 7 提出了基于与统计量相关的相对词频作评估函 数的改进模型,此模型结合现代汉语词频统计结果,使用相对词频来选择特征词,较好地 区分了特定类别与类别外文本。在相似度计算方面,文【1 0 】在语境框架的基础上,设计实现 了文本相似度计算算法,从概念层面入手,充分考虑了文本的领域和对象的语义角色对相 似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实 现了文本间语义相似程度的量化。在用户模板构造方面,文【1 1 提出了一种基于非负矩阵分 解( n m f ) 的用户模板构造方法,应用n m f 算法分解项文本矩阵来获取项之间的相关性, 而且在此基础上引入了语义向量和权重向量的概念并通过定义语义向量的类别区分度来提 取用户模板。另外文【1 2 【1 3 【1 4 】【1 5 】分别提出了基于混合模式、基于合作模式、基于聚类的 文本过滤模型以及基于示例的中文文本过滤模型:文 1 6 】在定义元符号及演算规则的基础 上,基于字符串匹配,给出了一个不良信息文本过滤模型。 i 3 本文的组织结构 本文的主要工作是对自适应文本过滤系统的几个关键问题进行了分析研究。具体体现 在文本特征提取、用户过滤模板构造以及基于向量空间模型的文本过滤系统逻辑模型设计 等方面。 全文共分为六章。 第一章概述了文本过滤的研究背景、内容、产生、发展以及研究现状。 第二章介绍了文本过滤基础知识。主要包括自然语言理解、机器学习、文本过滤与文 本检索的关系以及文本过滤评测指标等。 一 第三章讨论了文本过滤中的文本表示,重点分析了文本特征的提取及权重计算问题, 并给出了一种基于双重评估函数的文本特征提取方法。 第四章讨论了文本过滤中用户模板的生成、模板学习以及过滤阈值设置和闺值学习问 题。主要分析了用户模板和过滤阂值的设置问题,并给出了一种基于概念学习的用户模板 生成方法。 第五章探讨了基于向量空间模型的文本过滤系统逻辑模型设计,介绍了向量空间模型 。和自适应文本过滤系统的体系结构,重点在于设计了一个实现自适应文本过滤系统的较为 详细的流程图,而且针对系统实现的几个关键过程进行了分析并对分词及文本特征向量降 维等问题从理论上给出了解决方法。 第六章总结了本文的主要工作,并探讨下步的研究工作: s 山东师范大学硕士学位论文 第二章文本过滤基础知识 自然语言理解、机器学习、文本检索等领域与文本过滤有着紧密的联系,对文本过滤 的形成和发展有着极大的推进作用。 2 1 自然语言理解 自然语言是人类交际的工具,也是人类思维的工具。对文本理解来说,最重要的是研 究人类的认知行为,从认知心理学的观点来看,人类的认知过程分为信息获取、信息存储、 信息加工以及信息使用等环节。人们对信息的获取过程,实际上是新信息和已经存储在头 脑中的固有的知识和经验模式相互作用的结果。 人们在日常生活中对某类事件会形成一定的框架结构,也就是模式。人们记忆中存在 许多固定的模式,如果有适当的外部刺激就收集刺激的有关特征,在已有知识支持下与目 前的模式相比较,并将满足一定条件的确认为相应类别的模式。这也就是一个类比的过程。 按照h a l l e 的观点,新旧类比物是否真正匹配成功应从三个层次来考虑:一是结构对应:二 是语义对应;三是语境对应。j 结构表示两个类比物的源和目标是否一致,语义是指语义类 的预定义编码,语境则与上下文有关。 在文本过滤中,为了表示用户提出的信息需求,可以采用基于框架的表示方法。它的 基本出发点是:人们对于现实世界的各种事物的认识,均以类似于框架的结构存储在脑海 中,当面临一个新的事物,就在记忆中寻找合适的框架,根据目前的实际情况,对其细节 加以修改和补充,形成对新事物的认识。这样的理论基础为用户模板的知识表示提供了良 好的解释机制。 文本过滤需要处理两个方面的内容:一个是用户的信息需求,它代表着用户的兴趣, 通过它约束搜索的范围,寻找相关文本;二是文本的理解,理解作者在文章中所表达的主 题思想和表达方式等,分析其所包含的主要特征,用于描述文本。这就需要统一协调读者 的兴趣和作者的主题思想之间的表达方式,能够充分表达读者的阅读兴趣,又能适应不同 作者、不同形式、不同体裁的文章。对于用户一方,可以通过明确的、可操作的模板来加 以描述,尽管可能施加某些形式的约定;对于文本的理解,则远不是通过简单的规则或信 息抽取所能描述的:需要复杂的自然语言理解技术。 。 鉴于目前自然语言理解的发展现状,全面分析理解文本的主题思想,并给出具体明确 的解析表达,还有一定的困难。即使对整个文本进行语法、语义分析,也往往会因为资源 6 山东师范大学硕士学位论文 和响应时间的制约而无法进行到底。因此最近几年,计算语言学领域出现一个新的发展趋 势,就是对于真实文本的处理采用部分分析。 2 2 机器学习 在用户反馈的基础上进行机器学习,获取用户需求模型,改善过滤效果,是设计文本 过滤模型的重点研究对象。完全的特征向量包括文本信息和用户对文本处理的反馈信息, 通过结合文本表示的特征信息和用户反馈的特征向量,形成文本的特征向量。对于一个新 的文本,只能通过已知的信息,模仿用户的判断去推测未知的信息。这就是所谓的机器学 习。 用户反馈一般有两种类型:明确反馈和隐含反馈。明确反馈是用户对于收到的文档是 否感兴趣,从而给出明确的答复y e s 或n o ,也可采用分级和打分的方法来表示喜爱或讨厌 的程度;而隐含反馈是收集用户对于收到的文档的行为特征作为反馈,而不需要用户直接 回答。选择的行为特征包括如下内容:( 1 ) 浏览特定页时所花费的时间;( 2 ) 对每个推荐 页用户进行选择的数值:( 3 ) 哪些页用户曾点击过,哪些页从未点击过;( 4 ) 哪些页用户 t 选择了保存;( 5 ) 浏览特定页速度的快慢。 在规范地监督学习中,机器要处理一系列特征向量,即训练集,用它们来预知另外特 征集的丢失信息,这是一个归纳过程。在机器学习中,会引入三种必然的偏差:表示方法、 搜索技术和领域知识。向量空间模型的文本表示采用向量方式,文本与模板的匹配采用夹 , 角余弦,因此,存在表示方法和搜索方面的偏差。 监督学习特别适应于用户二元反馈的严格匹配过滤系统,因为此时在训练集中恰好包 含了对于新文本所必需估计的信息。这就是分类的特殊情况。监督学习也可以应用于排序 输出的过滤系统,每个文本获得相应的分值,表示系统对于用户打分的估计值。当采用隐 含反馈时,则依据某些观察参数的预测值排序输出。手工建造的用户模型结合观察值用于 产生使用的估计值,并适应于训练集。 目前,己知应用于文本过滤系统的机器学习方法有如下几种 l :规则推理,基于示例 的学习,统计分类,神经网络,遗传算法,l o g i s t i c 回归。应用机器学习的好处在于: 通过特征选择来降低维数。选择最具有代表性的特征项,可以改进过滤效率。 2 3 文本过滤与文本分类及文本检索的关系 文本过滤与文本分类及文本检索有很大的相似之处。 7 山东师范大学硕士学位论文 文本分类就是将文本归到若干类别中。在文本分类过程中,文本的类别可以是预先给 定的,也可以是不确定的。前者对应自动分类中的自动归类,而后者对应自动分类中的自 动聚类。自动归类是分析被分类对象的特征,并与各种类别中对象所具有的共同特征( 或 一定的分类标准、分类参数) 进行比较,然后将对象划归为特征最接近的一类( 或最符合 标准参数的类) ,并赋予相应的分类号。在文本过滤中,判断文本是否符合用户需求可以 看作是一个两种类别( 是否) 的分类问题。 文本检索是给定检索需求,从文本库中搜索相关文本的过程。文本过滤与文本检索非 常相似,不同的是:文本检索有相对固定的文本库和千变万化的检索需求,而文本过滤则 有着相对固定的用户需求和动态变化的文本流。 2 3 1 文本检索技术 文本过滤与文本检索有着极为密切的联系。过滤实质上是建立在检索的基础之上的, 因为它借鉴了许多检索的表示方法和技术。 文本检索经常使用的模型主要有三个:布尔模型、概念模型和向量空间模型【1 7 l 。 ( 1 ) 布尔模型 , 布尔模型是基于特征项严格匹配的模型。首先,建立一个二值变量的集合,这些变量 对应于文本的特征项。文本用这些特征变量来表示,如果出现相应的特征项,则特征变量 取t r u e :否则,特征变量取f a l s e 。查询由特征项和逻辑运算符a n d 、o r 和n o t 组成。 文本与查询的匹配规则遵循布尔运算的法则。 布尔模型的主要优点是:速度快:易于表达一定程度的结构化信息。其缺点是:把布 尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析: 过于严格,缺乏灵活性,更谈不上模糊匹配,往往忽略了满足用户需求的文本。 ( 2 ) 概率模型 在信息检索中,由于文本信息相关性判断的不确定性和查询信息表示的模糊性,促使 人们使用概率的方法解决这方面的问题。信息检索的概率模型是基于概率排序原则:对于 给定用户查询q ,对所有文本计算概率,并从大到小进行排序,概率公式为p ( r d ,q ) 。其 中,r 表示文本d 与用户查询q 相关。另外,用r 表示文本d 与用户查询q 不相关,有 p ( r d ,q ) + p ( r l d ,q ) = 1 ,也就是用二值形式判断相关性。 此外,还有一种概率模型使用推理网络。网络中的一个节点代表一个文本、一个查询 或一个概念,网络中节点问的概率相关性。它的基本思想是:在计算p ( d 卜q ) 时,把文 本l 节点置为t r u e ,计算与该文本节点相依的节点的概率,直至得到p ( q = t r u e ) 的值为止。 r 山东师范大学硕士学位论文 ( 3 ) 向量空间模型 向量空间模型把文本表示成n 维欧氏空间的向量,用它们之间的夹角余弦作为相似性 的度量。在向量空问模型中,首先要建立文本的特征向量和用户查询向量,然后对这些向 量进行相似性计算( 匹配运算) ,在匹配结果的基础上进行相关反馈,优化用户查询,提高 检索效率。 生成特征向量包括特征项获取、特征项加权和特征项变换等步骤。从文本中提取特征 项,涉及到文本特征提取问题。目前,在文本检索处理中所使用的典型特征项是关键字或 短语。进一步的工作就是用语义分析,获得比字词更为具体和丰富的特征,如获取短语特 征、建立特征分类词典,但实现这样的工作现在还有一定的困难,具有代表意义的特征获 取已经成为文本检索的一个瓶颈问题。 , 向量空间模型的优点在于:将文本和查询简化为特征项及其权重集合的向量表示,从 而把检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统计来完成, 通过定量的分析,匹配文本和查询。其
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二年级数学下册 三 生活中的大数第6课时 比一比(1)教学设计 北师大版
- 人教部编版(2024)七年级2025年卖油翁教案及反思
- 人教版生物八年级上册6.1.1《尝试对生物进行分类》教学设计
- 人教部编版 九年级历史下册第10课 《凡尔赛条约》和《九国公约》教学设计
- 人教 版五年级美术下册《第3课 抽象的雕塑》教学设计
- 人教版历史八上第22课科学技术与思想文化教学设计2份 (2份打包)
- 专题11 标点符号之问号(教案)-2024-2025学年高考语文一轮复习之语言文
- 九年级英语上册 Unit 4 I used to be afraid of the dark Section B(1a-1e)教学设计(新版)人教新目标版
- 专题四第1课一、《智能家居》教学设计 2023-2024学年青岛版(2018)初中信息技术八年级上册
- 人教部编九年级上册历史第21课《马克思主义的诞生和国际工人运动的兴起》教学设计
- 2025履约类保函担保合同范本
- 2025年03月河北邯郸武安市事业单位春季博硕人才引进55名笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年中国滤波电抗器市场调查研究报告
- DB15-T 3967.2-2025 气候可行性论证技术规范 第2部分:太阳能发电工程
- 日租房协议合同
- 2024年湖南省高等学校对口招生考试英语试卷试题真题
- 公司2025年工会工作要点
- 2025年中国煤炭地质总局社会招聘20人笔试参考题库附带答案详解
- 公共卫生应急管理调研报告范文
- 【9物一模】安徽合肥瑶海区2025年中考物理一模试卷
- 项目管理流程与操作手册
评论
0/150
提交评论