已阅读5页,还剩48页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士学位论文 基于话题识别的中文邮件管理技术研究 基于话题识别的中文邮件管理技术研究 摘要 随着i n t e r n e t 技术的发展,各种网络应用服务越来越多,电子邮 件正作为一种快捷而经济的通信手段被用户广泛使用,而由此产生的 电子邮件过载就成为一个迫切要解决的问题。现有的邮件客户端提供 的管理功能已经不能完全满足人们处理邮件的需求,邮件管理技术的 研究也成为当前研究的一个热点。本文借鉴话题识别与跟踪领域一些 思想,提出了一种基于话题识别的邮件管理方法,挖掘邮件之间的上 下文关系,将属于同一个话题的邮件聚类在一起,提供给用户一个可 以按话题进行排序和查找的功能,使用户能够更方便快捷地找到相关 邮件。论文主要贡献及创新点如下: 1 把话题识别与跟踪技术引入到邮件管理 本课题的研究成果之一就是通过实验,证明了把话题识别与跟踪 技术引入到邮件管理中是可行的。 2 提出了一种邮件地址相似度计算方法和一种邮件标题相似度 计算方法 通过分析邮件文本自身所具有的一些特性,提出了一种邮件地址 相似度计算方法和一种邮件标题相似度计算方法,并分别通过实验与 现有的方法做了比较,实验证明本文提出的这两种计算方法的表现性 能都优于原先的方法。同时,对于正文相似度的计算也采用了两种不 北京邮电大学硕七学位论文基于话题识别的中文邮件管理技术研究 同的计算方式,我们通过比较实验选出了其中表现较好正文相似度计 算方式。在话题识别的相似度计算中结合了邮件的标题相似度和地址 相似度,实验表明改进的相似度计算方法比单纯使用文本相似度计算 方法有一定的提高。 3 制作了一个o u tl o o k 的基于话题识别的邮件管理插件模型 在本课题研究的最后一个阶段,综合考虑用户的使用习惯和软件 操作的简便性,完成了一个o u t l o o k 的基于话题识别的邮件管理的插 件模型。 关键词邮件管理话题识别单遍聚类插件模型 北京邮电大学硕七学位论文基于话题识别的中文邮件管理技术研究 r e s e 根c ho n c h i n e s ep e r s o n a le m a i l a g e m e n t b a s e do nt o p i cd e t e c t i o n w i t ht h ed e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , v a r i o u sk i n d so f n e t w o r ka p p l i c a t i o ns e r v i c e sw e l l e du p e m a i la sam e a n so fs w i f ta n d e c o n o m i cc o m m u n i c a t i o ni sw i d e l yu s e db yt h eu s e r s ,w h i c hr e s u l t si nt h e e m a i lo v e r l o a d t h ee m a i lo v e r l o a dp r o b l e mh a sb e c o m ea n u r g e n t p r o b l e mt ob es o l v e d r e c e n te m a i lc l i e n t s g a l ln ol o n g e rm e e tt h e p e o p l e sn e e d so fd e a l i n gw i t he m a i l s ,s oe m a i lm a n a g e m e n tt e c h n o l o g y h a sb e c o m eah o tr e s e a r c ht o p i c t h i sp a p e ru s e dt h ei d e ao ft o p i c d e t e c t i o na n dt r a c k i n gf o rr e f e r e n c ea n dd e v i s e das c h e m ef o rt o p i c r e c o g n i t i o ni ne m a i l w em i n e dt h ec o n t e x tr e l a t i o n s h i pb e t w e e nt h e e m a i l s ,c l u s t e r e dt h ee m a i l sw h i c hb e l o n gt ot h es a m et o p i c ,t h r o u g ht h a t w eh o p et oi m p r o v et h es o r t i n ga n ds e a r c h i n gf u n c t i o ni nn o w a d a y se m a i l c l i e n ta n dh e l pu s e r st os e a r c ht h er e l a t e de m a i l sm o r eq u i c k l ya n d c o n v e n i e n t l y t h em a i nw o r ki nt h er e s e a r c hi n c l u d e st h ef o l l o w i n g e l e m e n t s : 1 i n t r o d u c i n gt h et e c h n o l o g yo ft o p i cr e c o g n i t i o na n dt r a c k i n gi n t o m e m a i lm a n a g e m e n t o n er e s u l to fo u rt h e s i si st h a tw ep r o v e dt h a t i n t r o d u c i n gt h e t e c h n o l o g yo ft o p i cr e c o g n i t i o na n dt r a c k i n gi n t oe m a i lm a n a g e m e n ti s f e a s i b l e 2 p r o p o s e dae m a i la d d r e s ss i m i l a r i t ya n dat i t l es i m i l a r i t yc a l c u l a t i o n m e t h o dr e s p e c t i v e l y a c c o r d i n gt h ea n a l y s i sa b o u tt h et r a i t so ft h ee m a i lt e x t ,w ep r o p o s e d a ne m a i la d d r e s s s i m i l a r i t ya n dat i t l es i m i l a r i t yc a l c u l a t i o nm e t h o d r e s p e c t i v e l y , a n dt h o s ew e r et e s t i f i e dt h a tt h ep e r f o r m a n c eo ft h e s et w o m e t h o d si sb e t t e rt h a nt h ep e r f o r m a n c eo ft h ee x i s t i n gm e t h o d s w ea l s o a p p l i e dt w oe m a i lc o n t e n ts i m i l a r i t yc a l c u l a t i o nm e t h o d sa n dt h r o u g ht h e c o m p a r i s o ne x p e r i m e n t sw ec h o s e t h eb e t t e ro n e w ec o m b i n e dt h e c h a r a c t e r i s t i c so fm a i l st i t l ea n da d d r e s si n t ot h e t o p i cr e c o g n i t i o n s i m i l a r i t yc a l c u l a t i o nm e t h o d ,a n dt h er e s u l t si n d i c a t e dt h a tt h ei m p r o v e d s i m i l a r i t ya l g o r i t h mi sb e t t e rt h a nt h ea r i t h m e t i ct h a tj u s tb a s e do nt h e c o n t e n ts i m i l a r i t y 3 f i n i s h e da l lo u t l o o kp l u g - i nm o d e lb a s e do nt o p i cr e c o g n i t i o n f i n a l l y , w ec o n s i d e r e dt h eu s e r s o p e r a t i o nh a b i t sa n dc o n v e n i e n c ew e c o m p l e t e da no u t l o o kp l u g i nm o d e lb a s e do nt o p i cr e c o g n i t i o n k e yw o r d se m a i lm a n a g e m e n t ,t o p i c r e c o g n i t i o n ,s i n g l e p a s s , o u t l o o ka d d i n i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 蟊区塞。日期:麴墨毒冯坦日 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部 门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 丞露。一 导师签名:鼍乡颦,_ 一 日期:艘聋圣习望日 日期:击塑筮:丝f 北京邮i 乜大学硕上学位论文基于话题识别的中文邮件管理技术研究 1 1 课题研究背景 第一章绪论 伴随互联网的高速发展和社会整体信息化进程的加快,各种互联网应用已经 渗透到人们的日常生活中。据调查,电子邮件已经发展成为排在语音之后的第二 大被广泛使用的通信渠道i lj ,而且电子邮件已经成为网民最常使用的一项网络服 务【2 j ;在商务领域中,8 0 的商务活动要通过电子邮件完成【3 1 。电子邮件由于具 有费用低、使用简便、消息传递及时、信息量大等优点,极大地满足了快节奏的 现代社会中人们对于信息共享和交换的需求。 正是因为电子邮件的普遍性,每天有上千亿封电子邮件发出,使邮件过载成 为了个人以及企业的一个头疼的问题。在我国,个人用户平均每周收发的邮件数 大约为5 0 封。一项针对微软员工的邮箱的调查表明:截止到2 0 0 6 年,每个员工 邮箱里的平均邮件数为2 8 6 6 0 封【引。据c n n 报道( 2 0 0 6 年4 月4 日) ,比尔盖 茨表示,在微软公司,核心沟通工具不是电话、文件、博客、公告牌,甚至也不 是会议,而是电子邮件。据他透露,他每天要收到1 0 0 封左右的电子邮件,其中 这1 0 0 封邮件是经过过滤处理器的。图1 1 是来自i r e s e a r c h 艾瑞咨询公司根据 r a d i c a t ig r o u p 的数据整理显示,预测未来5 年间平均每天的全球企业邮箱用户 邮件信息量和个人邮箱用户的邮件信息量。 图卜1 企业用户与个人用户未来5 年的邮件信息量预测 北京邮电人学硕:t 学位论文基于话题识别的中文邮件管理技术研究 随着邮件的增多,用户每天需要花费一定的时间来处理邮件。g a r t n e r 研究 公司发表的一项报告显示,美国工人每天上班时间平均需要花费4 9 分钟来处理 大堆的电子邮件,而其中2 4 的人每天用于处理电子邮件的时间超过了一个小时 1 5 1 。电子邮件已充斥于员工的信箱,如此巨大的信息量已造成生产力的下降。所 以做好电子邮件信息管理工作,对于个人而言,可以更好的利用已有的信息资源: 对于企业而言,提高了员工的工作效率,从而提高整个公司的生产效率。 现在,人们已经开始意识到邮件过载问题的严重性,开始去寻求一些缓解邮 件过载问题的方法。有些人提出了电子邮件礼仪来规范用户使用电子邮件的一些 行为,以此减少收件箱里一些无用的信息。另一方面,电子邮件服务商及各研究 团体正致力于研究各种邮件管理方法和手段,主要有电子邮件的任务管理,电子 邮件信息归档管理和联系人管理等等,来更好的组织电子邮箱里的信息,提高用 户处理电子邮件的效率。电子邮件的推广主要依靠的是用户的自觉遵守。本课题 的研究内容主要是电子邮件的信息管理功能技术的研究。 1 2 邮件过载问题产生原因 我们首先来了解下电子邮件过载问题,从电子邮件设计之初的信息匮乏怎么 就演变成了现在的邮件过载,从而可以更清晰的了解到研究邮件管理技术的必要 性。 这里需要说明的一点是,论文中的邮件过载问题和邮件管理技术的研究都是 针对邮箱里的正常邮件的而言的,我们的研究对象是经过垃圾邮件过滤后的正常 邮件。 通过观察,可以发现,引起邮件过载大致有以下3 个原因: 1 如前所述,电子邮件服务所具有的廉价性、便捷性等特点,使它成为了 在i n t e r a c t 上应用最为广泛的,同时也是被误用最多的服务。人们有时会误用了 电子邮件的群发、群回复或重发等一些便捷性功能,把发送一些冗余消息或信件 发送给了不需要的人。比如当用户回复一位发信人起草的关于一个会议邀请的信 件时,他很有很能把该回复信件群回复给很多接收者,或者更严重的是,复制给 整个公司里的整个工作组或全部员工,这样就造成不必要的信息被发送。g a r t n e r 公司通过询问员工的电子邮件情况,发现他们所收到的电子邮件中,2 7 的电子 邮件需要员工立即进行处理,有3 4 的信息对于用户来说价值不大,可以花很少 的时间去处理【5 j 。 2 电子邮件已经逐渐成为人们生活的组成部分,成为人类最有利的通讯工 具之一,它促进了分布式团体的发展,不同地域的用户可以跨越时间和空间的障 2 北京邮电大学硕士学位论文 基于话题识别的中文邮件管理技术研究 碍来进行沟通。人们使用电子邮件服务进行朋友之间通信,工作上的交流,传输 文件和信息存储等,并且大多数人都没有定期整理删除邮件的习惯,这就使我们 的邮箱里每天收到大量的邮件,而且存储的邮件数量不断地增多。 3 由于上述原因2 ,使电子邮件很自然地成为了人们一种个人信息管理的工 具。人们利用电子邮件进行任务管理,信息归档和联系人管理等。有时候人们甚 至自己给自己发送邮件进行信息存储或任务提醒等。 1 3 解决方法 针对邮件过载的问题,人们提出各种各样的方法缓和这个问题,主要可以分 为两个大的方面:一方面,从全局的层次上解决,全球的邮件使用者采用新的通 讯标准,另一方面,从个人层次上进行解决,通过安装组织管理的软件。 从全局的角度出发,现在有很多人都比较关注电子邮件礼仪。通过制定一些 行为规范来约束用户的使用电子邮件的行为。如何正确使用电子邮件已经成为很 多企业公司对新员工进行培训的一项重要的内容。 从个人层次上来说,就是加强电子邮件管理方面的研究,一方面随着信息的 膨胀,我们需要把电子邮件进行合理的组织,使用户能更好的利用邮箱里的信息 资源;另一方面,电子邮件已经被广大用户作为一个个人信息管理工具来使用, 我们应该提供给用户一些他们所需要的邮件管理功能。 1 4 研究内容 电子邮件最初的目的是使多名用户通过计算机进行通信,没有考虑到其他一 些附加的管理功能。所以现有的邮件客户端提供的信息管理功能已经不能满足用 户的使用需求。当前在邮件管理技术领域的研究主要集中在邮件的自动分类系 统,即把邮件按某些特定的属性( 主题、发件人、大小等) 进行分类。这个方面 国内外很多研究机构都做了不少的工作。自动分类后,存储在同一文件夹下的邮 件虽然它们在分类标准下是属于同一类的,但前后两封邮件之间并没有直接相关 性。所以近年来,一些研究者开始研究邮件之间的上下文关系,把涉及到同一事 件的邮件聚类在一起,提供给用户关于某封邮件的所有相关信息。在这方面的研 究工作主要集中在国外。 本文的主要研究工作是识别邮件的上下文关系,把属于同一个话题的邮件聚 类在一起,作为一个整体呈现给用户。话题识别与跟踪( t o p i cd e t e c t i o na n d t r a c k i n g ,t d t ) 就是为了帮助人们应对信息过载问题的研究,它的研究目标就 3 北京邮电大学硕上学位论文 基于话题识别的中文邮件管理技术研究 是要实现按话题查找、组织和利用来自多种新闻媒体信息【6 】。本文借鉴了话题识 别与跟踪的一些思想和研究方法,提出了一种基于话题识别的中文邮件管理方 法,帮助邮件用户应对邮件过载。 1 5 论文的组织结构 第一章绪论。分析了邮件过载问题产生的原因以及进行邮件管理技术研究的 重要性。 第二章邮件管理技术综述。这章介绍目前存在的邮件管理技术实现方式,重 点介绍了集中化功能实现方面涉及到的邮件客户端产品邮件管理功 能现状、设计研究现状以及实现技术现状 第三章话题识别与跟踪。介绍与话题识别与跟踪相关一些概念以及该领域的 研究技术 第四章基于话题识别的中文邮件管理技术研究。这是本论文的主要工作,介 绍结合邮件的结构化信息和话题识别与跟踪的研究技术实现基于话 题的邮件管理技术 第五章实验部分。介绍整个实验过程以及分析实验结果 第六章对本文的工作做了总结与展望。 4 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 第二章邮件管理技术综述 电子邮件所具有的一些特性使其很自然的成为了人们的一种个人信息管理 工具,目前邮件主要用于以下几种信息管理功能1 7 】: 1 任务管理:这方面涉及到提醒用户当前的任务,跟踪任务的状态和收集跟当 前任务有关的信息。 2 个人归档管理:解决用户存储邮件问题,把那些长久的信息合理地组织和分 类,以便以后能够方便地搜索出来。 3 联系人管理:管理用户重要联系人的姓名,地址以及另外的一些相关信息。 电子邮件最初的目的是使多名用户通过计算机进行通信。第一个电子邮件软 件仅提供了一个基本功能:允许一个用户通过计算机键入一条消息并将其通过 i n t e m e t 发送给网上使用另一台计算机的用户i s 。虽然现在电子邮件系统所提供。j 的服务功能已得到了很大的增强,但是还不能满足用户日益增长的需求,特别是 电子邮件没有很好地支持用户现在所需的p i m ( p c r s o n a li n f o r m a t i o nm a n a g e m e n t ) 功能。 一些界面研究者和邮件管理技术研究者提出两种架构和文本处理技术,即集 中化和信息抽取,来解决这个问题。所谓集中化,就是在电子邮件客户端实现 p i m 功能,现在一般的邮件客户端都提供一些邮件管理功能,像微软的o u t l o o k 就是采用这种方法,在客户端提供了任务管理、联系人管理等功能。信息抽取是 从相反的方向出发,把邮件里的信息提取出来导入到专门的信息管理工具中。 2 1 邮件管理之信息抽取实现方式 邮件的信息抽取旨在帮助用户检索出邮件中的相关信息,方便用户的使用, 提高邮件信息的利用率。目前,邮件的信息检索研究已经成为t r e c 中一项重要 的研究任务。 随着检索技术的发展和研究的深入,t r e c ( 文本检索会议,t c x tr e t r i e v a l c o n f e r e n c e ) 从1 9 9 2 年应运而生 9 1 。这是信息检索( m ) 界为进行检索系统和用户评 价而举行的活动,它由美国国家标准技术协会( n l s d 和美国高级研究计划局 ( d a r p a ) 共同主办,自诞生以来,每年都举办一次,春季发布数据,夏季展开实 验,结果基本上在每年1 月份召开的年会上提交。它的参加团体来自许多国家的 研究和学术机构、政府部门和工商企业,构成了一个具有广泛代表性的检索评测 5 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 的基础,参与单位用自己的系统对n i s t 统一提供的语料并针对共同的任务开展 研究,最后由主办方n i s t j 诖行统一的相关性判断。最初,t r e c 主要针对的是文 本信息的检索评测,但是随着检索领域中平台的不断变化、各种多媒体形式的信 息不断涌现( 比如音频、视频信息) 、不同的用户需求也在增多,t r e c 的研究内 容早已经超越了它的名字所能涵盖的内容。在最开始,t r e c 的主要任务有两个, 随着t r e c 的发展,之前的两项已经不能覆盖信息检索领域不断出现的新的热点 和子任务,每年都逐步推出许多针对性更强的项目,新的任务不断出现,达到目 标或过时的项目则退出历史舞台。从2 0 0 5 年开始,电子邮件成为了t r e c 一种重 要的研究类型。在2 0 0 6 年举办的t r e c 1 5 活动中,主要包含一下几种项目i l o l : 博客检索项目 企业检索项目 基因学检索项目 法律检索项目 问答系统项目 垃圾邮件追踪项目 千兆字节的大型文本检索项目 其中企业检索项目的目的是研究企业查询,满足用户为了完成某些任务而查 找一些组织的信息,从邮件等数据类型中抽取出用户所需的信息提供给用户。企 业数据由各种数据类型组成,比如各种发布的报告,企业内部互联网信息,邮件。 其中邮件是企业数据的重要及主要的组成部分,所以邮件的检索任务是企业检索 项目中的一个重要的组成部分。 邮件中的信息抽取是一个新兴的研究方向,还存在很大的发展空间。提取出 邮件中的有用信息导入到专门的p i m 应用软件,把信息进行合理的组织存放, 可以有效的提高信息的利用率和用户搜寻信息的效率。但从目前的状况来看,这 种专门的提供p i m 功能的应用软件很难替代人们使用电子邮件作为信息管理工 具。用户现在很少使用专门的任务管理工具,事实上,邮件的任务管理功能作用 已经超过了它的信息渠道作用。因为任务的实时性比较强,用户经常打开邮箱查 看邮件,提醒自己是否有重要的任务还没有完成,或者查看是否有新的邮件,新 的任务。很多用户都已经形成了经常查看邮箱的习惯,还没有形成经常去打开专 门的任务管理器,所以使用户放弃邮件使用专门的任务管理工具比较困难。信息 抽取技术可能在个人归档和联系人管理方面更有用处,因为这两个方面的功能与 邮件的通信渠道的功能不是太相关,而且合理的组织存储信息的手段正是这两方 面功能完善的体现。 6 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 2 2 邮件管理之集中化实现方法 邮件中的信息抽取主要涉及到信息检索技术的研究,这个方面研究不是本论 文的重点,我们的研究重点是在邮件客户端实现p i m 功能,即集中化功能实现 方法的研究上。大部分用户使用电子邮件主要是出于工作的需要,邮件中包含了 重要的信息,一些用户甚至发邮件给自己作为重要任务的提醒或者是信息的备份 等。集中化的研究思想就是在邮件客户端实现各种管理功能,帮助用户合理的组 织各类邮件的信息,使用户在使用时能更快捷方便。 2 2 1 邮件客户端邮件管理功能现状 提供电子邮件服务的公司企业逐渐意识到在电子邮件客户端实现个人信息 管理功能的必要性,下面介绍一下几款常用的客户端所提供的邮件管理功能。目 前,具备一定用户认知度的大众型邮件客户端包括f o x m a i l 、o u t l o o k 2 0 0 3 、o u t l o o k e x p r e s s 、t h u n d e r b i r d ,使用网络邮箱比较多就是h o t m a i l 、g m a i l 、y a h o o 。 桌面客户端 微软的o u t l o o k 1 1 l 是商业环境中最流行的邮件客户端之一。它是m i c r o s o f t o f f i c e 的其中一个成员。它集成了很多其他的功能,比如联系人管理,任务列表 和日历管理。有一个小的行业就是制作o u t l o o k 的插件来扩展o u t l o o k 的功能, 比如像n e l s o n 邮件组织工具或者各种垃圾邮件过滤包。o u t l o o k 的邮件管理功能 相对来说做的比较好,下面简要说明一下o u t l o o k 2 0 0 3 的几个邮件管理功能。在 o u t l o o k2 0 0 3 的收件箱中的电子邮件是通过列表的方式进行整理和组织的,包括 按照日期、会话、发件人、收件人、邮件大小、邮件主题、类型、附件、邮件帐 户等。有时邮件的接收者可能希望了解关于某个话题的所有邮件,这样就可以选 择“会话的排列方式。o u t l o o k 会自动地将同一话题的邮件组织在起并通过折 叠的方式进行相关会话邮件的查看。它的这种组织方式主要是根据邮件线程标记 ( 如r e 、回复等) 来提取一个会话。o u t l o o k 还提供另外一个比较独特的邮件管 理功能,即邮件“后续标志一功能。当用户收到一封重要的邮件,用户希望能够 为其添加一些标记,用来以后引起注意或提醒相关信息,或者希望与不同性质、 种类的邮件进行区别,这时我们可以为邮件添加后续标记。o u t l o o k 还提供基于 规则的邮件分类功能。用户需要通过复杂的操作步骤后设定一系列的规则,然后 o u t l o o k 可以根据规则对新到的邮件进行分类存储。 与o u t l o o k 类似,f o x m a i l 邮件客户端也的邮件分类管理功能也是基于用户 手工设置的规则的,只是f o x m a i ! 的分类规则设置没有o u t l o o k 那样复杂。 7 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 m o z i l l at h u n d e r b i r d 可能是最流行的开源客户端,这是由m o z i l l a 基金会创 建的【1 2 】。它是经过对m o z i l l a 的邮件组件进行重新设计后的产品,其目的是为 那些还在使用没有整合邮件功能的浏览器或者需要一个高效的邮件客户端的用 户提供一个跨平台的邮件解决方案。它提供的主要的邮件管理功能有:1 垃圾邮 件控制;2 r s s 阅读:3 保存搜索文件夹;4 消息分组;5 隐私保护;6 联系人 管理:7 同时t h u n d e r b i r d 支持插件扩展,用户可以添加很多新功能t h u n d e r b i r d 实现的功能。t h u n d b i r d 邮件客户端快速搜索功能则允许你使用发件人或邮件主 题为关键字进行搜索,并且可以按多个关键字进行分组排序显示。 网页客户端( w e bm a i l ) 微软的h o t m a i l 是第一个基于网页的邮件客户端,这里我们选择介绍g o o g l e 的g m a i l 邮件,它是现在人们比较热点关注的一个网络邮件客户端。 g m a i l 1 3 】把邮件按线程聚类。它的以“会话 为基本组织单位。g m a i l 一个 最大的亮点就是使用“谈话”功能,用户可以在一个页面里浏览到所有的往来电子 邮件:最新的信件会被显示出来,跟该信件有关的其它邮件会层叠排列在其下方。 用户可以点击该“谈话”中的任意标题来浏览邮件的具体内容,也可以点击“扩展” ( e x p a n da 1 1 ) 来查看该“谈话”的全部内容。如果邮件是属于同一个线程的则邮 件将被显示在一起。它允许用户自定义的标签来标记邮件,取代传统的文件夹的 设计方式。自定义标签与文件夹方式的区别:所有的邮件只在一个文件夹里,但 可以标以不同的标志。 企业的客户端研发人员本着以用户为中心的思想,不断朝着使客户端的邮件 处理方式更快捷方便的方向发展。现有的邮件客户端大部分还是使用的传统的三 视图的呈现方式,不断添加各种功能,但是功能太多也并不是完全都是好事。有 些功能的设置太复杂以致用户都不愿去使用,甚至不知道怎么使用。另外,用户 所需的一些管理功能并没有得到很好的实现,邮件客户端的功能操作的简捷化, 智能化等还有待进一步的提高。 2 2 2 基于邮件管理的客户端设计研究现状 在这一小节,我们主要介绍研究者们结合人机交互的原理,针对个人信息管 理功能的不同方面在邮件客户端的界面设计上进行的研究工作,使邮件管理功能 更易于用户的使用,更具人性化。 任务管理 用户把邮件客户端作为一种任务管理工具的主要几种做法如下1 1 4 1 : 把邮件标为未读:有些邮件包含任务的描述可能还需要进一步处理,需要联 系信件的提醒,或者是包含不确定信息需要进一步查阅,把邮件标为未读信息对 8 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 用户可以起到一定的提醒作用。 设定一个任务文件夹:使用一个专门文件夹来保存这些需要引起重视的任 务,或者是一个任务一个文件夹。这个方法只有在用户有经常检查这些文件夹的 习惯的情况下才能起到很好的作用,因为我们的邮件客户端还不支持任务提醒功 能。 基于任务的邮件客户端是现在一个很流行的研究领域:把收件箱罩的邮件按 照任务进行分类,把与任务相关的信息列在一起。这使整个收件箱条理更清晰, 增加任务的显著度。有一些可视化的工具已经研发出来用来表示收件箱里的任 务,比如表示特定任务相关信息的树型表示法,平面图表示法等【l 引。如图2 - 1 显 示的是b e l l o t t i 等设计的基于任务的邮件客户端的界面t a s k m a s t e r 1 6 j 。该界面由 三个窗口组成:最上面的窗口是任务显示;中间的窗口显示的是被选中任务里所 涉及到的相关邮件;最下面的窗口显示的是所选中的那封邮件的内容。t a s k m a s t e r 把用户所有的邮件,草稿,附件和书签等属于同一个线程的邮件自动的聚类起来, 合并为一个“任务线程( t h r a s k ) ”。用户可以手动把其他相关的邮件信息添加到 线程中。t a s k m a s t e r 还允许另外一些相关联的动作,比如“联系某一联系人”和 “回顾该项任务”等一些快捷操作。用户可以给每一个任务设置最终期限和提示 作用:随着时间的逼近,他们设定的这些功能会相应的亮绿灯和红灯。 删四 隆心带t 撇 。 ,1 。_ _ 一“r - “ 脚r e 晰r 甜y t o 硝翱删 lil t h t a l kl jg o o g u z i = ;) ”u p c o m i n gt a l k , $ b yme。1 ju p c o m i n ga n dp a s tt a l 蹈b yo t h e r s f 0 0 t b a i l h 对蚋n 口o f w e b 母删c 。i 曲q 蛳r d 哪g l a 事t o l l r d t o w 当- c h i2003pape。-一 f w 叮p 、c s c w 2 0 0 2 w 融- t o or 浊q 钟r 嘧e 叫f 疆“2 1 缱c 枞岬 当m cs t u f f 3 r e e , e w v o - ja c mm 嘲廿唪 c i d jc s 刚姒舢;s 帅i 砒p 融甜i - 懿l - 9f i l es e r v eo 娃a g ep a j c w e b ,! h 砖帖,i o 怔- , e - 埘叫却铀h :刑 幽 6 t 和t i 川土ji 曼塑坚曼 i 曼! 堕型l 垒壁q 苎曼l 塑! 曼鲤壁 。 j v 时o n e tb e l l o l l i sm i r ea l lm n e 0 7 i52 25 8 l j d 酬abe l i o t l i| 8a n v c n ea roundodav?0711 71 i5 4 i s o v e d m e s s q e lf w :l d 鲁s t o 湛to7 ,17181 8 jo d u c h e n e a u tn l c o l e s f l a e s td i 酿o 矾71618 - :j v i c t o r l a b e l l o t i ll a t e s t 9 r a i lo f lz 0 0 3 p 8 p e rtout似0州7163 0 i 二j 器i a l e t c h m e n t c h i z 0 0 3 - t e k i n c l e m a i i _ # 3 a 4 位d o c0 7 i8 n o o z0 7 , n716 :3 0 一 二) 1 譬s m i l hf e nt l a n s m n h d a r e 。0 m c 绷c i sa b o u p e 轴o e r o m7 63 8 二jd o n ab e t l o l l fc h ip e - p e r sg 埘d e l i n e 50 7 ,17164 7 a b s t r a c td a y 【egh l l 匕a n df r u o f f ,w 眦a k i t h e r el sw l d e s p 糟a da f f e e 盯e n tt h a ta t i a l lp l a y sac e n t r a l a , - k n o w l e d g m gt h i sp r o b l e n as m a l l ! l l j j 图2 - 1t a s k m a s t e r 界面 9 熹一 竺 一 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 很多研究者根据自己的研究侧重点,分别设计出不同的基于任务管理的邮件 客户端,在这方面的研究工作上我们需要进一步审视用户的实际需求,结合注意 模型等方面的研究成果,设计出更符合用户要求的邮件客户端界面。 个人信息归档管理 任务管理关注的主要是用户当前正参与的项目或活动,它的主要的处理对象 是用户刚接收的邮件。而个人信息归档管理是针对用户存储邮件的需求。大部分 用户都有保存“过期”邮件的习惯,这些邮件虽然与当前的任务无关,但是以后 可能会有用到的需要。如何有效的存储邮件,以便用户日后的查询和利用,就是 个人信息归档管理所要解决的问题。任务管理与个人信息归档管理之间没有绝对 的界限,只是两者的处理对象的侧重点不同而已,很多用于任务管理的研究技术 也可以应用到个人信息归档管理中。 大量的信息尘封在邮件客户端里,现在的邮件客户端所提供的归档化管理的 方法主要有三种【7 l :文件夹把邮件分门别类地进行存储;排序提供按发 件人、时间、主题等排序功能;搜索按关键字对相关信息进行检索。这三个 方法还存在很大的不足,远远没有达到用户邮件归档的需求。 文件夹归档 手工把邮件移到文件夹中会引起一些问题:首先,移动邮件到文件夹需要用 户额外的精力和时间。另外,人工分类是一项主观性的任务:当创建文件夹时, 用户需要明白他今后的使用需求。当用户将邮件按现有的文件夹进行组织时,用 户往往在不同的时间表现出来不一致,他们可能会忘记已经存在文件夹的分类情 况。这样导致的结果是,一个文件夹里可能包含不同的信息,或者是不同的文件 夹包含相似的信息。 还有一个问题就是,用户创建多少个文件夹才能真正帮助他有效的管理邮件 呢? b a i t e r 用一个数学模型来表示这种文件夹使用行为。这个模型是基于用户界 面操作所需的时间,比如用户找到一个文件夹,然后把邮件移入该文件夹这个过 程所花费的时间。他分析了这种存在文件夹数量和组织邮件所需时间之间的代价 关系,为许多用户计算了这个效率值。他的结果表明,范围大层次深的邮件文件 夹存储的时间效率没有比平坦简单的文件结构好。用户需要限制文件夹的数量来 保持分类的有效性。只包含几封邮件的文件夹太小,这样没有聚齐原本相关的邮 件,不会降低收件箱的复杂度。文件夹若太大:一个文件夹包含上千封不相关的 邮件同样也不能降低用户处理邮件的复杂度。 搜索和分类排序 文件夹归档还是基于用户建立文件夹的基础上,它不能主动创建文件夹,所 以很多用户在邮件归档管理上结合使用查询和排序功能。d u c h e n e a u t 和b e l l o t t i 1 0 北京邮电大学硕士学位论文 基于话题识别的中文邮件管理技术研究 报告说:“令人感到奇怪的是,用户很少使用邮件客户端的搜索功能,但是,相 反的是,几乎所有的人都使用排序功能。根据那些标准进行排序,比如按时间 或标题,然后再浏览经过排序后的邮件列表,查到用户自己所需的邮件。这可能 是由用户的偏好引起的:如果搜索需要花费几分钟的时间,那么双重排序只需零 点几秒,用户喜欢准确性稍微低些的排序方法。快速有力的搜索方法只是对获取 那些已经识别出与给定任务相关的信息有效。用户必须回想起部分邮件内容的才 能搜索相关信息。定义一个查询词可能跟判断一封邮件属于哪一个文件夹一样的 困难。 针对上述的问题,研究人员在归档管理方面做来很多工作,希望给用户提供 更智能化的管理工具。基本的思想就是把用户存储的邮件以不同的形式进行可视 化表示,从而挖掘出邮件中隐含的一些信息。比如有v i e g a s 等研究的s o c i a l n e 卿v o r kf r a g m e n t s ( 社会关系网片段) i l 刀,它挖掘邮件发信人、收信人等之间的数 据,建立一个关系网络,通过可视化描述推断出邮件的重要度。 在邮件可视化归档管理这方面做的工作比较多的有马里兰大学的人机交互 实验室。他们研究工作是邮件的可视化管理【1 s l 1 9 l 。图2 2 显示的是他们实现了的 一个交互式管理工具。图中每条竖线表示一封邮件,红色线条表示第一封邮件, 灰色线条表示所有回复的邮件;每条线上的红色节点表示该邮件发件人,蓝色节 点表示该邮件的收件人,有些线上还有灰色节点,表示的是抄送里的联系人。该 工具首先根据标题中的线程标志提取出直接属于一个线程邮件,用红色和灰色线 条表示,横轴表示的就是该线程所持续的时间跨度。接着进一步挖掘在该时间跨 度中,涉及到该线程中的其他联系人的邮件,由黄色线条表示。所以当用户要查 找与某封邮件相关的邮件的时候,该工具不但可以提供给用户与此邮件有相同标 题的邮件和该邮件的回复邮件,还可以提供此邮件线程里所涉及到的邮件收发件 人的在相关时间里的所有邮件信息,从而可以帮助用户挖掘出与此邮件相关的一 些隐藏的邮件。 m a t t d e r | c o 扩镪口 s :m a o 联系人管理 “ 伦二 l l 6 。,。+ , 图2 - 2 邮件的可视化表示 1 1 北京邮电大学硕士学位论文 基于话题识别的中文邮件管理技术研究 大部分的邮件系统能自动地提取出邮件地址,提示用户存到地址簿中,但是 一些其它的信息( 比如电话号码和家庭住址) 必须手工提取,并添加到联系人信 息中。我们的系统应该提取出更多的信息,比如根据邮件头信息( 发件人发信频 率,通信往来的长短,是否是回复信件等) 识别出重要的联系人。现在客户端已 经实现了邮件地址的自动提取,我们应该提高邮件系统的机器学习能力使其能提 取出更多的联系人相关的信息。现在有不少的学者在研究基于联系人的邮件客户 瑚 骊。 图2 3 显示的就是一个基于联系人的邮件客户端实例,这是由w h i t t a k e r 等 研究设计的一个叫c o n t a c t m a p ( 联系人图) 【刎。它按基于颜色索引的卡片形式 显示联系人。联系人卡片可以在这个二维空间手动进行聚类。这个设计的最大的 特色是添加每个联系人卡片由相应的图片信息描述。设计者们主要是出于人们比 较擅长记住人的长相这点来设计界面的。点击其中一个卡片,该联系人所发的邮 件都可以显示出来。 图2 - 3c o n t a c t m a p 界面 2 2 3 邮件管理功能集中化实现技术研究 现有的邮件客户端所提供的邮件管理功能还存在很多不足之处。基于线程, 分类排序等功能的大都只是利用一些结构化的信息从语法的层次上实现邮件管 理。我们需要进一步深入研究,利用机器学习的方法挖掘邮件更多可利用的信息 实现邮件管理功能。 北京邮电大学硕士学位论文基于话题识别的中文邮件管理技术研究 邮件自动分类 邮件自动分类是一种被广泛采用的用于解决邮件过载问题的方法。大部分用 户都会自定义一些文件夹把收件箱里的邮件进行分类存储,合理组织。然而,用 户需要付出很大的精力和时间进行人工邮件分类,所以邮件自动分类技术就这样 应运而生了。邮件自动分类技术大致可以分为两大类:基于规则的邮件分类和基 于内容的邮件分类。 基于规则的邮件分类,即基于关键字比较的规则分类系统,由于这类规则
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 木制家具生产合同
- 2024聘请常年法律顾问合同协议书
- 土地租赁合同税务问题
- 股权扩股协议书格式
- 建筑设计培训就业协议书
- 3.1.1 勾股定理 同步课件
- 七年级地理上册-4.2-世界的语言和宗教同课异构教案1-新人教版
- 2024版发起人协议书范例
- 《未来的建筑》示范公开课教学课件【小学三年级美术下册】
- 2024年多应用场景童鞋购销合同
- RITTAL威图空调中文说明书
- 生物质能发电技术应用中存在的问题及优化方案
- GA 1809-2022城市供水系统反恐怖防范要求
- 幼儿园绘本故事:《老虎拔牙》 课件
- 2021年上半年《系统集成项目管理工程师》真题
- 一个冬天的童话 遇罗锦
- GB/T 706-2008热轧型钢
- 实验六 双子叶植物茎的初生结构和单子叶植物茎的结构
- GB/T 25032-2010生活垃圾焚烧炉渣集料
- GB/T 13610-2020天然气的组成分析气相色谱法
- 《彩虹》教案 省赛一等奖
评论
0/150
提交评论