




已阅读5页,还剩82页未读, 继续免费阅读
(计算机应用技术专业论文)基于web的有监督自适应话题追踪系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京工商大学硕士学位论文 摘要 随着互联网的出现和普及,在互联网上传播的资讯浩如烟海。面对海量的互联网 媒体资讯,人们需要一种手段能够快速、准确地获取自己感兴趣的有关某一话题的相 关信息。话题检测与追踪技术( t d t ) 正是为了满足这种需要,它是一种研究如何检 测新发生的话题事件并追踪话题事件后续发展动态的信息智能获取技术。本文根据北 京市教委科技发展计划资助项目“主题新闻服务系统”课题展开研究,围绕t d t 的 发展方向,提出并实现了一个有监督自适应话题追踪系统的解决方案。 本文提出的话题追踪系统的解决方案主要包括以下几个方面: ( 1 ) 信息抽取技术:为了充分利用互联网的资源,为用户提供某个话题的相关信 息,本系统采用了基于模板匹配的信息抽取技术,对互联网上与某个话题相关的信息 进行抽取,这样可以有效地提高信息采集的准确率。 ( 2 ) 追踪数据源配置工具:被追踪的话题的语料往往存在于不同的数据源中,为 了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改x m l 配置文件的方式,来达到不修改程序就可完成对不同数据源追踪的目的。 ( 3 ) 有监督自适应话题追踪算法:现有的打分算法比较多,i b m 采用的对称o k a p i 公式算法是目前国际上比较领先的算法,在1 d t 评测中名列前茅。已有的话题追踪 技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在i b m 的对称0 l k a p i 公式算法基础上,通过人工调整关键字和增量学习的方式,基于话题追踪任务中的有 监督自适应机制提出了一种新算法,改进了话题追踪的效果。 ( 4 ) 话题追踪信息服务:通过充分考虑用户的需求,本文设计并实现了一个基于 w e b 的话题追踪系统,该系统分别提供了话题管理、话题分析、话题检索、个性化定 制等服务功能。另外,本文还对各个服务模块功能的实现进行了描述。 本文的特色和创新之处在于:基于有监督自适应机制提出了一个话题追踪新算 法,设计并实现了一个基于w e b 的话题追踪系统。通过实验对有监督自适应话题追 踪系统与无监督自适应话题追踪系统进行性能比较,实验数据表明新算法能够有效的 降低话题追踪的误报率和漏报率,提高话题追踪的性能。 关键词:话题追踪;监督;自适应;信息抽取 基于w e b 的有监督自适应话题追踪系统的设计与实现 a b s t r a c t w i t ht h e a p p e a r a n c ea n dp o p u l a r i z a t i o no f t h ei n t e r n e t , m u c hi n f o r m a t i o ni s t r a n s m i t t e di nt h ei n t e r n e t f a c e dt ot h em u c hi n f o r m a t i o n , p e o p l en e e dt h em e t h o dt h a t t h e yc a na c c e s st ot h e i rt o p i ci n f o r m a t i o no fi n t e r e s tf a s t e ra n dm o r ea c c u r a t e l y t o p i c d e t e c t i o na n dt r a c k i n g ( t d t ) t e c h n o l o g yi st om e e tt h i sn e e d ,i ti st h ei n t e l l i g e n t i n f o r m a t i o na c c e s st e c h n o l o g yi no r d e rt os t u d yh o wt od e t e c tn e we v e n t sa n dt r a c kt h e s u b s e q u e n td y n a m i cd e v e l o p m e n t so ft h ee v e n t se f f e c t i v e l y a c c o r d i n gt ot h ed e v e l o p m e n t p l a no fs c i e n c ea n dt e c h n o l o g yi nb e i j i n ge d u c a t i o nc o m m i t t e e ,t h e r ei s as u r f a c e p r o j e c t ,w h i c hi sn a m e d t o p i cn e w ss e r v i c es y s t e m ”t h i sp a p e ri s b a s e do nt h e r e s e a r c ha n dd e v e l o p m e n to ft h ep r o j e c t i tp u t sf o r w a r da n dr e a l i z e st h es o l u t i o no ft o p i c t r a c k i n gs y s t e m s u r r o u n d i n gt h ed e v e l o pd i r e c t i o no ft h et e c h n o l o g yo ft o p i cd e t e c t i o n a n dt r a c k i n g t h i sp a p e rp r e s e n t st h es o l u t i o no ft h et o p i ct r a c k i n gs y s t e m ,i n c l u d i n gt h ef o l l o w i n g f i e l do fs t u d y : f i r s t ,i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y :t om a k ef u l lu s eo fi n t e r n e tr e s o u r c e sa n d p r o v i d er i s e r sw i t ht h er e l a t e di n f o r m a t i o no fac e r t a i nt o p i c ,t h es y s t e mh a v ea d o p t e d i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yb a s e do nt e m p l a t em a t c h i n g , f o rt h ee x t r a c t i o no ft h e r e l a t e di n f o r m a t i o no fac e r t a i nt o p i c t h i sc a ne f f e c t i v e l yi m p r o v et h ea c c u r a c yr a t eo f c o l l e c t i n gi n f o r m a t i o n s e c o n d ,t h ec o n f i g u r et o o l so ft r a c k i n gd a t as o u r c e s :t h ec o r p u so ft o p i ct r a c k i n go f t e n e x i s t si nd i f f e r e n td a t as o u l c e s i no r d e rt oi n c r e a s es y s t e mf l e x i b i l i t yf o rd i f f e r e n td a t a b a s e s o u r c e sa n dt e x ts o u r c e s ,n o tm o d i f yp r o g r a m ,a n dp r o t e c tt h ec o m p l e t i o no ft r a c k i n gf o r d i f f e r e n td a t as o u r c e s ,t h es y s t e ma d o p t e dr e v i s i n gx m lc o n f i g u r a t i o nf i l et oa c h i e v et h i s p u r p o s e t h i r d ,s u p e r v i s e da d a p t i v ea l g o r i t h m :w i t hm o r ee x i s t i n ga l g o r i t h m ,m mo k a p i a l g o r i t h m ( s y m m e t r i cv e r s i o n ) i sal e a d i n ga l g o r i t h mi nt h ew o r l dc o m p a r a t i v e l y , a n dt h e t o pi nt h et d t e v a l u a t i o n i no r d e rt of i l lt h ee x i s t i n gt o p i ct r a c k i n gs y s t e m ss h o r t c o m i n g s , s u c ha st o p i ce x c u r s i o na n dl e s st r a i n i n gs a m p l e s ,o nt h eb a s i so fo k a p ia l g o r i t h m t t 北京工商大学硕士学位论文 ( s y m m e t r i cv e r s i o n ) ,b yt h em e a l l so fa d j u s t i n gt h ew e i g h to fk e y w o r d sa n da d a p t i v e i n c r e m e n t a ll e a r n i n g , s u b j e c tt ot h es u p e r v i s i o na d a p t i v em e c h a n i s m s ,t h ep a p e rp u t s f o r w a r dt h en e w a l g o r i t h m ,a n di m p r o v e st h ee f f e c to f t h et o p i ct r a c k i n g f o u r t h , t o p i ct r a c k i n gi n f o r m a t i o ns e r v i c e s :f u l l yc o n s i d e r i n gt h en e e d so fu s e r s ,t h e s y s t e mp r o v i d e st o p i cm a n a g e m e n t , t o p i ca n a l y s i s ,t o p i cs e a r c h , p e r s o n a l i z e d c u s t o m i z a t i o n , a n ds oo n t h ep a p e rd e s c r i b e st h ea c h i e v e m e n to ft h ef u n c t i o no ft h e v a r i o u ss e r v i c em o d u l e si nd e t a i l i nt h i sp a p e rt h ec h a r a c t e r i s t i ca n di n n o v a t i o nc o n s i s ti np u t t i n gf o r w a r dt h en e w a l g o r i t h mb a s e do ns u p e r v i s e da d a p t i v em e c h a n i s m s ,a n dt h ed e s i g na n dr e a l i z a t i o no ft h e s u p e r v i s e da d a p t i v et o p i ct r a c k i n gs y s t e m c o m p a r e dt h es u p e r v i s e da d a p t i v et o p i c t r a c k i n gs y s t e m 谢mt h eu n s u p e r v i s e da d a p t i v et o p i ct r a c k i n gs y s t e m , t h ee x p e r i m e n t a l d a t as h o w st h a tt h en f f c ya l g o r i t h mc a nb ee f f e c t i v e l yr e d u c em i s sr a t ea n df a l s ea l a r mr a t e , a n di m p r o v et h ep e r f o r m a n c eo ft o p i ct r a c k i n gs y s t e m ” k e y w o r d s :t o p i ct r a c k i n g ;s u p e r v i s e d ;a d a p t i v e ;i n f o r m a t i o ne x t r a c t i o n - i i i - 北京工商大学学位论文原创性声明 f 本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所 , 取得的研究成果0 除了文中已经注明引用的内容外,论文中不包含其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体, 均己在文中以明确方式标明。本声明的法律后果完全由本人承担。 学位论文作者签名:筠毕日期 硼碑b 矾 日 北京工商大学学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复 制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 学位论文电子版同意提交后,可于口当年口一年p , - - 年后在学校图 书馆网站上发布,供校内师生浏览。 学位做作者签名:鞘导师躲兰车隰7 k 脾乡月多日 北京工商大学硕士学位论文 1 1 课题的研究背景 第一章绪论 随着信息传播手段的进步,尤其是互联网这一新媒体的出现,人们已经摆脱了信 息贫乏的桎梏,进入一个信息极度丰富的社会。在目前信息爆炸的情况下,信息的来 源已不再是问题,而如何快捷准确地获取感兴趣的信息才是人们关注的主要问题。 目前各种信息检索、过滤、提取技术的研究都是围绕这个目的展开的。由于网络 信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在 不同的时间,仅仅通过这些孤立的信息,人们对某些报道难以做到全面的把握。一般 的信息检索工具都是基于关键字的,返回的信息冗余度过高,很多不相关的信息仅仅 是因为含有指定的关键字就被作为结果返回了,因此人们迫切地希望拥有一种工具, 能够自动地把相关话题的信息汇总起来供人查阅。 话题检测与追踪技术( t d t ) 就是在这种情况下应运而生的。通过话题发现与追 踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现各种报道 之间的相互关系,从整体上了解- - n 报道的全部细节以及该报道与其它报道之间的关 系。 话题追踪任务是t d t 技术的一个子任务,它可以用来追踪某个话题的来龙去脉, 进行历史性质的研究。这在新闻媒体、信息安全、金融证券、行业调研等领域都有着 广阔的应用前景。特别是对于新闻工作者来说,他们常常要关注一些热点话题的相关 报道,但是媒体报道又非常多,很难通过人力准确且完整地找到某个话题的相关报道, 所以这些实际需求就对这项技术的发展提出了很高的要求。 1 2 课题的研究现状 1 2 1 研究现状 本文着重研究的是话题追踪任务。话题追踪任务是t d t 中最普通的任务之一, 参加该项评测的单位比参加其它任务的单位要多一些。 基于w e b 的有监督自适应话题追踪系统的设计与实现 在过去几年的评测中,参加单位使用的方法基本上都是在原有信息检索方法的基 础上进行改进的。这些方法通常是从训练报道中抽取特征集作为话题特征,当新报道 到来时,与话题特征进行比较,如果匹配得好,则判定为话题相关,否则被判定为话 题不相关。 进行话题追踪大致有两类方法:一类是基于信息检索的方法,包括向量检索和概 率检索【1 】【2 l ;另一类是基于文本分类的方法,例如最近邻居分类、神经网络、b o o s t i n g b a y e s 分类器、决策树方法【3 1 、动态聚类和支持向量机等等 4 1 。 国外参加该任务研究的主要有这三个单位:c m u 、u m a s s 、d r a g o n 。他们都是 采用了传统的信息检索的方法【3 】。 c m u 使用k 最近邻居法( k n n ) 和决策树( d t r e e ) 方法进行话题追踪【3 】。k l m 将文档表示为特征向量,计算其与训练语料的相似度,选出k 个最近的邻居,根据与 k 个最近邻居的的相似度之和得到分数,如果分数大于0 ,则与指定话题相关,否则 判定为无关。在低误报率时对描述话题的训练报道数m 敏感,当错误率低于t 0 时, 训练实例变得越来越重要。当邻居增多时,误匹配就会增大了。对于不同的m 值, k l a n 较稳定。决策树方法是用信息增益选取特征进行决策,选取信息增益最大的特征 为根结点,根据该特征的值划分训练数据,每个分枝再选择信息增益最大的特征,如 此循环下去。如果训练实例够大的话,效果较好。决策树方法的缺点是不能给出置信 度,无法生成d e t 曲线。它的决策结果有很小的置信度。可能有大量的报道有相同的 置信度。 u m a s s 采用了信息检索中的关联回馈方法,将话题表示成1 0 - 1 0 0 个词的查询向 量,进行训练,并找出最好的参数。他们还结合了浅层分析抽取名词和名词短语。 特征权重使用以下两种方法:一种是如果特征至少在一个报道中出现频繁,则给该特 征高一些的权重;另一种方法是根据它出现的报道数赋予特征权重。关联回馈方法效 果不好,因为它使用很少的特征。他们的实验结果表明查询信息处理的微小变化就能 够引起效率上的变化。 d r a g o n 采用了语言模型,用m 个训练集中的词来建立模型,将对表达信息无用 的词( 即禁用词) 去掉,由于数据非常稀疏,在建立模型时采用了b a c k o f f 平滑技术 来解决这个问题。平滑技术中的参数通过训练进行确定。 目前,话题追踪的研究在国内仍然处于起步阶段,除了非自适应的话题追踪研究 一2 一 北京工商大学硕士学位论文 已经达到实用化水平,其他的自适应的话题追踪系统的性能仍然无法满足实际应用的 需要。 本课题就是要在已有研究成果的基础上,开发一个基于w e b 的有监督自适应话 题追踪系统,帮助用户准确找到某一个话题的相关报道,并为用户提供话题管理、话 题分析、话题检索、个性化定制等服务。 1 2 2 问题与挑战 话题追踪任务中的话题是动态发展的,比如说:话题a 描述的是2 0 0 0 年1 0 月 1 2 日在中国海南省发生的特大洪水事件。随着话题的发展,描述这次洪水的伤亡情 况、营救工作的报道都是与该话题相关的。而政府关于这次洪水制定的相关方针和政 策也是与该话题相关的。这样从洪水的发生到洪水产生的后果,再到政府的反应,话 题a 已经发生了漂移。这种现象叫做话题漂移现象。 由于话题追踪任务中存在着话题漂移现象,而且用于训练一个话题的训练样本只 有川,( = 1 、2 、4 ) 个,因此仅仅使用州,个训练样本训练话题模型,往往不能很好的 表示话题的内容。随着话题的发展,需要对话题的内容进行补充和调整。有监督自适 应技术就是从这个角度出发,在追踪的过程中不断进行有监督的学习来完善话题追踪 模型。现有的很多无监督自适应方法已经应用到了话题追踪任务里,如r o e e h i o 5 、 p e s e u d o - r e l e v a n c ef e e d b a c k 6 等方法。这些自适应学习过程都是根据话题追踪系统判 断出的话题相关和不相关的报道来重新训练话题追踪模型,这些反馈的报道都是基于 初始的话题追踪模型的判定。由于话题追踪任务的训练样本较少,无法准确的描述话 题,因此构造的初始的追踪器准确率不会很高,那么得到的反馈的报道的准确率也较 低。而且话题追踪是一个无监督的追踪过程,采用现有的自适应方法,一旦反馈是错 误的,话题就会发生错误的偏移。一旦话题发生了错误的偏移,那么对后续报道就会 给出错误的判断,导致话题持续错误的偏离下去。所以这些方法对后续报道的影响并 不大,无法有效解决话题漂移现象。如何找到一个更好的解决方案,来避免话题漂移 现象,以及有效地降低误报率和漏报率,变成了一个急需解决的问题。 综上所述,传统话题追踪系统存在的不足包括以下三个方面: ( 1 ) 存在话题漂移现象; ( 2 ) 训练样本很少,在t d t 评测中一般给的样本是l _ 4 个; 一3 一 基予w e b 的育监督自适应话题追踪系统的设计与实现 ( 3 ) 由于人的主观性的偏差,样本集中可熊存在质量较差的样本。 1 3 研究的目的及意义 本课题的研究目的: ( 1 ) 通过调整关键字和增量学习昀方式,对话题追踪任务中的有监督蠡适应机制 提出了新算法,使话题追踪系统的误报率和漏报率有所降低; 0 ) 最终实现了一个基予w e b 的有监督自适应话题追踪系统,帮动用户准确找到 某一个话题的相关报道,并为用户提供话题管理、话题分析、话题检索、个性化定制 等服务; 。 该系统的开发和研究,在一定程度上弥补了现有话题追踪系统的不足。有监督囱 适应的方法解决了两个离题:第一,如何对话题进行修鹾;第二,如何确定是否达到 修正的效果。 话题追踪技术的研究意义: ( 1 ) 在信息安全、证券市场分析等领域有着非常好的市场应用前景,它可以帮助 用户找出健所感兴趣话题的所有报道,把分敖的信息有效的组织起来; c ) 在新闻话题服务领域也是十分核心的应用,在新华社和国内其它新闻媒体的 生产流程中,薪闻话题酶建立一般是通过手工方式实现,手王建立新闻话题的方式效 率十分低下,非常不适应新闻媒体的生产需求。通过话题追踪技术提供的新闻话题服 务,能够极大地提高新闻信息搜集传播能力和薪闻信息翔工能力,放丽提高信息的利 用水平。 1 4 本课题的主要研究内容 本课题主要涉及豹内容和技术有以下凡个方面: ( 1 ) 信息抽取技术:为了充分利用互联网的资源,为用户提供某个话题的相关信 息,本系统采用了基于模板疆配的信息抽取技术,对互联嚣上与话题相关的信息进行 抽取,这样可以有效地提高信息采集的准确率; ( 2 ) 追踪数据源配置工具:需要追踪酶话题语料往往存在于不同的数据源中。为 了提高话题追踪系统的灵活性,针对不同的数据库源和文本源,本系统采用修改x m l 配嚣文件的方式,来达到不修改程亭就可完成对不同数据源追踪的鑫的; 北京工商大学硕士学位论文 ( 3 ) 有监督自适应话题追踪算法:现有的打分算法比较多,i b m 采用的对称o k a p i 公式算法是目前国际上比较领先的算法,在t d t 评测中名列前茅。已有的话题追踪 技术都面临难以处理话题漂移现象、训练样本较少等困难,本文在m m 的对称o k a p i 公式算法基础上,通过人工调整关键字和增量学习的方式,基于话题追踪任务中的有 监督自适应机制提出了一种新算法,改进了话题追踪的效果; ( 4 ) 话题追踪信息服务:通过充分考虑用户的需求,本文设计实现了一个基于 w e b 的话题追踪系统,该系统分别提供了话题管理、话题分析、话题检索、个性化定 制等服务功能。本文还详细描述了各个服务模块功能的实现。 1 5 本论文的组织结构 根据本课题的研究内容,本文的具体章节安排如下: 第二章介绍话题检测与追踪相关技术,其中包括话题检测与追踪技术概述和话题 追踪任务。 第三章介绍系统总体设计。将介绍有监督自适应话题追踪系统的设计目标、设计 思路、系统流程模型、系统总体架构、系统结构模型、开发环境及主要技术、数据库 设计等。 第四章详细阐述系统功能模块实现。首先介绍了基于模板匹配的w e b 信息抽取 模块;然后对数据源配置模块进行介绍:接下来重点讲述了有监督自适应话题追踪模 块;最后描述话题信息服务模块的相关功能的实现。 第五章分析有监督自适应话题追踪算法,这是本论文相对核心的部分。本章首先 对追踪算法的技术背景进行了介绍;然后对本文提出的有监督自适应算法进行详细说 明,深入分析了算法的实现过程,对其中涉及的关键参数( 关键字权重、步长以及阈 值) 进行了解释;接下来用一个实验来帮助说明其实现过程,并对实验结果进行了 分析;最后通过实验对有监督自适应话题追踪系统与无监督自适应话题追踪系统进行 了性能比较。 第六章为结束语。其中包括本文主要贡献与创新、下一步研究工作、以及展望等 内容。 一5 一 基于w e b 的有监督自适应话题追踪系统的设计与实现 第二章话题检测与追踪相关技术综述 2 i 话题检测与追踪技术概述 2 i it d t 的发展历程 t d t 的概念最早产生于1 9 9 6 年【刀,当时美国国防高级研究计划署( d a r p a ) 根 据自己的需求,提出要开发一种新技术,能在没有人工干预的情况下自动判断新闻数 据流的话题。t d t 的研究工作不同于传统的信息检索、信息抽取、文本分类、信息 管理和数据挖掘等文本管理技术,主要原因在于t d t 技术比较关注识别新的事件话 题和获取特定事件相关的资料。t d t 研究中对t o p i c 的定义描述不同于传统的t o p i c 或s u b j e c t 定义描述。1 1 ) t 的t o p i c ( 本文称为事件话题或者话题) 倾向于描述某一 特定事件及其相关活动。 在1 9 9 7 籀研究者开始对这项技术进行初步研究,并做了一些基础工作( 包括 建立了一个针对t d t 研究的预研语料库) 。当时的研究内容包括寻找内在话题一致的 片断,即给出一段连续的数据流( 文本或语音) ,让系统判断两个事件之间的分界, 而且能自动判断新事件的出现以及旧事件的再现。t d t 项目开始于1 9 9 7 年,开始阶 段主要发表了包括c m u 、u m a s s 等系统的研究报告,对这项技术进行初步研究, 并做了一些基础工作。t d t 的研究人员力求设计出一种功能强大、通用、能够自动 学习的算法,和一种能够识别和获取人类语言数据的话题结构。其中,这些算法独立 于数据的来源、媒介、语种、领域和具体应用。总体来说,t d t 的研究内容可以分 为五个技术任务: ( 1 ) 将新闻报道数据流分割成为多个报道( s t o r ys e g m e n t i o n ) ; ( 2 ) 寻找属于特定事件话题的所有报道( t o p i ct r a c k i n g ) ; ( 3 ) 发现新事件话题,并将同属于一个话题的所有报道进行聚类( c l u s t e r d e t e c t i o n ) ; ( 4 ) 发现与新事件话题相关的第一个出现的报道( f i r s ts t o r yd e t e c t i o n ) ; ( 5 ) 确定两个报道涉及的内容是否属于同一个事件话题( s t o r yl i n kd e t e c t i o n ) 。 其中第四个技术f i r s ts t o r yd e t e c t i o n 是第三个技术c l u s t e rd e t e c t i o n 的基础关键 一6 一 北京工商大学硕士学位论文 技术,第五个技术s t o r yl i n kd e t e c t i o n 相当于为第二、三和四个技术任务提供了一个 基础关键技术。并且上述几个技术可以进行组合,完成一些功能更加强大的应用任务。 从1 9 9 8 年开始,在d a r p a 支持下,美国国家标准技术研究所( n i s t ) 每年都 要举办话题检测与追踪国际会议,并进行相应的系统评测。每次先在评测计划中公布 当年的评测标准,经过一段时期的研究,进行评测,最后工作组讨论评测结果和研究 进展。t i ) t 评测采用的语料是由语言数据联盟( l d c ) 提供的t d t 系列语料,目前 已公开的训练和测试语料包括t i ) tp i l o tc o r p u s 、t d t 2 、t d t 3 、t d t 4 8 】和t d t 5 , 这些语料都人工标注了若干事件话题作为标准答案。1 9 9 8 年,t d t 技术第一次公开 评测,有九个研究机构参加,主要有三项评测任务:报道分割、话题追踪和话题检测。 评测的目的是评定由自动语音识别产生的错误和训练样本数目对t d t 的性能影响。 1 9 9 9 年秋季进行第二次t d t 评测,这次评测将1 9 9 8 年的三个任务扩展到汉语语料 中,另外增加两项新任务:新事件检测和关联检测,这两个新任务只针对英语语料。 评测的主要任务是提高包括新闻报道的分割、检测和追踪所需要的信息的描述技术, 这次评测加入了中文的语料。2 0 0 0 年进行第三次评测,重点是多语言的话题检测与 追踪。第四次评测在2 0 0 1 年举办,主要任务是提高在多语言新闻数据流中的t d t 技 术。2 0 0 2 年举办第五次t d t 评测,阿拉伯语的语料被加入到测试集,并提倡对文本 过滤、机器翻译、语音识别、文本分割等技术的研究。2 0 0 3 年进行第六次1 d t 评测, 主要有下面几个任务:新事件检测、关联检测、话题检测、话题追踪。2 0 0 4 年的t d t 评测与以往评测有较大变化:报道分割任务不再进行评测;保留话题追踪任务、话题 检测和关联检测任务;增加了有监督自适应话题追踪任务和层次化话题检测任务。 t d t 评测越来越受到人们的重视。国内外的很多著名的大学、公司和研究机构都参 加了该评测。国外的机构主要有:i b mw a t s o n 研究中心、b b n 公司、c m u 、u m a s s 、 宾州大学、马里兰大学等等。国内这方面的研究开展得明显较晚,1 9 9 9 年国立台湾 大学参加了t i ) t 话题检测任务的评测,2 0 0 0 年香港中文大学参加了1 d t 某些子任 务的评测。还有北京大学计算语言学研究所、中科院计算所、哈工大、东北大学、复 旦大学、微软亚洲研究院、清华大学等一些国内有名的研究机构的n l p 研究人员也 开始进行t d t 相关关键技术的研究,该研究成为一个新兴的研究热点,但是国内的 研究主要侧重于追踪国外最新理论并进行跟踪性研究,相关研究成果报道并不多。 话题识别可以看作是一种按事件的聚类,研究者通常采用的算法有:增量 一7 一 基于w e b 的有监督自适应话题追踪系统的设计与实现 k - m e a n s 聚类、a g g l o m e r a t i v e 聚类、单遍聚类等【9 j 。有多种不同的方法在话题追踪中 被尝试使用,如r o c c h i o 分类方法、决策树方法、基于h m的语言模型等等【1 0 1 。目 前常用的话题或报道模型有语言模型( l m ) 和向量空间模型( v s m ) ,其中向量空 间模型是目前最简便高效的文本表示模型之一【1 1 1 。 2 1 2t d t 的基本任务 目前,话题检测与追踪研究主要集中于五个子任务展开,各个子任务的解决将有 助于最终研究目标的实现。这五个子任务包括: ( 1 ) 对新闻报道的切分( s t o r ys e g m e n t a t i o n ) 将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道; ( 2 ) 新事件的识别( n e we v e n td e t e c t i o n ) 在新闻报道信息流中识别出对一个新话题的首次报道; ( 3 ) 报道关系识别( s t o r yl i n kd e t e c t i o n ) 判断两个随机选择的新闻报道是否讨论同一个话题; ( 4 ) 话题识别( t o p i cd e t e c t i o n ) 识别出系统未知的话题,并将相关报道也识别出来; ( 5 ) 话题追踪( t o p i ct r a c k i n g ) 监控新闻报道信息流以发现与某一已知话题有关的新报道。 下面对这五个子任务进行详细的介绍: ( 1 ) 对新闻报道的切分 对新闻报道的切分:从一个信息源获得的语言信息流被分割为不同的新闻报道。 由于从新闻专线获得的文本信息流本身就是以单个报道出现的,所以这一任务只适用 于对来自广播、电视等媒体的音频数据的处理。一段新闻节目通常包含很多条报道, 但是这些节目本身很少在不同的新闻报道间设置明显的分隔标记。比如,商业广告就 很可能出现在某篇报道的中间。要切分的语料或数据可以是音频记录本身,也可以是 由人工或通过自动语音识别( a s r ,a u t o m a t i cs p e e c hr e c o g n i t i o n ) 从音频记录得到 的文字记录。图2 1 给出了报道切分任务的一个直观图示。 报道切分是其它四项任务的预处理,也就是说,其它任务都是在报道切分的基础 上进行的,它们需要以文本形式的报道流当作输入。有关报道切分对其他任务的影响 一r 一 北京工商大学硕士学位论文 的研究表明,它对追踪任务影响较小,但对各种识别任务影响很大。报道切分系统的 性能依赖于原始数据的形式以及做出决策允许的最大延迟时间。 音频数据或文本流+ 广一一一一一一一一一一一一一一一一一一1 艄潲圈: t i 图2 1 报道切分 对这一任务的处理,一个比较成功的做法是使用最大熵和决策树混合的模型,利 用各种与信息源相关的特征,如语速( 电视播音员在新闻报道的开始语速要快些) 、 句子的长度( 长句多出现在新闻报道的开始) 、在节目中的位置( 可能知道商业广告 会出现在某个可以预测的时间段内) 以及字或词的n 元文法。另外,贝叶斯分类器、 各种词汇线索( 如前后边界触发词) 、停顿间隔以及变化的能量级别等方法或信息, 也被许多系统采用或利用【1 2 1 。 ( 2 ) 新事件的识别 新事件识别任务:目标是识别出以前没有讨论过的新闻话题的出现,比如一次炸 弹爆炸、火山喷发、某个政治丑闻等等。这项任务也被看作是对个话题识别系统的 透明测试,因为判断每个报道是否讨论了一个新话题是一个话题识别系统的基础。图 2 2 给出了新事件识别任务的一个示例:不同颜色的圆形分别代表语料中的两个不同 的话题,每个话题有一个最初的报道。 对两个话题的首次报道 = 跏l 0 - 镪2 图2 - 2 新事件的识别 目前,在新事件识别任务中采用的典型方法是:用向量或概率分布形式表示的特 征集合代表每篇报道,每遇到新来的报道,就将其特征集合与过去所有报道的特征集 合进行比较,据此判断该报道是否描述了一个新的话题1 1 1 1 2 1 。j a m e sa l l a n 等人认为 采用这种基于文本相似性比较的简单方法已经不能指望通过简单的参数调整来提高 一9 一 基于w e b 的有监督自适应话题追踪系统的设计与实现 系统的性能,必须要探索其它完全不同的方法【9 1 。 ( 3 ) 报道关系识别 报道关系识别任务:系统对给定的两篇新闻报道做出判断,即它们是否讨论同一 个话题。这项技术是其它几项任务的一个重要的核心技术。一个好的报道关系识别系 统也可用于解决话题追踪、识别以及对新发生事件的检测等问题。与其它任务相比, 尽管这一任务没有直接的应用目标,但由于绝大多数t d t 方法依赖某种相似性判定 函数,对报道关系识别任务的评价至少可以使对这些不同相似性判定函数的评价成为 可能。目前,对这一任务的研究并没有受到应有的重视,这可能主要因为它的应用目 标尚不明确。图2 3 给出了报道关系识别任务的一个直观图示。 图2 - 3 报遭关系识别 目前,最成功的报道关系识别系统使用一个余弦相似性计算函数,并用到以下一 些资源或技术:停用词、词干分析、二元术语向量、增量修订t f * i d f 的取值以及基于 时间的惩罚策略( 即如果两篇报道出现的时间间隔越大,那么它们描述同一话题的可 能性就越小) 。 ( 4 ) 话题识别 话题识别意在将输入的新闻报道归入不同的话题簇,并在需要的时候建立新的话 题簇。从本质上看,这项研究等同于无指导的( 系统无法预先知道应该有多少个话题 簇,什么时候建立这些话题簇) 聚类研究,只允许有限的向前看。通常的聚类可看作 是基于全局信息的聚类,即在整个数据集合上进行聚类,但话题识别中用到的聚类是 以增量方式进行的。这意味着,在做出最终的决策前,不能或只能向前面看有限数量 的文本或报道。 话题识别作为一种增量聚类,可以划分为两个阶段:识别出新事件的出现;将描 写先前遇到的话题的报道归入相应的话题簇。显然,第一个阶段就是对新发生事件的 识别。话题识别任务是对新事件识别任务的一个自然的扩展,但是,这两项任务的区 别也是很明显的:前者关心将谈论某个话题的所有新闻报道归入一个话题簇,如果仅 一1 0 - = l 艺京工煮大学硕士学位论文 仅不能正确识别出对某个话题的首次报道,问题并不严重;后者则正好相反,它只关 心系统能否将引出某个话题的第一篇报道识别出来。图2 4 给出了话题识别任务的一 个直观图示。 话遂1 图2 0 话题识剐 话题识别可以看作是一种按事件的聚类,研究者常采用的算法有:增量k - m e a n s 聚类、a g g l o m e r a t i v e 聚类、单遍聚类等。 ( 5 ) 话题追踪 话题追踪技术的霉标是针对不断堪长的信息流,追踪某个给定的话题,发现所有 有关该话题的信息。话题追踪的任务定义:在给定的追踪体系下,根据文本的内容自 动缝确定文本关联的话题【1 3 1 。麸数学角度来看,话题追踪是一个映射的过程,它将未 标明话题的文本映射到已有的话题中,该映射可以是一一映射,也可以是一对多的映 射,因为一篇文本露以同多个话题相关联。用数学公式表示如下: f :a 砷b 公式2 - 1 其中,么为待追踪的文本集合,嚣为追踪体系中的话题集合。 话题追踪的映射规则是系统根据已经掌握的每个话题若干样本的数据信息,总结 出追踪的规律性丽建立的判别公式和判别规则。在遇到薪文本时,根据总结出的判别 规则,系统能确定文本相关的话题,话题追踪技术可以视为包含如下约束条件的文本 分类技术: 事件话题是通过事先手工给定的一个文本文件样本集合来定义的; 对予给定的话题,当有新的新闻文本产生,追踪系统将立即给出一个二值( 是 否) 追踪判定; 当对一个事件话题进行训练学习时,系统假设对其链事律话题是未知的。 话题追踪系统的目的是追踪用户指定的感兴趣的事件的后续发展,判断出与之相 基于w e b 的有监督自适应话题追踪系统的设计与实现 关的事件。用户指定几个关于该事件的报道,他们想知道这个事件的后续发展,系统 就用这些报道来学习出这个报道讲的是什么。当一个新报道到来时,如果它是与这个 事件相关的系统就向用户笈出警告。话题追踪任务与信息检索中过滤任务有些相似, 首先提供给系统几个报道( 通常是1 4 个) ,这些报道都是关于同一话题的,期望在 到来的新闻流中找到所有关于该话题的报道。它的模式为:系统无监督的提交结果, 因此它不知道对于到来报道的追踪结果是否正确。所有的话题都是被独立的进行追踪 的,因此报道与某话题相关的决策不能被用于影响对其他话题的判定。图2 - 5 给出了 话题追踪任务的一个直观图示。 r 、i ! 田 “”* + :一粤:一j i | l |ii1l 2 2 话题追踪任务介绍 2 2 1 基本概念 2 21 1 话题( t o p i c ) l 一 舞试敏据 幽2 0 话题追踪 在t d t 中,话题被定义为与不断增长的真实世界的事件相关的新闻报道的集合。 当建筑物被炸时,它就触发了一个话题。任何讨论该次爆炸或营救的报道、罪犯或逮 捕审讯等等的报道都是该话题的组成部分。而描述另一次发生在同一天其他地点的爆 炸的报道就不属于该话题,同样报道美国北部热浪的报道也不属于该话题。话题的直 觉定义来自人们对新闻报道的理解。假设某人对新闻的一些报道不感兴趣,那么所有 北京工商大学硕士学位论文 与这些报道相关的话题这个人也不感兴趣。 在t d t 2 以后的评测中,话题的定义被扩展了,还包括触发事件以及与之相关的 其他事件和活动,这个定义一直延续到t d t 3 、t d t 4 和t d t 5 ,即: 话题,就是一个种子事件或活动以及与之直接相关的事件或活动。 2 2 1 2 事件( e v e n t ) 事件是通常在特定时间、地点发生的事情。可以简单地认为话题就是若干对某事 件相关报道的集合。比如国航c a l 2 9 失事是一个事件而不是话题,飞机失事是话题 而不是事件。 2 2 1 3 报道( s t o r y ) 关。 报道即是对某个事件的相关报道。一般地,报道是话题的实例,与一定的活动相 2 2 2 任务定义 话题追踪任务就是监控新闻报道流,并发现与给定样例报道讨论同一话题的其他 报道。例如:给定一个或两个关于选举的报道,用户标记这些报道,当讨论同一话题 的新的报道出现时,系统就会提醒他去阅读。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030中国菱镁矿行业深度调查及市场规模预测研究报告
- 2025至2030中国自攻螺钉市场经营管理风险与盈利预测研究报告
- 2025至2030中国红参市场运行态势与竞争格局研究报告版
- 2025至2030中国版权转让行业发展态势展望与投资效益研究报告
- 2025至2030中国摩托车把座行业市场运营模式及未来发展动向研究报告
- 2025至2030中国医疗AR耳机市场发展状况及投资前景研究报告
- 2025至2030中国共享充电宝市场运营策略分析与投资风险预警报告
- 2025-2030预氧化碳纤维布行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030阿洛酮糖行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030轻轨行业发展分析及投资价值研究咨询报告
- 部编版(2024)三年级道德与法治上册第12课《生活离不开规则》教学课件
- 初级家政服务员近年考试真题题库(含真题、典型题)
- 05生产制造指令单
- 书法测评基础理论知识单选题100道及答案解析
- 河南省多校联考2023-2024学年高一下学期4月期中物理试题
- Endat编码器在AX5000系列伺服上使用说明
- 第十一章-新闻事业管理-《新闻学概论》课件
- 湘潭、成都工厂VDA63-2023审核员培训考核附有答案
- 招标代理机构入围项目技术投标方案(技术方案)
- 部编版语文六年级下教学设计(含二次备课和教学反思)
- 2024年3月湖北省武汉市高三一模考试数学试卷及答案
评论
0/150
提交评论