(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf_第1页
(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf_第2页
(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf_第3页
(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf_第4页
(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机应用技术专业论文)生物医学文献中命名实体的识别.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 生物命名实体识别是生物医学文本挖掘的关键步骤,只有正确地识别出生物命名实 体,才能有效地完成基因( 蛋白质) 标准化和蛋白质蛋白质相互关系抽取等更加复杂 的工作。然而,由于生物命名实体命名的不规则性和歧义性,生物命名实体识别一直是 一项富有挑战性的任务。 本文主要研究生物医学英文文献中命名实体的识别问题,实验中采用的语料包括 j n l p b a 2 0 0 4 和b i o c r e a t l v e2g m 两种。 本文的主要贡献包括以下两点: ( 1 ) 提出了一种基于条件随机域( c o n d i t i o n a lr a n d o mf i e l d s ,c r f ) 的两阶段生 物命名实体识别方法。该方法将j n l p b a 2 0 0 4 任务分为识别和分类两个子任务,并将这 两个子任务分两阶段来完成:在第一阶段,即识别阶段,使用c r f 模型将文本中所有 潜在的生物命名实体全部标记出来,但是不区分类别;在第二阶段,即分类阶段,用另 一个c r f 模型对己识别的实体进行分类。为进一步提高系统的识别性能,本文还在分 类阶段之前加入了四个后续处理算法。实验结果表明,采用本文提出的方法进行生物命 名实体识别不仅能有效缩短模型的训练时间,还能进一步提高系统的识别性能,该方法 在j n l p b a 2 0 0 4 语料上取得了7 4 4 7 的f l 评测值,比j n l p b a 2 0 0 4 竞赛的第一名高 1 9 2 。 ( 2 ) 针对b i o c r e a t l v e2g m 任务,本文提出了一种基于多模型整合的生物命名 实体识别方法。该方法首先采用不同的机器学习算法和特征集训练了六个有差别的机器 学习模型,然后使用简单集合运算( 如并集、交集等) 和投票两种策略将它们的识别结 果整合到一起。实验结果表明,整合多个模型的识别结果有助于提高系统的识别性能, 本文提出的方法在b i o c r e a t l v e2g m 语料上取得了8 7 8 9 的f l 评测值,比b ,i o c r e a t i v e 2g m 竞赛的第一名高o 6 8 。 关键词:文本挖掘;命名实体识别;生物命名实体识别;机器学习 大连理工大学硕士学位论文 r e c o g n i z i n gn a m e d e n t i t i e si nb i o m e d i c a ll i t e r a t u r e s a b s t r a c t b i o m e d i c a ln a m e de n t i t yr e c o g n i t i o n ( b i o - n e r ) i sac r i t i c a ls t e pf o rb i o m e d i c a lt e x t m i n i n g ,o n l yw h e nb i o e n t i t i e sa r ec o r r e c t l yi d e n t i f i e dc o u l do t h e rm o r ec o m p l e xt a s k s ,s u c h a s ,g e n e p r o t e i nn o r m a l i z a t i o na n dp r o t e i n - p r o t e i ni n t e r a c t i o ne x t r a c t i o n ,b ep e r f o r m e d e f f e c t i v e l y h o w e v e r ,d u et ot h ei r r e g u l a r i t i e sa n da m b i g u i t i e si nb i o e n t i t i e sn o m e n c l a t u r e b i o n e rr e m a i n sac h a l l e n g i n gt a s k t 1 1 i st h e s i sf o c u s e so nt h er e s e a r c ho fr e c o g n i z i n gn a m e de n t i t i e si ne n g l i s hb i o m e d i c a l l i t e r a t u r e s b o t hj n l p b a 2 0 0 4a n db i o c r e a t i v e2g m d a t a s e t sa r eu s e di nt h ee x p e r i m e n t s c o n t r i b u t i o n so ft h i st h e s i sc a nb es u m m a r i e da sf o l l o w s : ( 1 ) n l i st h e s i sp r e s e n t sat w o p h a s eb i o n e ra p p r o a c hb a s e do nc o n d i t i o n a lr a n d o m f i e l d s ( c r f ) ,w h i c hd i v i d e s l p b a 2 0 0 4s h a r e dt a s ki n t ot w os u b t a s k s :n a m e de n t i t y d e t e c t i o n ( n e d ) a n dn a m e de n t i t yc l a s s i f i c a t i o nm e c ) t h e s et w os u b t a s k sa r ef i n i s h e di n t w op h a s e s :a tt h ef i r s tp h a s e ( f o rn e ds u b t a s k ) n a m e de n t i t i e si nb i o m e d i c a ll i t e r a t u r e sa r e d i s t i n g u i s h e df r o mn o n n a m e d - e n t i t i e sb yac i 讧m o d e l w i t h o u ti d e n t i l y i n gi t st y p e ;a tt h e s e c o n dp h a s e ( f o rn e cs u b t a s k ) a n o t h e rc r fm o d e li su s e dt od e t e r m i n et h ec o r r e c te n t i t y t ) ,p e f o re a c hi d e n t i f i e de n t i t y t oa c h i e v eab e t t e rp e r f o r m a n c e ,f o u rp o s t p r o c e s s i n g a l g o r i t h m sa r ee m p l o y e db e f o r en e cs u b t a s k e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r e s e n t e d a p p r o a c hi se f f e c t i v en o to n l yi nt h er e d u c t i o no ft r a i n i n gc o s tb u ta l s oi nt h ei m p r o v e m e n to f t h ep e r f o r m a n c e i ta c h i e v e sa nf l m e a s u r eo f7 4 4 7 o nj n l p b a 2 0 0 4d a t a s e t s w h i c hi s 1 9 2 h i g h e rt h a nt h et o ps y s t e mi n j _ n l p b a 2 0 0 4c h a l l e n g e ( 2 ) t od e a lw i t hb i o c r e a t i v e2g mt a s k ,t h i st h e s i sp r e s e n t sab i o - n e ra p p r o a c h ,i n w h i c hd i v e r g e n tm o d e l sa r ei m p l e m e n t e da n di n t e g r a t e d i nt h ee x p e r i m e n t s ,s i xd i v e r g e n t m o d e l sa r ei m p l e m e n t e dw i t hd i f f e r e n tm a c h i n el e a r n i n ga l g o r i t h m sa n dd i s s i m i l a rf e a t u r e s e t s a n dt h e i rr e s u l t sa r ei n t e g r a t e db yt w os t r a t e g i e s ,i e s i m p l es e to p e r a t i o n s ( i n t e r s e c t i o n a n du n i o n ) a n dv o t i n g e x p e r i m e n t a lr e s u l t ss h o wt h a ti n t e g r a t i n gd i v e r g e n tm o d e l sc a n i m p r o v et h et a g g i n gp e r f o r m a n c e ,a n dt h ep r e s e n t e da p p r o a c hc a na c h i e v ea nf 1 - m e a s u r eo f 8 7 8 9 o nb i o c r e a t i v e2g md a t a s e t s ,w h i c hi so 6 8 h i g h e rt h a nt h et o ps y s t e mi n b i o c r e a t i v e2c h a l l e n g e k e yw o r d s :t e x tm i n i n g ;n a m e de n t i t yr e c o g n i t i o n ;b i o m e d i c a ln a m e de n t i t y r e c o g n i t i o n ;m a c h i n el e a r n i n g i i i 大连理工大学硕士学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 学位论文题目: 作者签名: 导师签名: 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 学位论文题目:丝均匡堂虫盎签圣耸星宝达豳途墨1 1 作者签名:j 主1 篆啦日期:珥年丝月上厶日 大连理工大学硕士学位论文 1 绪论 1 1研究背景与意义 计算机的普及和互联网技术的快速发展使得信息的采集和传播变得简便快捷,大量 的信息开始以惊人的速度涌现,进而导致了“信息爆炸”现象的产生。为了应对“信息 爆炸”带来的严重挑战,人们迫切需要一些自动化的工具帮助他们从海量的信息源中迅 速而准确地找到他们最需要的信息。于是,文本挖掘技术应运而生。 所谓文本挖掘( t e x tm i n i n g ) ,是指从大量文本数据中抽取隐含的、以前未知的、 潜在有用的知识的过程。文本挖掘涵盖自然语言处理、信息抽取、信息检索、数据挖掘 等多项技术,其目的是为人们提供更有力的信息获取工具,帮助人们从无结构的文本数 据中发现真正有价值的信息。 命名实体识别( n a m e de n t i t yr e c o g n i t i o ,n e r ) 是文本挖掘的一项关键技术。它是 实现信息抽取的第一步,同时也是信息检索、机器翻译、组块分析、问答系统等自然语 言处理技术的重要基础。命名实体识别的任务是对文本中出现的人名、地名、机构名等 具有特定意义的词或短语进行识别。 在生物医学领域进行的命名实体识别被称为生物命名实体识别( b i o m e d i c a ln a m e d e n t i t yr e c o g n i t i o n ,b i o n e r ) ,其目的是对那些分子生物学家感兴趣的专业实例和术语, 如蛋白质、基因、核糖核酸、脱氧核糖核酸等,进行自动识别和分类。生物命名实体识 别是生物医学文本挖掘的关键步骤,是实现关系抽取、假设发现、文本分类等深层次文 本挖掘技术的先决条件,例如,要想得到基因、蛋白质以及疾病等生物实体之间的关系, 首先必须能够从文本中正确地识别出这些生物实体。因此,生物命名实体识别的研究具 有非常重要的意义。 作为生物医学文本挖掘的重要基础性研究工作,生物命名实体识别引起了来自计算 语言学、生物信息学、机器学习等多个领域的研究者的广泛关注,国内外许多专家和学 者对其进行了深入的研究,也取得了一些重要的成果。尽管如此,生物命名实体识别依 然是一项富有挑战性的任务。 生物命名实体识别的难点主要体现在以下几个方面: ( 1 ) 随着生物科学的飞速发展,新的生物实体不断出现,因此,不可能存在一个 完整的包含各种类型生物命名实体的词典。大量未登录词的存在严重影响了生物命名实 体识别的精确率和召回率; 生物医学文献中命名实体的识别 ( 2 ) 有些生物命名实体拥有多种不同的拼写方式( 例如,n f k a p p a b 、n f k a p p a b 和n f k b 均表示同一生物实体) ,不同的作者( 或文献) ,采用的拼写方式可能不同, 这就给研究者提出了难题; ( 3 ) 相同的词或短语在不同的上下文可能表示不同类别的生物命名实体,很容易 混淆。例如:i l 2 既可以是蛋白质的名称,又可以是d n a 的名称; ( 4 ) 很多生物命名实体都是多词短语,有些实体还存在前置修饰语,这给命名实 体边界的确定带来了很大的困难; ( 5 ) 生物医学文献中存在大量缩写形式的命名实体,如:i f n 、矸协等。并且, 很多缩写词的形成是没有规律可言的,还具有高度的歧义性【l 】。缩写词的识别一直是生 物命名实体识别的一个难点。 ( 6 ) 此外,有些生物命名实体还存在着嵌套现象,例如:k a p p a3b i n d i n gf a c t o r 本身是一个蛋白质的名称,其内部却嵌套着一个d n a 的名称k a p p a3 ; 1 2 相关国际评测会议 目前,命名实体识别在新闻领域已经取得了很好的效果,其f l 评测值可以达到9 6 以上【2 1 ,基本与人工标注的结果相差无几。而在生物医学领域,b i o n e r 系统的f l 评测 值最高只有8 5 【3 】,与新闻领域n e r 系统相比,差距依然很大。 为促进生物命名实体识别技术的发展,近年来,国际上先后开展了多个生物命名实 体识别相关的公开竞赛,如:j n l p b a 、b i o c r e a t l v e 等。 1 2 1j n l p b a j n l p b a ( i n t e r n a t i o n a lj o i n tw o r k s h o po nn a t u r a ll a n g u a g ep r o c e s s i n gi nb i o m e d i c i n e a n di t sa p p l i c a t i o n s ) 是与国际计算语言学会议同时召开的公开评测会议,其主要评测任 务是生物命名实体识别。于2 0 0 4 年举办的l p b a 2 0 0 4 要求参赛系统从生物医学英文 文献中识别出五类实体,即p r o t e i n 、d n a 、r n a 、c e l ll i n e 和c e l lt y p e ,并且允许参赛 者使用任何方法和知识源来完成他们的系统【4 j 。大赛采用精确率、召回率和f l 评测值对 所有参赛系统进行统一测评。 刷l p b a 2 0 0 4 为参赛者提供g e n i av 3 0 2 作为训练语料,该语料是由在m e d l i n e 数据库中以m e s h 主题词h u m a n 、b l o o dc e l l s 和t r a n s c r i p t i o nf a c t o r s 为关键字检索出的 2 0 0 0 篇摘要组成的,并由专家根据3 6 个术语分类进行了手工注解【5 】。g e n i av 3 0 2 为 生物命名实体识别研究提供了最大的单个己注解训练数据源,同时,它也是迄今为止分 类广度最大的标注语料库。 一2 一 大连理工大学硕士学位论文 刷l p b a 2 0 0 4 用于测试的4 0 4 篇摘要同样来自m e d l i n e 数据库。其中有一半数据 和g e n i av 3 0 2 一样,是以m e s h 主题词h u m a n 、b l o o dc e l l s 和t r a n s c r i p t i o nf a c t o r s 为 关键字检索出来的;而另一半则是以m e s h 主题词b l o o dc e l l s 和t r a n s c r i p t i o nf a c t o r s 为 关键字检索出来的。 m e d l i n e ( m e d i c a ll i t e r a t u r ea n a l y s i sa n dr e t r i e v a ls y s t e mo n l i n e ) 是国际上最具 权威的生物医学文献数据库,由美国国家医学图书馆创建,是m e d l a r s ( m e d i c a l l i t e r a t u r ea n a l y s i sa n dr e t r i e v a ls y s t e m ) 系统中使用频率最高、规模最大一个的数据库。 目前,m e d l i n e 收录的文献已超过1 9 0 0 万篇,涉及基础医学、临床医学、环境医学、 营养卫生、职业病学、卫生管理、医疗保健、微生物、药学、社会医学等多个领域。 m e s h ( m e d i c a ls u b j e c th e a d i n g s ) 是美国国家医学图书馆用以分析生物医学期刊文 献等资源的主题内容的控制语汇表,也是m e d l i n e 数据库主题检索的索引词典。m e s h 由2 2 9 9 5 个主标题( d e s c r i p t o r s ,m a i nh e a d i n g s ) 组成,分为l5 个层次。m e s h 主标题层 级结构安排的目的是为信息检索提供服务。 1 2 2b i o c r e a t i v e b i o c r e a t i v e ( c r i t i c a la s s e s s m e n to fi n f o r m a t i o ne x t r a c t i o ns y s t e m si nb i o l o g y ) 是一 个国际性的生物医学文本挖掘评测会议,由西班牙国家癌症研究中心、美国m i t i 冱公 司、美国生物技术信息中心等5 个机构组织创办。 ( 1 ) b i o c r e a t l v e1 于2 0 0 4 年3 月举办的b i o c r e a t l v e1 包括两项任务【6 j 。其中,任务一关心的是文本 中基因名称的识别以及标准化。该任务又包含两个子任务,分别是以基因名称识别( g e n e n a m ei d e n t i f i c a t i o n ) 为目标的t a s k1 a 和以基因标准化( g e n en o r m a l i z a t i o n ) 为目标的 t a s k1 b 。任务二的目标则是为文本中的基因产物进行功能标注( f u n c t i o n a la n n o t a t i o no f g e n ep r o d u c t s ) 。 b i o c r e a t l v e1t a s k1 a 要求参赛系统正确标记出给定m e d l i n e 句子中所有基因和 基因相关实体在句子中的起止位置。大赛为参赛者提供7 5 0 0 句训练语料和2 5 0 0 句 d e v e l o p m e n tt e s t 语料,用来帮助他们完成自己的系统,并另外提供5 0 0 0 句测试语料, 用于系统的评测。大赛采用精确率、召回率和f l 评测值作为系统的评测指标。 b i o c r e a t l v e1t a s k1 a 语料由美国生物技术信息中心提供,该语料是由从 m e d l i n e 摘要中抽取的一个个句子组成的,并由专家对其中的基因及基因相关实体( 包 括b i n d i n gs i t e s 、m o t i f s 、d o m a i n s 、p r o t e i n s 和p r o m o t e r s 等) 进行了手工标注【7 j 。 生物医学文献中命名实体的识别 ( 2 )b i o c r e a t i v e2 于2 0 0 6 年l o 月举办的b i o c r e a t l v e2 包括三项任务:即,基因标注( g e n em e n t i o n , g m ) 、基因标准化( g e n en o r m a l i z a t i o n ,g n ) 和蛋白质一蛋白质交互关系抽取 ( p r o t e i n - p r o t e i ni n t e r a c t i o n ,p p i ) 。 b i o c r e a t l v e2g m 任纠8 】是基于b i o c r e a t l v elt a s k1 a 的,其训练语料包括了 b i o c r e a t i v e1t a s k1 a 的所有训练和测试语料,共1 5 0 0 0 句。大赛提供另外5 0 0 0 句语 料,用于系统的评测。系统的评测指标包括精确率、召回率和f l 评测值,与b i o c r e a t i v e 1t a s k1 a 相同。 b i o c r e a t i v e2g m 与b i o c r e a t l v e 1t a s k1 a 的不同之处在于: 虽然两者都要求参赛者标记出命名实体在句子中的起止位置,但是, b i o c r e a t i v e1t a s k1 a 采用单词作为标记的基本单位,而b i o c r e a t l v e2g m 则采用字 母作为标记的基本单位; b i o c r e a t l v e1t a s k1 a 提供的语料是词语切分( t o k e n i z a t i o n ) 后的结果,而 b i o c r e a t l v e2g m 需要参赛者来完成词语切分的过程; b i o c r e a t i v e1t a s k1 a 的评测包括开式和闭式两种,其中,开式测试允许使用 外部资源,而闭式测试则不允许。b i o c r e a t l v e2g m 采用的是开式测试。 1 3 国内外研究现状 当前,生物医学领域的研究正在飞速发展,作为成果展示和学术交流的主要方式, 生物医学文献呈现出指数级增长趋势。迄今为止,m e d l i n e 收录的生物科技文献已超 过1 9 0 0 万篇,比2 0 0 6 年增长了近三百万篇。海量的生物科技文献为生物医学文本挖掘 的发展提供了机遇。作为生物医学文本挖掘的重要基础性研究工作,生物命名实体识别 技术也得到了长足的发展。 目前的生物命名实体识别方法大致可以分为以下几种: ( 1 ) 基于词典的方法 基于词典的方法( d i c t i o n a r y b a s e da p p r o a c h e s ) 通过从文本中搜索出与给定词典中 命名实体相同或者最相似的字符串来实现生物命名实体的识别。其优点是简单实用,并 且能够同时提供生物命名实体的标识信息( 如g e n b a n ki d 和s w i s s p r o ti d 等) 。这些 标识信息是与其他数据源进行信息融合所必需的。基于启发式规则的方法和基于机器学 习的方法虽然也能有效的识别出生物医学文献中的命名实体,却无法同时提供其标识信 ,息。 一4 一 大连理工大学硕士学位论文 然而,基于词典的方法受限于词典的规模和质量,并不能达到令人满意的识别效果。 因为随着生物科技的飞速发展,新的命名实体会不断出现,并不存在一个完整的包含各 种类型生物命名实体的词典。鉴于此,基于词典的方法通常都是与其他方法结合使用的。 另外,由于生物医学文本中的实体存在大量的变体名,使用字符串完全匹配算法会 导致极低的召回率。因此,基于词典的生物命名实体识别一般采用的都是字符串近似匹 配算法,y a n g 等【9 】使用的改进编辑距离算法就是字符串近似匹配算法的一种。 针对以上两个问题,国内外研究者纷纷提出了自己的建议和解决方案。c o h e n 利用 m g i 、s a c c h a r o m y c e s 、u n i p r o t 、l o c u s l i n k 和e n t r e zg e n e 五个网络基因资源库构建了 词典 1 0 】。t s u r u o k a 和t s u j i i 采用两种策略解决生物实体变体名带来的困扰【1 1 】,一是采用 编辑距离算法进行字符串近似匹配;二是采用p r o b a b i l i s t i cv a r i a n tg e n e r a t o r 对词典进行 扩展。s c h u e m i e 等采用两种方法来实现词典的扩充【l2 1 ,一是综合e n t r e zg e n e 、g e n e w 、 g d b 、o m i m 等多个基因蛋白质数据库的信息;二是采用规则获取生物实体变体名来 对词典进行扩充。文献 9 】采用“全称缩写对 识别算法对词典进行了扩充,并利用改进 编辑距离算法和多种后续处理提高了系统的性能。 ( 2 ) 基于启发式规则的方法 基于启发式规则的方法( h e u r i s t i cr u l e b a s e da p p r o a c h e s ) 通过分析命名实体的内 部和外部特征,人工地或启发式地产生规则模板,来实现生物命名实体的识别。其优点 是研究者可以根据需要灵活地制定和扩展规则,以处理生物医学文献中各种复杂的语言 现象。然而,基于规则的方法同样存在缺陷,那就是:规则的创建一般需要花费大 量的时间,并且需要专家的参与;已定义的规则通常只能在某一特定的领域使用, 一般很难再应用于其他领域,即使可以,也需要做大量的改动。 基于规则的方法通常采用一系列的正则表达式来定义命名实体的匹配模式。例如,一 基于规则的方法可能利用正则表达式 a z 】+ o 9 】+ $ ( 该表达式可以匹配任意m 个小写字 母与任意n 个数字顺序连接得到的字符串,m = 1 ,n = 1 ) 来识别基因p 5 3 。当然,人们 也可以利用规则来实现生物命名实体的分类或边界扩展,比如将以m r n a 结尾的实体 全归为r n a 这一类别。 f u k u d a 等提出的p r o p e r ( p r o t e i np r o p e r n o u np h r a s ee x t r a c t i n gr u l e s ) 方法是利 用启发式规则进行生物命名实体识别的典范 1 引。f u k u d a 等首先将文本中的命名实体核 心词( c o r e t e r m ) 抽取出来,然后利用词形特征( s u r f a c ec l u e s ) 和词性信息 ( p a r t o f - s p e e c h ) 对核心词进行扩展,以得到完整的命名实体。 生物医学文献中命名实体的识别 o l s s o n 等【1 4 】采用词法分析和语法分析技术,分7 步对生物医学文献中的命名实体进 行识别。其系统( y a p e x ) 在一个包含1 0 1 篇m e d l l n e 摘要的测试集上取得了6 7 1 的f 1 评测值,而在同一测试集上文献 1 3 】仅取得了4 0 7 的f l 评测值。 h o u 和c h e n 利用从生物学语料中抽取的p r o t e i nc o l l o c a t e s 作为约束条件来过滤命名 实体的候选,提高了蛋白质名称识别的效果【l5 1 。其中,p r o t e i nc o l l o c a t e s 是指语料中经 常与蛋白质名称一起出现的关键词。 n a r a y a n a s w a m y 等【1 6 】利用词形特征、英文语法约束、上下文信息和生物医学领域专 业知识来识别蛋白质基因、化学药品名称等生物实体,取得了很好的效果( 后续处理之 后对蛋白质识别的f l 评测值是8 0 6 4 ) 。 ( 3 ) 基于机器学习的方法 基于机器学习的方法( a p p r o a c h e sb a s e do nm a c h i n el e a r n i n g ) 通过从样本数据集合 ( 训练语料) 中统计出相关特征和参数,建立识别模型,来完成生物命名实体识别任务。 其优势在于机器学习方法可以识别生物命名实体词典未包含的潜在命名实体,并且不需 要研究者具有太多生物医学专业知识。然而,基于机器学习的方法需要大量的标注语料。 如何获取训练数据,是机器学习方法面临的首要问题。 g e n i a 、g e n e t a g 1 7 】等标注语料库的出现,为研究者提供了大量训练数据,促进 了机器学习方法在生物命名实体识别领域的发展。以j n l p b a 2 0 0 4 为例,j n l p b a 2 0 0 4 公开评测竞赛的参赛系统有八个,都是基于机器学习的,主要使用了四种机器学习模型, 即s v m t l 8 ,1 9 1 、h m m e 2 0 1 、m e m m t 2 1 】和c r f t 2 2 1 ,本文将在第二章中对这些模型进行详细 的介绍。 ( 4 ) 混合型方法 基于词典、基于启发式规则和基于机器学习的方法各有优缺点,因此,许多研究者 开始尝试综合运用多种方法或多个机器学习模型( 即采用混合型方法) 来进行生物命名 实体的识别,如: w a n g 等综合了s v m 、g e n e r a l i z e dw i n n o w 、c r f 和m e 等多种统计学习方法,在 j n l p b a 2 0 0 4 语料上取得了优于国际同类研究的识别效果【2 3 】; h s u 等整合了八个c r f 模型的实验结果1 2 引,在b i o c r e a t i v e2g m 语料上取得了 8 8 3 0 的f 1 评测值,比b i o c r e a t i v e2g m 竞赛的第一名高1 0 9 。 j n l p b a 2 0 0 4 任务中,有三支参赛队伍选择使用混合型方法。其中,z h o u 和s u 2 5 】 使用h m m 和s v m 构建了其生物命名实体识别系统,并采用基于规则和基于词典的方 法对嵌套、别名、缩写等特殊情况进行了后续处理;r 6 s s l e r 2 6 】将一个运行于德文新闻语 一6 一 大连理工大学硕士学位论文 料上的命名实体识别系统应用到了生物医学领域;而s o n g 等【2 7 】的生物命名实体识别系 统则是基于s v m 和c r y 的。他们分别取得了大赛的第一名、第六名和第四名。 以上研究表明,综合运用基于词典、基于启发式规则和基于机器学习的方法可以实 现优势互补,进一步提高系统的性能,混合型方法也因此逐渐成为生物命名实体识别的 主流方法。 近几年,随着生物科技的飞速发展,人们对于生物命名实体识别的研究也在不断扩 展和深入,主要体现在: ( 1 ) 对临床术语【2 8 】、药物名称【2 9 1 、化学名词【3 0 】等新语义类型命名实体的识别; ( 2 ) 在新语种上的尝试。例如,g u 等【3 1 】对1 0 6 篇生物医学中文文献的摘要( 共 4 8 1 句,4 0 0 旬用于训练,8 1 句用于测试) 进行了标注,并提出了用c r y 模型来识别生 物医学中文文献中命名实体的方法。 1 4 本文研究工作概述 本文主要研究生物医学英文文献中命名实体的识别问题。根据使用语料的不同,本 文研究工作可分为以下两部分: ( 1 ) 基于c r f 的两阶段生物命名实体识别 针对j n l p b a 2 0 0 4 任务,本文提出了一种基于c r y 的两阶段生物命名实体识别方 法。该方法将j - n l p b a 2 0 0 4 任务分两阶段完成,在第一阶段,即识别阶段,使用c r y 模型将文本中所有潜在的生物命名实体全部标记出来,并且不区分类别;在第二阶段, 即分类阶段,使用另一个c r f 模型将第一阶段识别出的命名实体分为五类,即:p r o t e i n 、 d n a 、r n a 、c e l ll i n e 和c e l lt y p e 。为进一步提高系统的识别性能,本文还在第一阶段 后期加入了四个后续处理算法。 ( 2 ) 基于多模型整合的生物命名实体识别 针对b i o c r e a t l v e2g m 任务,本文提出了一种基于多模型整合的生物命名实体识 别方法。该方法的基本思想是:首先利用不同的方法和特征集训练出多个有差别的机器 学习模型,然后采用模型整合算法将它们的识别结果综合到一起。 1 5 本文框架结构 本文内容安排如下: 第1 章绪论 介绍了生物命名实体识别的研究背景与意义、相关国际评测会议以及国内外研究现 状,同时对本文的主要研究工作及组织结构进行了说明。 生物医学文献中命名实体的识别 第2 章相关模型介绍 对h m m 、m e 、m e m m 、s v m 和c r f 等常用的机器学习模型进行了介绍。 第3 章基于c r f 的两阶段生物命名实体识别方法 对基于c r f 的两阶段生物命名实体识别方法进行了详细地阐述。主要内容包括: 识别阶段特征选取、后续处理算法以及分类阶段特征选取等。 第4 章基于多模型整合的生物命名实体识别方法 对基于多模型整合的生物命名实体识别方法进行了详细地阐述。主要内容包括:语 料预处理、特征选取、后续处理算法以及模型整合算法等。 第5 章实验结果与分析 给出了本文相关实验的实验结果与结果分析。 一8 一 大连理工大学硕士学位论文 2 相关模型介绍 机器学习算法可分为监督学习( s u p e r v i s e dl e a r n i n g ) 、无监督学习( u n s u p e r v i s e d l e a r n i n g ) 、半监督学习( s e m i s u p e r v i s e dl e a r n i n g ) 和强化学习( r e i n f o r c e m e n tl e a r n i n g ) 等多种类型。对于众多机器学习算法,本文不做一一介绍,只对h m m 、m e 、m e m m 等常用的模型进行了描述。 2 1 隐马尔可夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 是一种很重要的统计模型,最初是 由l e o n a r de b a u m 和其它一些作者于2 0 世纪6 0 年代后半期在一系列的统计学论文中 提出的,目前己被广泛应用于语音识别、词性标注、中文分词等多种序列标注任务。 h m m 是一个双重随机过程,包括马尔可夫链和一般随机过程两个部分。其中,马 尔可夫链用来描述状态的转移,一般随机过程用来描述每个状态与观察值之间的统计对 应关系。 h m m 可以用一个五元组净( n ,m ,7 c ,a ,b ) 来表示。其中, n 表示模型的状态数。所有的状态记为s = s l ,s 2 ,s n ; m 表示观察值的数目。所有不同的观察值记为v = v l ,v 2 ,v m ; :t 一 t r i 表示初始状态概率矩阵,其中,r q = p ( q l = s i ) ,1 i 剑;q l 表示t = l 时刻的状态; a = a u ) 表示状态转移概率矩阵,其中,a o = p ( q t + l = s j l q t = s o ,l i ,j n ,q t 表示t 时刻 的状态: b = b j ( k ) ) 表示观察概率矩阵,其中,b j ( k ) = p ( y t = v k q t - s j ) ,1 匀 n ,1 垒 m ,q t 表示t 时刻的状态,y t 表示t 时刻的观测值。 h m m 作了三个重要的假设: 马尔可夫假设,对一阶h m m 来说,就是系统在时间t 的状态只与其在时间t 1 的状态相关; 不动性假设,即系统从时间t 到时间t + l 的状态转移与t 的值无关; 输出独立性假设,即系统在时间t 输出的观测值只与其在时间t 的状态相关。 这些假设导致h m m 不能考虑上下文信息,限制了其特征的选择。 2 2 最大熵模型 最大熵原理( m a x i m u me n t r o p y ,m e ) 是著名数学家和物理学家e t j a y n e s 在1 9 5 7 年提出的,其主要思想是,在只掌握某一概率分布的部分知识时,应将己知事实作为制 约条件,求得可使信息熵最大化的概率分布作为其概率分布。信息熵的概念是香农 生物医学文献中命名实体的识别 ( s h a n n o n ) 在1 9 4 8 年提出的,他认为信息是人们对事物了解的不确定性的消除或减少, 并把不确定的程度称为信息熵。显然,概率分布信息熵最大时,随机变量是最不确定或 最随机的。因此,最大熵原理的实质就是,在己知部分知识的前提下,对未知概率分布 最合理的推断就是符合这些知识的最不确定或最随机的推断。 使用最大熵方法建模的主要优点是可以将各种不同的特征聚集到同一个框架下,不 需要额外的独立假定或内在约束,缺点是时空开销大,并且数据稀疏问题比较严重。 自1 9 9 2 年d e l l ap i e t r a 等首次将最大熵原理应用于自然语言的模型建立以来,最大 熵己被广泛应用于机器翻译、词性标注、词法分析、命名实体识别等多项自然语言处理 任务当中,并且取得了令人满意的结果。用最大熵方法求解自然语言处理问题的一般途 径是,首先把任务转化成分类模型( 断句等简单分类问题) 或分类模型的乘积( 词性标 注、短语识别、句法分析等序列标注问题) ,然后使用最大熵方法来估计模型的条件概 率,最后根据条件概率来确定其类别或最佳标注序列。 2 3 最大熵马尔可夫模型 最大熵马尔可夫模型( m a x i m u me n t r o p ym a r k o vm o d e l ,m e m m ) 是一种条件概率 模型。该模型允许状态转移概率依赖于序列中彼此之间非独立的特征,从而将上下文信 息引入到模型的学习和识别过程中,提高了识别的精确率和召回率。 m e m m 采用条件概率p ( s j l s i ,v k ) 代替h m m 的转移概率p ( s j i s i ) * i 观察概率p ( v k l s j ) , 该条件概率表示在当前状态为s i 和下一时刻观察值为v k 的条件下,下一时刻状态为s j 的概率。m e m m 从训练样本中学习p ( s j l s i ,v k ) ,其公式定义如下: 1 一 p ( s 脚v k ) _ p ( s j | s i ) 病e x p ;2 0 f o ( v k ,s j ” ( 2 1 ) 其中,z ( v k ,s i ) 是归一化常量,儿是特征函数乒的权重,可使用g i s 3 2 1 、i i s 【3 3 】 等算法求出。特征函数压通常采用布尔函数形式,如公式( 2 2 ) 所示。 a ( v k ,s j ) s : 1 vk,sj0憨件 ( 2 2 ) ,j ) 。i 苴伽 ( 2 2 ) 与h m m 不同,m e m m 不需要列出所有可能的观察序列,而是在给定观察序列的 情况下,采用条件概率来预测标记序列,因此,m e m m 可以使用观察序列的任意特征, 包括全局特征、滑动窗口等。h m m 与m e m m 的区别如图2 1 所示。 大连理工大学硕士学位论文 hmm,memm 图2 。1 删和m e 删的不同 f i g 2 1 t h ed i f f e r e n c eb e t w e e nh m ma n dm e m m 2 4 支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论