




已阅读5页,还剩54页未读, 继续免费阅读
(计算机应用技术专业论文)基于生物医学文献的蛋白质关系发现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西南科技大学硕士研究生学位论文第1 页 摘要 近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的 开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量 迅速地增长,没有人能够阅读完如此众多的文献资料。因此,人们迫切需要 从海量的生物医学文献中发现知识以指引生物学研究方向。以生物医学文献 数据为分析对象,通过文献挖掘技术,可以提取和整合散布于文本数据中的 知识,从而发现文献中隐含的新知识,为生物医学提供预测和指导作用。本 文以m e d l i n e 数据库中生物医学文本摘要为研究对象,开发并整合多种文献 挖掘方法,试图发现蛋白质之间的潜在联系。 要从生物医学文献中发现隐藏的知识,首先要做的就是正确识别文献中 出现的大量的生物术语,即“生物命名实体识别”。针对生物命名实体的特 点,本文提出了一种基于条件随机域的生物命名实体识别方法。该方法首先 采用了常规的生物命名实体识别技术,加入单词的构词特性,如数字、字母、 前后缀等。然后针对相同的实体在文本中可能不止出现一次,每一次出现在 不同位置的同一个实体包含了更多的上下文信息,相邻的单词之间存在依赖 关系,以及当前词可能与距离较远的词之间存在依赖关系的问题,加入了单 词的距离依赖特性,这大大提高了生物命名实体识别的性能。在j n l p b a 测 试集上进行了开放测试,识别结果的f 值达到7 l 以上。 在进行生物命名实体识别以后,本文采用了两种方法对其中蛋白质的关 系进行挖掘。通过共出现频率的统计方法,发现两个蛋白质实体对存在的潜 在联系;通过关联规则方法,进行关联分析,发现两个或两个以上蛋白质实 体之间可能存在的潜在联系。此外,还讨论了蛋白质关联实体可能表示的生 物学意义。 构建了一个基于生物医学文献挖掘的蛋白质关系发现平台的原型系统。 平台整合了文献挖掘中所需的第三方工具以及自行开发的工具,提供统一的 访问接口和数据格式。该平台能够完成生物命名实体识别和蛋白质实体关联 挖掘的知识发现任务,并且提供挖掘结果的可视化。 关键字:文献挖掘知识发现生物命名实体识别实体关联 西南科技大学硕士研究生学位论文第1 i 页 a b s t r a c t i nr e c e n ty e a r s ,w i t ht h ed e v e l o p m e n to f t h eh u m a ng e n o m ep r o j e c t ,a sw e l l a sf u n c t i o n a lg e n o m i c sa n dp r o t e o m i c ss t u d i e s ,b i o i n f o r m a t i e sh a sb e c o m ea r e s e a r c hf o c u sa m o n gb i o l o g ya n di n f o r m a t i o ns c i e n c e t h eb i o m e d i c i n e l i t e r a t u r eh a sb e e ni n c r e a s i n gr a p i d l ys ot h a tn o b o d yc a ng ot h r o u g ha l lo ft h e m t h u s ,p e o p l ea r ee a g e rt of i g u r eo u tt h ei n f o r m a t i o n t oi n d i c a t et h er e s e a r c h d i r e c t i o no fb i o l o g yb a s e do nt h en u m b e ro fb i o m e d i c i n el i t e r a t u r e o nt h eb a s e o ft h ed a t ao fb i o m e d i c i n el i t e r a t u r e ,t h o u g hl i t e r a t u r em i n i n gt e c h n o l o g y ,t h e k n o w l e d g ei nt h et e x td a t ac o u l db ee x t r a c t e da n di n t e g r a t e d ,f u r t h e r m o r e ,t h e n e w k n o w l e d g ew o u l db ef o u n dd i s s e m i n a t e di nt h el i t e r a t u r e ,w h i c hw i l lp r e d i c t a n dg u i d et h ed e v e l o p m e n to ft h eb i o m e d i c i n e t a k i n gt h eb i o m e d i c i n ea b s t r a c t s i nm e d l i n ed a t a b a s ea st h es o u r c eo fr e s e a r c h ,d e v e l o p i n ga n di n t e g r a t i n gs e v e r a l m i n i n gm e t h o d s ,t h ep o t e n t i a lr e l a t i o nt op r o t e i ni st r i e dt of i n di nt h i sa r t i c l e t oe x t r a c tt h eh i d d e ni n f o r m a t i o ni nb i o m e d i c i n el i t e r a t u r e ,w h a ts h o u l d b e d o n ef i r s t l yi st oc o r r e c t l yi d e n t i f yt h eb i o l o g i c a lt e r m sa p p e a r e di nt h el i t e r a t u r e , t h a ti sb i o l o g i c a ln a m e de n t i t yr e c o g n i t i o n a c c o r d i n gt ot h eb i o l o g i c a ln a m e d e n t i t y ,t h em e t h o df o rb i o l o g i c a ln a m e de n t i t yr e c o g n i t i o nb a s e do nc o n d i t i o n a l r a n d o mf i e l d sm o d e li sp r o p o s e di n t h i s p a p e r a tf i r s t ,a d o p tt h ec o m m o n m e t h o df o rb i o l o g i c a ln a m e de n t i t yr e c o g n i t i o na n di n v o l v et h ef o r m a t i o no f w o r d s ,s u c ha sd i g i t ,a l p h a b e t ,p r e f i x ,s u f f i xe t c t h e n ,i n v o l v et h ed i s t a n c e d e p e n d e n c yf e a t u r eo fw o r d sf o rt h a ti ft h es a m ee n t i t yi sm e n t i o n e dm o r et h a n o n c ei nad o c u m e n t ,e a c hm e n t i o nm i g h tc o n t a i nd i f f e r e n tu s e f u li n f o r m a t i o n , w o r d sc l o s et oe a c ho t h e rh a v ed e p e n d e n c y ,a n dt h a tt h ec u r r e n tw o r dp r o b a b l y h a sd e p e n d e n c yw i t ht h ew o r df a r a w a y a m o n gt h e s ef e a t u r e s ,d i s t a n c e d e p e n d e n c yf e a t u r e se f f e c t i v e l yi m p r o v et h em o d e l sp e r f o r m a n c e e x p e r i m e n t s s h o wt h a to u rm e t h o dc a nu pt oa nf - m e a s u r eo f71 i nt h ej n l p b aw h i c hi sa n o p e ne v a l u a t i o n a f t e rt h ep r o c e s so fb i o l o g i c a ln a m e de n t i t yr e c o g n i t i o n ,w ec a nb em i n i n g t h er e l a t i o nt op r o t e i n su s i n gt w ow a y s t h o u g hc o o c c u r r e n c ef r e q u e n c ym e t h o d , t h ep o t e n t i a lr e l a t i o nt ot w op r o t e i ni sf o u n d ;a n da l s o ,t h o u g ha s s o c i a t i o nr u l e a l g o r i t h m ,t h ep r o b a b l er e l a t i o nt ot w oo rm o r e t h a nt w op r o t e i ne n t i t i e si sf o u n d i na d d i t i o n ,w ed i s c u s st h em e a n i n go ft h ep r o t e i n e n t i t yr e l a t i o ni nt h eb i o l o g y f i n a l l y ,t h ep r o t o t y p es y s t e mo fp r o t e i nr e l a t i o nd i s c o v e r yi se s t a b l i s h e d b a s e d0 nt h eb i o m e d i c a ll i t e r a t u r em i n i n gp l a t f o r m ,w h i c hi n t e g r a t e st h et h i r d p a r t yt o o l sn e e d e di nl i t e r a t u r em i n i n ga sw e l la st h et o o l sd e v e l o p e db ya u t h o r , o f f e r st h eu n i f i e di n t e r f a c ea n dd a t af o r m a t ,a c c o m p l i s h e st h et a s ko fk n o w l e d g e d i s c o v e r yo fb i o l o g i c a ln a m ee n t i t yr e c o g n i t i o na n dt h er e l a t i o nt op r o t e i n e n t i t i e s ,a n dp r o v i d ev i s u a l i z a t i o no fm i n i n gr e s u l t s k e y w o r d s :l i t e r a t u r em i n i n g ;k n o w l e d g ed i s c o v e r y ;b i o n e r ; e n t i t yr e l a t i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得西南科技大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:多寿艳日期:妙i 尹 关于论文使用和授权的说明 本人完全了解西南科技大学有关保留、使用学位论文的规定,即:学校有权 保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:彭者辑导师签名:飞卿日期:辨 西南科技大学硕士研究生学位论文第1 页 1 绪论 1 1本文的研究背景 随着生物学和医学的迅速发展,特别是人类基因组计划的顺利进行,产 生了海量的生物学数据。这些数据具有丰富的内涵,其中隐藏着丰富的生物 学知识。充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵, 得到对人类有用的信息,是生物学家和数学家所面临的一个严峻的挑战。因 此,为迎接这种挑战发展起来了一个新的学科一一生物信息学【】。 生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成 的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、分类、检 索与分析,以达到揭示数据所蕴含的生物学意义的目的,并服务于人类健康 事业,如:药物设计【2 】、基因诊断【s 】、治疗等。 生物信息学作为一门新的学科领域,它是把基因组d n a 序列信息分析 作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测, 然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空 间结构模拟以及药物设计构成了生物信息学的三个重要组成部分。 大量的生物学数据以结构化的形式储存于数据库中,例如基因序列、基 因微阵列实验数据和分子三维结构数据等,但也有很大一部分的生物学知识 以非结构化的形式被记载在各种文本中。以文本形式保存的知识对分析海量 的生物学数据是非常重要的。但是传统的印刷版本的生物学文献,难以被计 算机自动处理分析。近年来随着计算机网络技术的发展,在互联网中也出现 了医学文献的数据库。比如,m e d l i n e i 一】数据库收集了大量的生物医学文献摘 要。 m e d l i n e ,是美国国立医学图书馆建立的医学文献分析系统,它收录了 1 9 6 6 年以来世界上7 0 多个国家和地区用4 0 多种语言出版的4 8 0 0 多种生物 医学期刊上的文献。针对m e d l i n e 数据库的研究早在1 9 8 6 年就有成功的尝试。 生物信息学的一个分支即是利用相关技术挖掘大量的生物医学文献集 合,以发现文本中所蕴含的生物学意义。通过对生物医学文献进行分析,科 学家能从中发现疾病和基因的联系,基因和特殊生物活性功能的关系,以及 不同蛋白质的相互作用。 西南科技大学硕士研究生学位论文第2 页 1 1 1文本挖掘与自然语言处理 生物医学文献中包含了许多生物医学信息。要发现蕴涵在这些文献中的 有用的、潜在的知识,就需要利用文本挖掘【5 】和自然语言处理技术。 文本挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。它的主要用途是从文本中提取出未知的知识。文本挖掘包括文本信 息抽取、文本分类、文本聚类、文本自动摘要生成、文本数据压缩、文本数 据处理等方面。文本挖掘是一个交叉的研究领域,它涉及了数据挖掘、统计 学、机器学习【6 】等多个研究领域的内容。 自然语言处理,即采用各种技术自动化理解和解释文本信息。自然语言 处理的应用非常广泛,譬如:机器翻译、自然语言理解、语音自动识别与合 成、文字自动识别、信息检索、文本自动分类,还有文本中的信息提取、互 联网上的智能搜索,以及各种电子词典和术语数据库。自然语言处理技术包 括命名实体识别f 7 】、词性标注【8 1 【,】、名词短语识别、句子边界识别、概念抽取、 指代消解【,o 】、句法分析、浅层分析、词义消歧 i h 和文本自动摘要生成等。 近年来许多研究人员利用计算机技术对生物医学文献全文或摘要进行了 分析。文本挖掘和自然语言处理的任务包括在大量文本中进行信息抽取、词 语识别、发现知识间的关联等。 生物医学文献中的知识是以自然语言的形式存在的。自然语言具有这样 的特征:字母构成单词,单词构成短语,短语构成句子,句子构成篇章。句 子是多数自然语言处理的基本对象,如语法分析,词性标注等,都需要把输 入文本分割成句子序列后,以其中每个句子为处理单元进行。已经提出的生 物医学文献信息抽取方法,也大多以句子为处理单位。因此,自然语言处理 最基本的步骤包括抽词、过滤停用词、确定句子和段落的边界,最后,将文 本转换成可以进行分析的向量。 近年来文本挖掘技术在生物学领域中的应用大多是通过挖掘文本发现生 物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自 动注释。例如,对蛋白质数据库加注功能关键词,并利用这项功能发现大分 子间的相互作用关系。 1 1 2 文本挖掘研究内容 对生物医学文献的知识发现包含许多方面,下面主要介绍医学文献挖掘 的主要内容。 西南科技大学硕士研究生学位论文第3 页 ( 1 ) 从文献中发现隐藏联系的研究 从文献中可以发现或者挖掘到以前未知的知识。s w a n s o n 教授d 2 1 于1 9 8 6 年首次在医学文献研究中发现了这种潜在知识。雷诺氏病是一种治疗方法和 病因都未知的血液循环紊乱,有文献中记载了部分雷诺氏病患者血液中有某 种异常。同时,又在其他文献中发现食用鱼油能纠正这种异常。因此,s w a n s o n 把这两种知识联系起来得出食用鱼油应该对雷诺氏病患者有帮助的假设。 1 9 8 8 年,s w a n s o n 又提出了周期性偏头痛与镁缺乏之间的联系。后来他的发 现都被临床证实 1 3 1 1 1 4 1 。此后,他又发现了很多具有隐藏联系的例子。 ( 2 ) 通过主题词和副主题词进行的式样配对规则的研究 在医药数据库中存储的每一条记录都被标引了几个主题词和相应的副主 题词,通过分析这些主题词出现的具体情形可以推理出这些主题词之间的关 系。例如,如果m e d l i n e 数据库的一篇文献记录中有x 疾病的病因和y 药的 副作用这两个主题词,人们自然会想到“y 药引起了x 病”。通过查看原文 就可以验证疾病和药物之间这种关系的有效性。哥伦比亚大学医学信息学系 的c i m i n o 等d s b 6 1 通过使用简单的模式匹配规则来自动生成医学概念之间的 语义关系,以应用于建立医学知识库。 通过对医药数据库中文献纪录的主题词和副主题词进行调查分析,可以 获得以医学概念间语义联系的形式表达出来的知识。p o w s n e r t , 7 1 等人研究了医 学文献中的语义关系,他检查了m e d l i n e 文献纪录中可以用于提高文献检索 效率的主题词和副主题词中的模式,发现采用c i m i n o 的方法可以产生用于 形成检索策略的模式,以提高检索效率。 ( 3 ) 寻求文献间联系 1 9 9 4 年,我国学者罗式胜首先指出,两篇或多篇科学文献有一个或多个 相同的关键词,则这两篇或多篇文献或其相应著者间则必然存在一种潜在的 联系。以词或词组组成的主题词,它不但可以反映文献的研究内容,而且可 以反映出研究各部分内容的内在联系。 1 9 9 5 年,崔雷对某一学科主题的当年高被引论文进行了聚类分析。该试 验首先利用科学引文索引获得丙型肝炎相关文献中在发表当年就被其他 文献引用的高被引论文,而后进入m e d l i n e 数据库查询这些论文中主题词、 文献号、作者名和标题等项目,统计每对论文之间共有的主题词数目,形成 相关矩阵,再将其转化为相似矩阵,最后对这些高频被引论文进行聚类分析。 结果发现丙型肝炎的研究主要有三方面:丙肝病毒结构的研究,丙肝病毒感 染诊断方法的研究和丙肝时伴有冷沉蛋白血症的研究。 西南科技大学硕士研究生学位论文第4 页 1 1 3文本挖掘研究的应用 ( 1 ) 文本挖掘在主动信息服务中的应用 当某一领域中有新理论、新技术、新产品、新发展方向出现时,利用文 本挖掘技术能根据用户的需求和用户所关心的领域,及时向用户提供相应的 信息,从而可以实现一种个性化的主动服务模式。 可使用文本挖掘技术围绕课题检索的要求,分析文本数据( 如新闻文章、 研究论文、电子邮件等) 的特征,从而实现在文本数据库中有目的地信息搜 索和信息获取。并以直观的方式将信息模式、数据的关联趋势主动提供给用 户,用户可以在此基础上进行数据分析。 ( 2 ) 文本挖掘在信息检索系统中的应用 文本挖掘在信息检索系统中的应用主要包括基于内容的信息检索、智能 信息代理、信息表现等。 传统的信息检索通常仅用几个关键词,难以充分描述信息的内容,而且 关键词的选取也有很大的主观性,因此,检索结果往往不太理想。文本挖掘 技术采用基于内容的信息检索策略,它可以从文本信息中抽取一些更为详细 的特征信息,从而大大提高检索的全面性和准确性。 信息智能代理主要为在分布式信息网络环境下的信息的查询服务,信息 智能代理使用户可以不知道所要检索信息的具体形式,以及存储于何处、何 种介质中,只需要用户提出查找条件即可。文本挖掘技术会自动把各种信息 源中各种形式的相关信息检索出来,供用户使用,使用户可以立即获得较为 满意的检索结果。 信息表现多角度了解信息的本质和特征。文本挖掘技术能动态地、实时 在线地表现信息的相关属性,使用户及时发现信息,及时更新信息和及时地 发现信息的演变方向。 ( 3 ) 文本挖掘在专利信息分析中的应用 利用文本挖掘技术进行专利分析,通过文本挖掘中的特征信息提取,可 以将不同专利数据库中的信息内容,按照使用者的兴趣分类储存在数据库中。 通过对这些特征信息进行聚类分析,确定特定技术的核心技术,以及特定技 术部门的共同开发倾向,或特定技术领域共同的开发动向,发现最新研究热 点等。通过关联分析还可以确定专利的相关技术要素,掌握专利产品以及替 代品情况,发现新的技术合作机会,为组织确立和实施科技战略提供充分的 信息支持等。 西南科技大学硕士研究生学位论文第5 页 1 1 4本文目的及意义 目前,对生物医学文献的挖掘已经成为一个研究热点,从生物医学文献 中可以发现或者挖掘到以前未知的,而且是对生物医学的研究很有帮助的知 识。 本文针对m e d l i n e 数据库中的生物文本,主要研究生物命名实体识别和 蛋白质关系发现方法。本文通过对生物文本中生物命名实体识别方法、蛋白 质实体相互作用关系进行探讨,设计并实现了可以识别生物命名实体,以及 蛋白质关系发现的原型系统,旨在通过对文本挖掘出的蛋白质出现模式进行 分析,发现蛋白质之间潜在的联系。这些蛋白质之间潜在的联系,对生物学 家分析蛋白质功能等具有非常重要的意义。另外,从生物医学文献中抽取蛋 白质相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药 的研制等都具有重要意义。 1 2国内外研究现状及意义 国内外多个研究机构开发了各种大大小小应用方向不同、类型不同的基 于m e d l i n e 的医学数据挖掘项目。有些项目应用在医学缩略语和术语的抽取, 如a c r o m e d ;有些项目应用在疾病分析预测,如b i o o r a c l e ;有些项目应用在 基因之间的关联,如p u b g e n e 和m e d m i n e r ;有些项目应用在细胞信号通道 抽取,如n c i b i 的信号通道抽取项目。 p u b g e n e 的基因关联网络系统,通过从m e d l i n e 文摘中自动抽取出基因 之间的关系网络,结合g e n e 本体中对单个基因表达的注释,揭示出基因与 蛋白质、疾病、细胞过程、功能、突变、细胞成分以及药物之间的关系; m e d s t r a c t 项目主要利用自然语言处理技术对m e d l i n e 文献中的术语进行词 性、语义类型、语句等分析和表达实体关系的术语识别,实现命名实体的识 别与实体之间关系的抽取,分析后的数据以w e b 应用的方式提供生物医学 “缩略语全称对照查询与生物命名实体关系的查询服务;r l i m s p 是基 于规则的抽取蛋白质磷酸化信息的系统,该项目的主要目标是从m e d l i n e 文 献中抽取与蛋白质磷酸化相关的信息。 对于医学文献的挖掘,根据挖掘内容的不同,所采用的方法也各不相同。 s w a n s o n 教授提出“基于非相关文献发现”的方法,从m e d l i n e 数据库 中成功地“挖掘”出两个“隐藏知识: “食用鱼油对雷诺病患者有益, “周期性偏头痛与镁缺乏之间存在联系 ,“某些病毒可以成为潜在的生化 西南科技大学硕士研究生学位论文第6 页 武器 等等。 c i m i n o 通过对m e d l i n e 文献纪录的主题词和副主题词进行调查分析,获 得了以医学概念间语义联系的形式表达出来的知识。 h r i s t o v s k i t t s l 将关联规则挖掘引入了基于文献的知识发现。他将生物文献 看作数据库中的事务,而用来代表文献内容的词则看作是规则中的项,通过 设置支持度阈值和置信度阈值来发现关联的词汇。 w r e n t - 9 1 认为词汇间具有信息的关联。他使用互信息方法来计算词的关联 度,通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性, 可以用来推广到很多的研究领域。 w e e b e r _ 【2 0 】等人设计了一个文本挖掘工具d a d 系统。它利用自然语言处 理系统m e t a m a p 将文献中的语句映射为u m l s 本体中的生物概念,用概念 来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他 们利用d a d 系统找出了生姜潜在的医疗作用。 对医学文献进行研究,可以发现许多有用的信息。如:鱼肝油可治疗雷 诺式症、蛋白质之间的相互作用等。另外,这些从文本数据库中挖掘出来的 知识和规则可以直接应用于建立知识库,应用于医院信息系统的决策支持系 统,为医生的临床实践提供警示和决策参考。 i 3本文的主要工作 对生物医学文献m e d l i n e 的挖掘大都集中在运用文本挖掘和自然语言处 理技术从医学文献中自动抽取信息。进行数据挖掘的目的是希望得到隐藏在 事物之间的联系,要想找到事物之间的联系,就必须首先确定这些事物到底 是哪些事物。就蛋白质关系挖掘来说,其主要目的是揭示蛋白质之间潜在的 联系。要想得到蛋白质实体之间的联系,就必须首先能够在文献中识别出基 因、蛋白质等生物实体,即“生物命名实体识别 。本文主要研究蛋白质之 间的相互关系,在进行生物命名实体识别后,再抽取出蛋白质实体,然后进 行蛋白质实体的关系发现。 本文主要包含如下内容: ( 1 ) 生物命名实体识别 本文针对m e d l i n e 数据库中的生物文本,利用基于统计的方法进行生物 命名实体的识别。首先使用改进的基于条件随机域的算法对j n l p b a 中标注 好的训练集进行学习,建立条件随机域模型。在模型的训练中,首先采用了 西南科技大学硕士研究生学位论文第7 页 常规的生物命名实体识别方法,加入单词的构词特性,比如数字、字母、大 小写等。针对相同的实体在文本中可能不止出现一次,每一次出现在不同位 置的同一个实体包含了更多的上下文信息,相邻的单词之间存在依赖关系, 以及当前词可能与距离较远的词之间存在依赖关系的问题,加入了单词的距 离依赖特性。然后利用建立的模型在测试集上进行生物命名实体,即蛋白质 名、基因名等的识别和标识。最后利用识别结果和测试集的标准答案进行比 较,并评价。与其他系统比较,改进的条件随机域算法能有效地提高识别的 准确率和召回率。 ( 2 ) 知识发现 这里的知识发现是指蛋白质实体的关系发现。蛋白质关系发现首先需要 抽取出文本中的蛋白质实体。因此,首先针对进行知识发现的文本集进行句 子边界识别和标识,以便以句子为单位进行处理;然后利用前面的生物命名 实体识别阶段建立的条件随机域模型,进行生物命名实体的识别;最后,在 生物命名实体识别的基础上,抽取出蛋白质实体,进行蛋白质实体的关系发 现。 对于蛋白质实体的关系发现,本文采用了两种方法。一种是利用共出现 频率的统计方法,发现两个蛋白质实体对可能存在的潜在联系;另一种是使 用关联规则算法,进行关联分析,发现两个或两个以上蛋白质实体之间可能 存在的潜在联系。 ( 3 ) 挖掘结果的可视化。 采用j a v a 编程语言开发了一个面向对象的基于生物医学文献的蛋白质关 系发现系统。该系统集成了自然语言处理、生物命名实体识别和知识发现三 个阶段的功能,并对知识发现结果进行可视化实现,给用户一个良好的图形 化用户界面,使挖掘结果简单易懂。该系统将为研究人员在蛋白质预测方面 提供一定的决策支持。 1 4 本文的组织结构 本文主要工作是完成生物命名实体识别和蛋白质关系发现研究。围绕这 些工作,本文组织如下: 第一章:介绍了文献挖掘的研究背景、相关概念、研究内容和生物医学 文献挖掘的研究现状及意义,最后概述了本论文的主要工作和组织结构。 第二章:介绍了基于文献挖掘的生物命名实体识别。首先介绍了生物命 西南科技大学硕士研究生学位论文第8 页 名实体识别的相关概念,包括生物命名实体识别任务和生物命名实体识别方 法;然后介绍了生物命名实体识别所涉及到的语言模型一一条件随机域模型, 以及相关算法( 前向后向算法和v i t e r b i 算法) 在本文研究课题中的应用;最 后介绍了生物命名实体识别过程,以及识别结果分析。 第三章:首先对实体关联性分析进行概述,然后针对蛋白质实体,分别 介绍了基于共出现频率和基于关联规则的实体关联分析的相关概念、算法和 过程。 第四章:原型系统的设计与实现。介绍了本文设计的原型系统的开发环 境、系统架构与功能;然后介绍了系统实现全过程。 第五章:结论与展望。总结了本文的研究成果和创新点,并对今后要做 的工作和可以再进行深入研究的方向进行了展望。 西南科技大学硕士研究生学位论文第9 页 2 基于文献挖掘的生物命名实体的识别 常见的文献挖掘方法大多以文本摘要为基本的分析对象,以句子为基本 的分析单元。由于句子由各种单词组成,句子的意思通过短语表达出来,句 子中的短语由一个或多个连续的单词构成,因而文献挖掘必不可少的一步就 是从句子中识别出感兴趣的短语。一般来说,生物医学文献中最有价值的短 语是各种描述生物医学领域的专业术语,例如基因、蛋白质和细胞系等生物 名称,以及疾病等描述生物医学对象的专业名词。在文献挖掘中,这类描述 领域对象的专业术语称为实体( e n t i t y ) 。而描述生物医学领域的专业术语叫做 生物命名实体,相应的,从生物医学文献中识别生物医学专业术语的过程称 为生物命名实体识别。 因此,要从生物医学文献中抽取知识,首先要做的就是正确识别文献中 出现的大量的生物命名实体。生物命名实体识别准确率的高低直接影响着文 献挖掘系统的整个结果。生物命名实体识别在生物医学文献的挖掘中是最关 键的一步。 2 1 生物命名实体识别概述 命名实体识别( n e r ,n a m e de n t i t yr e c o g n i t i o n ) 技术在知识发现方面的应 用变得尤为重要,成为人们获得信息的关键一步,因此也成为自然语言处理 ( n l p ,n a t u r a ll a n g u a g ep r o c e s s i n g ) 研究的一个主要方向。 命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲, 命名实体是指现实世界中的具体的或抽象的实体,如人名、组织名、公司名、 地名等。广义地讲,命名实体还可以包含时间、数量表达式等。在具体应用 中,还可能需要把住址、电话号码、会议名称等作为命名实体。命名实体识 别就是要判断一个字符串是否代表一个命名实体,并确定它的类别,即发现 命名实体和标注命名实体。 2 1 1 生物命名实体识别任务 在生物信息学领域,由于生物命名实体规则的不统一,不同的实体( 比 如:蛋白质,基因) 可能有相同的术语,相同的实体也可能有不同的术语。 因此,要获取这些有用信息,至关重要的一步就是抽取出生物命名实体。 生物命名实体识别的目的是在分子生物学及医学领域对专业词汇加以确 西南科技大学硕士研究生学位论文第1 0 页 认和分类。在这里就是指识别文本集中的蛋白质、基因、核糖核酸、脱氧核 糖核酸、细胞等实体的过程 2 1 1 。 由于生物命名实体命名方法的不统一,生物命名实体识别技术具有很大 的挑战性,主要体现在如下几点: ( 1 ) 新术语不断出现,并且目前并不存在一个完整的包含各种类型的生 物命名实体的词典,所以简单的文本匹配算法已经失去了作用。 ( 2 ) 生物命名实体中有大量的大写字母、数字和非字母字符。 ( 3 ) 描述性的命名习惯,这种现象增加了识别生物命名实体左边界的困 难。 ( 4 ) 很多生物命名实体是多个单词组成的短语。 ( 5 ) 有些生物命名实体由特殊符号组成。这些特殊符号包括“ ,“( 和“) ”等。 ( 6 ) 相同的词或者短语可以表示不同类别的生物命名实体,要依据上下 文才能推断出来。 ( 7 ) 同一个生物命名实体可能有多种拼写形式。很多的生物命名实体由 作者发明,并没有经过统一标准化,所以导致表示相同意义的生物命名实体 存在多种拼写形式。 ( 8 ) 大量的生物命名实体采用缩写形式。 ( 9 ) 嵌套形式,即一个生物命名实体包含在另一个生物命名实体中。 ( 1 0 ) 数量巨大,不能枚举,难以全部收录在词典中。 正因为生物命名实体命名规则的不统一,生物命名实体可能由一个或多 个单词组成,因此,生物命名实体识别不但要识别出文本中的命名实体边界, 还要确定命名实体的语义类别,即输入句子,分析每个单词,首先判断其是 否是实体中的一部分,再进行分类,判断属于哪类实体。 生物命名实体识别可以看作是顺序标记问题。就是对每一句话中的每个 单词以b c 、i c 、o 的形式赋予一个标记。它不仅表示了生物命名实体的类 别,还暗示了该单词处于该实体的位置。在这里,c 表示类别;b 和i 表示 标签的位置,b 表示实体的开始,i 表示实体的内部单词;o 表示该单词不属 于一个实体。图2 1 就是一个生物命名实体识别的例子。 本文主要识别出五类实体,它们分别为蛋白质、基因、核糖核酸、脱氧 核糖核酸、细胞。采用b i o 标记方法,总共需要1 1 种标签,详见表2 1 。 西南科技大学硕士研究生学位论文第1 1 页 l i g a n d - d e p e n d e n tr e p r e s s i o no ft h ee r o t h r o i dt r a n s e t i p t i o nf a c t o rg a t a 一1b yt h ee s t r o g e n 1j i ,1 、r 1 r oooo b - p r o t e i ni - p r o t e i ni - p r o t e i n b - p r o e i n o ob - p r o t e i n 图2 - 1生物命名实体识别例 f i g u r e2 1e x a m p i eo fb i 0 i o g i c a in a m e de n t i t yr e c o g n i t i o n 表2 - 1生物命名实体识别标签列表 t a b i e2 1 b i 0 i o g i c a ln a m e de n t i t ie s la b e it a b i e m e a n i n g l a b e l m e a n i n g l a b e l b e g i n n i n go fp r o t e i nb p r o t e i n i n s i d ep r o t e i n i - p r o t e i n b e g i n n i n go fd n a b d n ai n s i d ed n ai - d n a b e g i n n i n go fr n a b - r n ai n s i d er n al r n a b e g i n n i n go fc e l l t y p eb c e l l _ t y p e i n s i d ec e l l _ t y p e i c e l l _ t y p e b e g i n n i n go fc e l l l i n e b - c e l l l i n e i n s i d ec e l l l i n e i - c e l l l i n e o t h e r so 2 1 2 生物命名实体识别方法 在生物医学领域,由于生物命名实体命名的不规则性和不断更新,影响 着识别效果的提高,这就给研究者提出了难题,也因此出现了一些b i o n e r 国际公开竞赛,以促进b i o n e r 技术的发展,如j n l p b a t : ,b i o c r e a t l v e 【z ,1 盘蟹 守o 生物命名实体识别研究至今已有近二十年的发展历史,已经成为自然语 言处理领域的一项重要技术,并取得了很多成果。 在处理生物命名实体识别时一般有三种方法:基于词典的方、法【:q 、基于 规则的方法【2 5 1 、以及基于统计的方法【2 6 】。 ( 1 ) 基于规则的方法 这种方法的第一步要找出各种命名实体的构成规则,然后与单词序列进 行匹配。采取这种方法的系统主要有n t u 系统【2 7 】,f a c i l e 系统1 2 l 】,和o k i 系统【2 9 】等。 西南科技大学硕士研究生学位论文第1 2 页 在生物医学领域,基于规则的生物命名实体识别使用的不仅有各种生物 命名实体的构成规则,还有实体本身和上下文的关系以及用词情况。这些包 括很多的语境相关的推导规则,是由词性序列、内部关键词和前后缀特征词 等共同构成的某个匹配模式。 利用这些规则进行生物命名实体识别的方法是在句子中的每一位置用所 有的规则进行自左到右的扫描,从而找到最长匹配的规则,用这条规则来对 该句子进行归结处理,然后从下一个没有匹配的位置开始实施相同的操作, 以此类推。 随着规则库的不断增加,规则在匹配的过程中可能会出现满足几条规则 的情况,为了解决规则匹配冲突问题,系统一般采用优先级设定的方法,对 规则库中的每条规则都设定优先级别,在匹配时,优先级高的规则先匹配, 优先级低的规则后匹配。若某些输入形式同时符合多条规则,则只匹配优先 级最高的那条规则。 基于规则的方法在命名实体识别研究初期得到了很广泛的应用,也取得 了很大的成就,但是后来发现,对于这类基于规则的方法,主要存在以下缺 点: 构造规则的代价非常昂贵,并且主要依赖于有经验的计算语言学家。 当把此系统移植到不同领域时,这些规则需要大量的修改或重新书写。 语言学家书写规则的经验对系统性能的影响很大。 基于规则的方法需要专家构筑大规模的规则库,这不但需要有专业技能 的专家,也需要付出大量劳动。同时,随着规则库的增加,矛盾和冲突的规 则也随之产生。另外,随着生物学研究的发展,新的生物命名实体不断出现, 这也使基于规则的方法缺乏可移植性。 ( 2 ) 基于词典的方法 对于生物医学文献中的生物命名实体的识别最直接的方法就是词典法, 词典法对生物命名实体识别的一个优点就是它可以提供实体名的信息,通过 相应的匹配算法,扫描待查找的文献,就可以识别出文献中出现的实体名。 因此,通过词典法来识别生物命名实体,词典的质量和匹配算法的好坏直接 影响了识别效果的提高。 由于不同的学者研究的重点不同,比如功能,序列特征,基因名,细胞 位置等等,因此就有了不同的命名,即使有一个统一的名字,在不同的文献 中出现也会有很多不同的形式,比如一个很简单的实体名“i l 6 ,也有很 多种不同的拼写形式,即i l 6 ,i l 6 ,1 1 6 ,i l 6 和i l 6 。如果把所有的形式 西南科技大学硕士研究生学位论文第1 3 页 都包括到词典中就会造成词典容量过大,效率不高。 由于生物命名实体形式的多样性,不可能把所有的形式都包括到词典中, 这会造成词典容量过大,效率不高。另外,由于不断出现新实体,词典也不 可能包含最近出现的所有实体名和所有基因、蛋白质名称的拼写变种。 ( 3 ) 基于统计的方法 为了克服基于规则和基于字典方法的缺点,人们后来使用基于统计的方 法来解决此问题。首先获得已标注语料,然后以此为训练数据,再使用各种 统计的机器学习方法构造性能卓越的分类器。该方法的优点是不需要有专业 技能的专家书写知识库,而且也不需要任何外部词典资源。 由于绝大多数生物命名实体没有统一的命名方法,使得任何依赖于有限 词典和规则的命名实体识别系统都难以获得令人满意的性能。从而基于统计 方法的系统逐渐成为生物命名实体识别的主流。 基于统计的学习方法主要有支持向量机( s v m ) 【,o 】1 3 - 】、隐马尔可夫模型 ( h m m s ) 【3 2 】【3 3 l 【3 4 l 、最大熵马尔可夫模型( m e m m s ) 1 3 s j t 3 6 j 和条件随机域模型 ( c r f s ) 3 7 - 4 0 。 s v m ,即支持向量机模型,是一种很著名的机器学习算法。其主要思想 是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保 证最小的分类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 国资委业务培训大纲
- 五年级品德与社会上册 中华民族大家庭(二)教学设计 首师大版
- 老年精神病的康复护理
- 开火锅店流程图
- 小学英语川教版四年级下册Unit 3 Visiting a zooLesson 1 Where are you going教案
- 交警大队培训课件
- 培训机构设计答辩
- 二手房交易合同精简版样本
- 制作笔筒教学设计 一年级上册科学人教鄂教版
- 个人短期融资合同样本
- 2024-2025北京中考英语真题阅读CD篇
- 眼科护理中的安全与风险管理
- 敏捷项目管理与敏捷方法
- 《社会网络分析法》课件
- 2024城镇燃气用环压式不锈钢管道工程技术规程
- word个人简历空白
- 2024年江苏安东控股集团有限公司招聘笔试参考题库含答案解析
- 防汛防洪装备器材展示与操作演示
- 如何在Python中创建循环结构
- 《养成良好的行为习惯》主题班会课件
- 部编版六年级下册道德与法治全册教案
评论
0/150
提交评论