(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf_第1页
(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf_第2页
(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf_第3页
(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf_第4页
(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(通信与信息系统专业论文)文献计量学和文本挖掘在生命科学中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文献汁量学和文奉挖掘相i 生命科学中的应用中文摘要 文献计量学和文本挖掘在生命科学中的应用 中文摘要 在过去的十几年中,随着生物医学科学技术的飞速发展,生物医学文献也呈“指 数型增长。面对如此大规模快速增长的文献数据,仅靠人工阅读的方式去获取感兴 趣的知识已变得非常困难。如何从海量的文献中整合已有知识、挖掘新知识已成为生 物信息学的重要研究领域。 本文首先对p u b m e d 收录的所有与疾病相关的基础研究文献进行文献计量学分 析,了解国际上各类疾病基础研究的发展状况、研究热点、核心期刊、核心科研机构、 主要研究国家及今后的发展趋势等。对2 l 大类疾病的统计结果表明各大类疾病的基 础研究文献都是从1 9 4 6 年左右开始缓慢上升,2 0 0 0 年后增长速度明显加快;主要研 究国家和核心科研机构多分布在北美洲、欧洲和亚洲;文献的发表量普遍与国家的国 内生产总值相关。 然后,论文整合了一种从海量文献中提取疾病相关基因的方法,将前人已研究过 的基于单体的实验信息整和起来,以更为系统和全面的眼光来看待生物体内在分子水 平上的相互作用及其调控路径对于疾病发生、发展及预后的影响。通过对前列腺癌相 关基因的提取结果进行分析,表明该方法确实可以快速、有效地提取疾病的相关基因。 利用这种方法,本文从海量的生物医学文献中提取二十一大类疾病的相关基因。 最后,本文利用g o o g l em a p sa p i 及p h p + a p a c h e + m y s q l 技术,搭建了疾病基 础研究地理信息系统,将二十一大类疾病的文献计量和文本挖掘的结果整合到该系统 平台中,为生物医学工作者提供疾病基础研究的一些思路和依据。 关键词:文献计量学,文本挖掘,实体识别,实体关系提取,疾病相关基因 作者:杨健健 指导教师:王加俊 a b s t r a c t a p p l i c a t i o n so fb i b l i o m e t r i c sa n d t e x tm i n i n gi nt h el i f es c i e n c e a p p l i c a t i o n so f b i b l i o m e t r i c sa n dt e x tm i n i n g i nt h el i f es c i e n c e a b s t r a c t i nt h el a s td e c a d e ,w i t ht h er a p i dd e v e l o p m e n ti n t h eb i o m e d i c a ls c i e n c ea n d t e c h n o l o g y , t h eb i o m e d i c a ll i t e r a t u r es h o w e da l le x p o n e n t i a lg r o w t h f a c i n gw i t hs u c ha l a r g es c a l ea n df a s t g r o w i n gl i t e r a t u r ed a t a ,i tb e c o m e sv e r yd i f f i c u l tt oa c q u i r ei n t e r e s t i n g k n o w l e d g em a n u a l l y h o wt oi n t e g r a t ee x i s t i n gk n o w l e d g ea n dm i n i n gn e wk n o w l e d g e f r o mt h em a s s i v el i t e r a t u r eh a sb e c o m ea ni m p o r t a n tf i e l do fb i o i n f o r m a t i c s f i r s t l y , b i b l i o m e t r i ca n a l y s i sw a sp e r f o r m e do nt h e d i s e a s e - r e l a t e df u n d a m e n t a l r e s e a r c hl i t e r a t u r e sc o l l e c t e di nt h ep u b m e dt of i n do u tt h er e s e a r c hs t a t u s ,h o ts p o t , c o r e j o u m a l s ,c o r er e s e a r c hi n s t i t u t e s ,c o u n t r i e sw i t hp o w e r f u lr e s e a r c hs t r e n g t ha n dt h ef u t u r e t r e n d t h er e s u l t sf o r21k i n d so fd i s e a s e ss h o w e dt h a tt h en u m b e ro fd i s e a s e r e l a t e d f u n d a m e n t a lr e s e a r c hp a p e r sb e g a nt or i s es l o w l yi n19 4 6o rs o ,a n da f t e r2 0 0 0t h ep a p e r s s h o w e ds i g n i f i c a n t l yf a s t e rg r o w t h ;t h ep o w e r f u lr e s e a r c hc o u n t r i e sa n dc o r ei n s t i t u t i o n s m a i m yw e r el o c a t e di nn o r t ha m e r i c a ,e u r o p e ,a n da s i a ;a n di ng e n e r a l ,t h en u m b e ro f p u b l i c a t i o n sw e r er e l a t e dt ot h eg r o s sd o m e s t i cp r o d u c tp o s i t i v e l y s e c o n d l y , am e t h o dw a sp r o p o s e dt oe x t r a c td i s e a s e r e l a t e dg e n e sf r o mm a s s i v e l i t e r a t u r e s t h i sm e t h o di n t e g r a t e dt h ep r e v i o u se x p e r i m e n t a li n f o r m a t i o nb a s e do ns i n g l e g e n e s ,a n ds t u d i e dt h ei n t e r a c t i o n sa n dp a t h w a y sa tt h em o l e c u l a rl e v e lf o rd i s e a s e d e v e l o p m e n ta n dp r o g n o s i si n am o r es y s t e m a t i ca n dc o m p r e h e n s i v ew a y w i t ho u r p r o p o s e dm e t h o d ,p r o s t a t ec a n c e rr e l a t e dg e n e sw e r ee x t r a c t e da n da n a l y z e df o rt h e v a l i d a t i o no fi t t h er e s u l ts h o w e dt h a td i s e a s e - r e l a t e dg e n e sc o u l db ee x t r a c t e df r o m m a s s i v el i t e r a t u r e sq u i c k l ya n de f f i c i e n t l yw i t ho u rm e t h o d h e n c e ,i tw a se m p l o y e dt o e x t r a c tt h er e l a t e dg e n e sf o rt h ea f o r e m e n t i o n e d21k i n d so fd i s e a s e s f i n a l l y , ad i s e a s ef u n d a m e n t a lr e s e a r c hg e o g r a p h i ci n f o r m a t i o ns y s t e mw a sb u i l tw i t h l i a p p l i c a t i o n so fb i b l i o m e t r i c sa n dt e x tm i n i n gi nt h el if es c i e n c e a b s t r a c t t h eg o o g l em a p sa p i ,p h p , a p a c h e ,a n dm y s q lt e c h n o l o g i e s t h i ss y s t e mi n t e g r a t e dt h e r e s u l t sf r o mt h eb i b l i o m e t r i ca n a l y s i sa n dt e x tm i n i n g ,a n dp r o v i d e ds o m ei d e a so r s u p p o r t e di n f o r m a t i o no fd i s e a s e r e l a t e df u n d a m e n t a lr e s e a r c hf o rb i o m e d i c a lr e s e a r c h e r s k e y w o r d s :b i b l i o m e t r i c s ,t e x tm i n i n g ,e n t i t yr e c o g n i t i o n ,i n f o r m a t i o ne x t r a c t i o n , d i s e a s er e l a t e dg e n e s 1 i i w r i t t e nb yj i a n ji a ny a n g s u p e r v i s e db yj i 萄u nw a n g 1 1 引言 第一章绪论 后基因组时代,随着高通量生物技术的发展,生物医学的实验手段和研究方法均 发生了巨大变革。出版的生物医学文献也迅速膨胀,成为一座巨大的知识宝库。面对 如此大规模的、快速增长的科学文献数据,即便是领域内的专家也无法依赖手工方式 从中获取感兴趣的信息,做到完全掌握其领域研究现状和未来发展趋势。因此采用文 献计量学及文本挖掘技术快速有效地分析研究现状、提取生物医学知识、预测研究的 发展趋势等的需求变得十分迫切。 1 2 文献计量学及其研究现状 随着现代科学技术的迅猛发展,科学技术知识呈“爆炸性”增长。而任何一项科 学研究的最后阶段都得撰写必要的科学文献,这些文献的数量和质量是反映其研究成 果和科研实力的重要指标。在科研过程中文献贯穿始终,是反映科研能力和水平的主 要因素,所以根据科学文献的内容和数量变化可以研究分析科学研究的历史和现状, 及预测今后的发展方向i lj 。 文献计量学是以各类文献为对象,采用数学、统计学等计量方法对文献进行统计 分析,从而研究和揭示文献情报规律、文献情报科学管理以及学科发展趋势的- i - j 学 科【2 1 。文献计量学是图书情报学的分支学科,至今为止,已经发展研究了近1 0 0 年, 产生了大量的经验公式和计量评价方法,形成了比较规范的学科体系和知识范畴【3 l 。 文献计量方法的应用是相当广泛的,利用它不仅可以揭示文献量的变化规律,分析一 个学科产生、发展的过程,还可以确定核心期刊、核心作者等,帮助科研人员获得大 量的信息。 二十世纪初,动物学家科尔( f t c o l e ) 和博物馆馆长伊尔斯( n b e a l e s ) 对 1 5 4 3 1 8 6 0 年间欧洲各国发表的关于比较解剖学的论文进行了统计,为文献计量法的 发展做了开创性的工作1 4 1 。此后,量化方法在科研评价中逐步得到应用,科学评价也 簋二童结i 金 塞醛i 士量堂塑塞奎挖掘盘生佥型堂主敛应围 由专家定性评价发展为定性和定量评价相结合的过程,文献计量方法在科学评价中逐 渐受到重用。 从1 9 1 7 年至今,国外文献计量学发展经历了三个阶段口1 。我国的文献计量学研究 比国外要晚半个多世纪,但发展迅速。我国文献计量学的研究也经历了三个阶段:介 绍推广阶段、普及应用阶段和全面发展阶段【5 j 。 1 3 文本挖掘及其在生物信息中的应用 数据挖掘( d a t am i n i n g ,简称d m ) ,又称数据库中的知识发现( k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) ,是从大量的、模糊的、有噪声的、不完全的、随机的数据中提 取隐含的、事先不知道、但潜在有用的信息和知识的过程【6 】。高速发展的信息技术产 生了大量的电子数据,但却缺少有效的技术快速从中获取有价值的信息。数据挖掘就 是在这种背景下应运而生。 在现实生活中,数据不仅以结构化数据的形式出现,还以新闻文章、书籍、论文 文献、w e b 页面及电子邮件等文本的形式出现。这类非结构化的数据中蕴藏着大量的 信息,如何从这类非结构化数据中进行挖掘,提取感兴趣的东西已成为数据挖掘研究 的一个热点,即文本挖掘( t e x tm i n i n g ,简称t m ) 1 7 】。文本挖掘是数据挖掘的一个 分支,在传媒、教育、商业、政府及医疗卫生、生物技术等领域都发挥着不可忽视的 作用i 引。 文本挖掘是一个交叉学科,涉及到数据挖掘、自然语占处理、机器学习、信息检 索等多个领域。文本挖掘的主要支撑技术是自然语言处理和机器学1 9 。由于文本挖 掘处理的对象是半结构化或非结构化的文档,所以自然语言处理技术( n a t u r a l l a n g u a g ep r o c e s s i n g ,简称n l p ) 成为文本挖掘的主要技术手段。机器学习( m a c h i n e l e a r n i n g ,简称m l ) 使计算机能模拟人的学习行为,通过学习获取知识和智能,不 断改善性能。机器学习是人工智能的一个重要方向,在文本挖掘中也发挥了同益重要 的作用。 后基因组时代,随着生物医学实验手段和研究方法的迅猛发展,生物医学文献也 呈指数型增长。面对如此大规模、快速增长的生物医学文献,传统的检索技术、文本 处理技术已不能适应海量文本数据处理的需要,这给文本挖掘技术提供了机遇与挑 2 塞岖让量堂塑塞奎控堡盘生佥登堂史敛! 塑用 笠二至缝监 战。 生物医学文本挖掘最早可追溯到1 9 8 6 年,芝加哥大学教授d r s w a n s o n 提出用 逻辑推理的方式找到事物潜在的联系【l o 】。d r s w a n s o n 认为很多公开的知识没有被人 类意识到,因为知识由具有联系的多个部分组成,而这些相互联系的部分很少被同一 个人知道。他的思想被描述为a b c 模式,即一些文献表明a 与b 有某种关系,另一 些文献表明b 与c 有某种关系,则可预测a 与c 有某种联系,即使没有文献提出a 与c 有关系。根据这一理论,d r s w a n s o n 教授提出实用鱼油会对雷诺氏症患者有 益的假训1 0 1 。这个假说提出大约两年后,b b c h a n g 等通过实验验证了这一假说【1 l 】。 此后,很多具有隐藏关系的例子被陆续发现,d r s w a n s o n 的研究成果引起人们极大 的兴趣。人们开始意识到从文献中可以挖掘到很多以前未知但又极其重要的信息。 作为生物信息学研究的分支之一,生物医学文本挖掘是生物学研究中不可缺少的 部分,它推动和促进了生物医学的发展。生物医学文本挖掘是一门跨学科的研究,涉 及到生物信息学、自然语言处理、机器学习、数据库技术等多方面的技术。 生物医学文本挖掘可从多方面辅助生物医学研究者的工作【9 】:信息检索技术帮助 用户从海量的生物医学文献中快速有效地检索需要的信息;信息抽取技术从生物医学 文献中抽取出特定的事实信息( 主要是生物实体如疾病、基因、蛋白质等之间的关系) , 这对生物体关系的预测、生物网络的建立、新药的研制等均具有重要的意义;假设生 成可以从文献中挖掘出实验假设和实验建议等,经生物学家验证后得到新的科学发 现;文本分类通过粗粒度的筛选缩小搜索的范围,为进一步的信息处理做准备。当前 生物医学文本挖掘的研究热点主要集中在信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 、 实体识别( e n t i t yr e c o g n i t i o n ,简称e r ) 、信息提取( i n f o r m a t i o ne x t r a c t i o n ,简称 i e ) 等方面【12 1 。 目前,生物医学文献挖掘的主要研究内容包括信息检索、生物实体的识别、关系 提取、文本分类、假设发现等。实体关系的抽取作为生物医学文献挖掘的一部分受到 越来越多的关注,其目的是寻找隐藏在生物实体之间的关系。为了找到生物实体之间 的关系,就必须首先从文献中找出生物实体,如基因、蛋白、药物、疾病等。所以在 实体关系抽取中,第一步就是要进行生物实体的识别。生物实体识别不仅是生物医学 文本挖掘的第一步,也是相当重要的一步。 筮二童缝途 塞醚让量堂塑塞尘毽坦企生佥挝堂主鳆度围 当前,对基因、蛋白质的研究是生命科学的热点:从生物医学文献中抽取基因、 蛋白质、疾病等的名称,进一步发现基因、蛋白质、疾病等的联系对生命科学的研究 有重要的意义。基于海量生物医学文献挖掘疾病与基因的相互关系就是其中的一个主 要研究方向,其对疾病的预防、诊断、治疗,药物的研发和生物医学实验设计等均具 有重要的意义【1 3 】。 1 3 1 实体识别 实体是指某个领域的专有术语,实体识别( e n t i t yr e c o g n i t i o n ,简称e r ) 是文本 挖掘中的一项基本工作,在大规模真实文本的处理中尤其重要。在生物医学文本挖掘 领域,实体识别是从生物医学文献中找到生物术语实体,并将其标为正确的类别,如 基因、蛋白质、细胞、药物等【1 4 ,1 5 】。实体识别包括两项任务:首先是识别,找到文本 中实体的边界;其次是分类,确定实体的类别。 生物实体的识别是文本挖掘的第一步,也是比较困难的一步。这一步提取的准确 与否直接影响到后面关系提取的结果。生物实体识别的难点主要体现在四个方面:一 是生物实体种类繁多,数量庞大;二是生物医学文献中存在大量的一词多义现象;三 是通常一个实体有多种表示方法;四是生物实体名称不是一成不变的,随着研究的深 入,生物实体名称会实时变化更新。目前在生物医学文本挖掘领域,实体识别主要有 基于字典、基于规则和机器学习的方法。 ( 1 ) 基于字典( d i c t i o n a r y b a s e d ) 的方法 基于字典的生物实体识别方法是人们最早采用的一种识别方法。它先建立生物实 体字典,采用名称匹配的方法搜索相同或相似字符串,以此来识别出文本中的生物实 体。该方法实现方式比较简单,易于理解,但受限于词典的规模和质量。d p r o u x 等 1 1 6 1 首次使用f l y b a s e 数据库中的基因名称词典来识别预料中的基因。当前可用的生物 实体识别的字典资源有h u g o l l7 1 、n c b ig e n e 数据库1 8 1 等。由于基于字典的方法受 到字典本身的限制,会产生一些假阳性和假阴性数据,所以现在常见的基于字典的方 法多会尝试引入一些简单的规则来辅助识别生物实体【1 9 , 2 0 。该方法能简单有效地寻找 生物实体名称,由于这些优点,许多关系提取研究都采用该方法来识别生物实体。 ( 2 ) 基于规则( r u l e b a s e d ) 的方法 4 塞越进量堂塑塞垒控掘鱼;生金王! 堂史的应围箍二空缝论 一般情况下,生物实体名称最常见的形式是“大写字母 、“大写字母+ 数字 、 “大写字母+ 连接符+ 数字 等。基于规则的方法就是是通过整理生物实体的命名规则 来识别生物实体。d h a n i s c h 等1 2 1 1 采用基于规则的方法来识别文本中的基因和蛋白质 实体。基于规则的生物实体识别方法可以按需求进行灵活扩展,但生物实体命名规则 变化多样,手动分析目标领域文本并产生相应的规则需要花费大量时间,很难完备地 罗列整理出所有的命名规则。该方法能在产生规则的数据集中获得较好的结果,但推 广性较差。 ( 3 ) 机器学习( m a c h i n el e a r n i n g ) 的方法 机器学习的方法将生物实体名称的识别看做一个词分类问题,将一个标注过的训 练文集作为分类标准训练分类器,后应用已训练好的分类器去识别未知文本中的生物 实体名称。机器学习的方法主要通过特征选择、分类学习和结果验证三个步骤,关键 在于选取的特征和分类器。常见的特征有字典特征、词性特征、词性特征和上下文特 征等。目前生物实体识别常用的分类器有支持向量机( s u p p o r tv e c t o r m a c h i n e ,简称 s v m ) 、条件随机场( c o n d i t i o n a lr a n d o mf i e l d ,简称c i 强) 、隐马尔科夫模型( h i d d e n m a r k o vm o d e l ,简称h m m ) 等。g z h o u 等采用隐马尔科夫模型识别生物医学文 献中的生物实体。机器学习的方法在灵活性及特定环境的适应性上有较大的优势,可 以发现名称字典中未包含的实体;但对训练语料的规模和质量依赖性较大。 1 3 2 信息提取 生物医学文献挖掘不仅仅是从文献中识别出各种生物实体,还包括提取生物实体 之间的关系,如蛋白质与蛋白质之间的相互作用关系、疾病与基因的关系等。生物实 体问关系的提取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) ,不仅可以整合散落在海量文献 中的有用信息,还可以根据文献中已有知识推断新知识。提取出的生物实体之间的关 系可以是基因调控关系、蛋白质相互作用关系、疾病基因关系等,这对生物知识网络 的构建、生物实体关系的预测、新药的研制等具有重要的意义1 2 3 1 。生物实体关系的提 取主要有三种方法,分别是共同出现的方法、自然语言处理的方法和机器学习的方法。 ( 1 ) 共出现( c o o c c u r r e n c e ) 的方法 在共出现的方法中,如果两个生物实体频繁地出现在同一个句子、段落或文章中, 5 箍二童结论 室醚i 土量堂翘塞查挖掘盘生金抖堂生曲墟虽 则认为这两个生物实体就可能存在某种关系。通过统计及频率计算推断出生物实体之 间出现关系的可能性。d c h e n g 等【2 4 1 采用共同出现的方法来提取疾病、基因、突变、 药物等之间的关系。该方法查全率较高,但准确度并不理想。 ( 2 ) 自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ) 的方法 自然语言处理的方法借助自然语言处理中的句法分析和语义分析工具,对语句进 行句法语义分析,通过制定的规则来提取生物实体间的关系。n d a r a s e l i 等1 2 5 】提出了 一套完全自动的基于自然语言处理的蛋白质蛋白质关系提取系统。自然语言处理的 方法依赖于预定规则的质量和规模,针对性较强,但缺乏鲁棒性和可移植性。 ( 3 ) 机器学习( m a c h i n el e a r n i n g ) 的方法 当一个句子中含有两个或两个以上生物实体时,实体问相互作用关系的提取可以 看作是判断句子中有无实体间相互作用关系的二值分类问题。机器学习方法需要已注 释的实体关系训练语料,有效的特征向量及合适的分类器。m b u n d s c h u s 等【2 6 1 利用 条件随机场从文本中抽取疾病与基因的关系。机器学习方法能通过已注释好的训练语 料自动提取实体间的相互作用关系,但其效果对训练集和特征选取的依赖性很大。 1 4 课题拟解决的问题 作为评价科学文献的客观方法【2 7 , 2 8 】,文献计量学已广泛应用于生物医学的各个研 究领域,如肥胖症【2 9 】、哮喘3 0 1 、肿瘤学3 1 1 、外科学【3 2 】等。据我们所知,目前生物医 学领域文献计量学的研究多针对某种疾病,未系统分析过某大类疾病或几大类疾病的 科研状况。所以,本文尝试通过对各类疾病基础研究文献的统计分析,研究其文献量 随时问的变化情况、核心期刊、地域分布、核心科研机构等,来回顾各类疾病基础研 究的发展状况,对当前存在的问题进行分析,预估其今后的发展趋势。 李铁求等利用f a c t a 工具从p u b m e d 中寻找前列腺癌的相关基因1 3 3 1 ,但其中的 筛选整理工作仍需要专业研究人员手工进行,费时费力,不能进行高通量数据处理。 a o z g u r 等提出了一种基于文献挖掘和网络分析的疾病相关基因提取方法【l 引,但该方 法需要提供先验知识疾病相关的种子基因,且最终提取出的疾病相关基因必须与 这些种子基因出现在同一语句中,因此a o z g u r 等提出的方法也存在其自身的局限 性:首先,疾病相关种子基因的选取直接影响到疾病相关基因提取的结果;其次,它 6 塞醚 土量堂塑塞垒;丝堡焦生佥珏堂虫麴! 蔓围笙= 重缝途 无法提取出那些与疾病相关但又未与种子基因出现在同一语句中的基因。 到目前为止,生物学研究一直侧重在对单个基因与疾病关系的研究。现面临的课 题是如何将这些已研究过的基于单体的实验信息整和起来,以更为系统和全面的眼光 来看待生物体内在分子水平上的相互作用及其调控路径对疾病的发生、发展及预后的 影响。 本文整合了一套从海量生物医学文献中挖掘疾病相关基因的方法,并以前列腺癌 为例,挖掘分析了前列腺癌的相关基因。结果表明该方法可以快速、有效地提取分析 前列腺癌的相关基因。然后本文又将该方法应用到二十一大类疾病的相关基因提取 中,系统分析了疾病与基因的相互关系。 1 5 本文的主要内容及组织结构 本文首先利用e u t i l s 程序设计模块从n c b i 的文献数据库p u b m e d 下载文献数据, 并剔除非研究类的文献。然后整理二十一大类疾病,利用整理得到的疾病词表来筛选 各类疾病的相关文献。 文献计量分析的信息来自于文献的p m i d 号、出版时间、发表期刊、第一单位地 址、m e s h 主题词等。文献计量学的分析内容包括文献量随时间的变化情况、疾病研 究的热点、核心期刊、核心研究机构、各个国家不同疾病的研究实力等。 文本挖掘是本文的关键技术,也是最困难的一部分。它的信息来源是文献的标题 及摘要。本文主要的研究内容就是从海量的生物医学文献中挖掘疾病与基因的关系以 及疾病中基因与基因之间的关系。其主要分为两个部分:一是生物实体的识别;二是 生物实体间关系的提取。其中,生物实体的识别包括疾病名称的识别和基因名称的识 别;生物实体间关系的提取包括疾病与基因关系的提取、基因与基因关系的提取。 最后本文采用g o o g l em a p sa p i 及p h p + m y s q l + a p a c h e 技术搭建疾病基础研究 地理信息系统,将文献计量和文本挖掘的结果加入到该系统中,实现各疾病与相关基 因的双向查询,及各类疾病的基础研究状况分析。 本文的结构安排如下: 第一章:介绍课题的研究背景及研究现状,提出拟解决的问题。 第二章:简要介绍n c b i 、p u b m e d 数据库及e u t i l s 程序设计模块,编程下载p u b m e d 筮二童绪途塞筮进量堂塑塞尘丝翅盘生佥型堂生的应围 中的文献记录( m e d l i n e 格式) ,并对下载后的文献进行分类筛选。 第三章:首先简要介绍文献计量学;确定本文文献计量学的研究方法和分析类目; 对二十一大类疾病的相关基础研究文献进行文献计量学分析;以肿瘤为例,分析讨论 肿瘤研究的现状及未来的发展趋势。 第四章:首先简要介绍文本挖掘及文本挖掘在生物信息学中的应用:然后详细描 述从海量文献中提取疾病相关基因的方法;为了验证本文方法的可靠性,先以前列腺 癌为例,提取分析前列腺癌的相关基因,后提取二十一大类疾病的相关基因。 第五章:采用g o o g l em a p sa p i 及p h p + m y s q l + a p a c h e 技术搭建疾病基础研究 地理信息系统,实现各疾病与相关基因的双向查询,及各类疾病的基础研究状况分析。 第六章:总结与展望。简单总结本文的主要工作,展望今后的研究方向。 8 2 1 数据来源 第二章数据的获取与整理 本文中的文献数据均来源于n c b i 的p u b m e d 文献数据库。 美国国立生物技术信息中心n c b i ( h t t p :w w w n c b i n l m n i h g o v ) 全称n a t i o n a l c e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o n ,建立于1 9 8 8 年,是美国国立医学图书馆( n a t i o n a l l i b r a r yo f m e d i c i n e ,简称n l m ) 的一个分支。n c b i 凭借其强大的科研实力以及在生 命科学领域的巨大影响,创建并免费发布了一系列的生物信息事实数据库和文献数据 库,引领了生物医学的研究,为生物医学科研工作者提供了丰富的信息资源【3 4 】。 p u b m e d 是n c b i 提供的大型文献数据库系统,其免费提供生物医学文献的题录 检索服务及相关文献的全文链接。至今为止,p u b m e d 数据库收录了约2 0 0 0 多万篇 生物医学文献。其涵盖的范围也非常广,共包括美国和其他7 0 多个国家出版的生物 医学期刊约3 9 0 0 种【3 5 】。 2 2 数据获取 2 2 1e u t i l s 简介 e u t i l s ( e n t r e zp r o g r a m m i n gu t i l i t i e s ) 是n c b i 提供的一个程序设计模块,通过这 个模块可以编程批量获取n c b i 数据库的数据,从而实现这些数据资源的深度开发和 利用f 3 6 1 。 2 2 2 获取方法 本文的原始数据是p u b m e d 数据库2 0 1 0 年1 月之前收录的所有文献。首先获取 这些文献的p m i d ( p u b m e di d e n t i f i e r ) 号,将其存入到t x t 文本中。然后利用e u i t l s 及p e r l 编程批量下载这些文献m e d l i n e 格式的文献记录。比如,要下载p m i d 号为 7 5 0 0 0 0 1 的文章,则它的下载链接为: 9 h t t p :e u t i l s n c b i n l m n i h g o v e n t r e z e u t i l s e f e t c h f c g i ? d b 2 p u b m e d & i d = 7 5 0 0 0 01 & r e t m o d e 气e x t & r e t t y p e = m e d l i n e 。通过p e r l 编程读取t x t 文本中的文献p m i d 号,拼接得到要下 载文献的下载链接,向n c b i 服务器发出请求,并将返回的数据存在本机硬盘上,以 待后面处理。 2 3 筛选分类 2 3 1 数据预处理 m e d l i n e 格式的文献记录包括文献的标题、作者、摘要、第一单位、发表期刊、 发表时间及文献的p m i d 号等。本文需要的信息有文献的p m i d 号( p m i d ) 、文献的 发表时间( d p ) 、文献的标题( t i ) 、文献的摘要( a b ) 、文献发表第一单位的通讯地 址( a d ) 、文献类型( p t ) 、文献发表期刊名( t a ) 和文献的m e s h 主题词( m h ) ( 如图2 1 ) s t 1 - 嚣弘l r i l d - 1 9 9 6 0 1 1 8 c 0 1 1 - 1 9 拿6 0 1 1 8 1 囊_ 2 0 0 7 1 1 1 i 工s0 0 2 z 0 9 噜9 ( p c i n t ) z s一0 0 2 2 - 0 9 4 9t l x n i :t n o ) j t t h ej o u r n a lo 士e x p e r i m e n c a lb x o l 0 盯 d i d 0 2 q 3 7 0 5 l 珂i t k n l _ a a i s 1 文献- m e s h 主题词i l 聃。卸l 姆i 彰曲 i o l o g , i 暑ha x o n s * d h v s l o l o u v 图2 1m e d l i n e 格式的文献记录 1 0 塞醛让童堂塑塞生熊翅盘:生金魁堂虫曲盛围箍:三至錾堡鳆瑟弘蔓整堡 由于本文关注的是疾病的基础研究,所以在预处理时需要根据文献类型( p t ) 筛 除非研究类的文献。非研究类的文献类型包括c a s er e p o r t s 、r e v i e w 、e d i t o r i a l 、n e w s 、 c o m m e n t ,l e g a lc a s e s ,p u b l i s h e de r r a t u m ,h i s t o r i c a la r t i c l e s ,b i o g r a p h y ,c l a s s i c a l a r t i c l e ,p o r t r a i t s ,c o n s e n s u sd e v e l o p m e n tc o n f e r e n c e ,i n t r o d u c t o r yj o u m a la r t i c l e , p a t i e n te d u c a t i o nh a n d o u t 、p r a c t i c eg u i d e l i n e 、g u i d e l i n e 、c o r r e c t e da n dr e p u b l i s h e d a r t i c l e 、c l i n i c a lc o n f e r e n c e 、b i b l i o g r a p h y 、c o n g r e s s e s 。 2 3 2 疾病名称表的构建 疾病的名称下载于n c b i 的m e s h 数据库,本文选择了d i s e a s ec a t e g o r y 以及 m e n t a ld i s o r d e r s 下的所有m e s h 主题词及自由词( 动物疾病的除外) 。经整理后得到 二十一大类疾病的名称,如表2 1 。 表2 1 整理得到的2 l 类疾病的名称 疾病名称( 英文)疾病名称( 中文) 1 b a c t e r i a li n f e c t i o n sa n dm y c o s e s 细菌感染和霉菌病 2v i r u sd i s e a s e s 病毒性疾病 3p a r a s i t i cd i s e a s e s寄生虫病 4 n e o p l a s m s 肿瘤 5m u s c u l o s k e l e t a ld i s e a s e s骨骼疾病 6 d i g e s t i v es y s t e md i s e a s e s 消化系统疾病 7 s t o m a t o g n a t h i cd i s e a s e s 口颌疾病 8 r e s p i r a t o r yt r a c td i s e a s e s 呼吸道疾病 9 o t o r h i n o l a r y n g o l o g i cd i s e a s e s 耳鼻喉疾病 1 0n e r v o u ss y s t e md i s e a s e s神经系统疾病 11 e y ed i s e a s e s 眼部疾病 1 2c a r d i o v a s c u l a rd i s e a s e s心血管疾病 1 3h e m i ca n dl y m p h a t i cd i s e a s e s 造血及淋巴系统疾病 玺三童麴搓曲丛墅i 整堡 室筮进量堂塑塞奎挖掘硇i 生佥型堂主鲍坚旦 c o n g e n i t a l ,h e r e d i t a r y , a n dn e o n a t a ld i s e a s e sa n d 先天性遗传的新生儿疾病及 1 4 a b n o r m a l i t i e s畸形 1 5s k i na n dc o n n e c t i v et i s s u ed i s e a s e s 皮肤及结缔组织疾病 1 6n u t r i t i o n a la n dm e t a b o l i cd i s e a s e s 营养代谢疾病 1 7 e n d o c r i n es y s t e md i s e a s e s内分泌系统疾病 18 i m m u n es y s t e md i s e a s e s免疫系统疾病 1 9d i s o r d e r so fe n v i r o n m e n t a lo r i g i n 环境性疾病 2 0m e n t a ld i s o r d e r s 精神性疾病 2 1 u r o g e n i t a ld i s e a s e sa n dp r e g n a n c yc o m p l i c a t i o n s 泌尿系统疾病及妊娠并发症 2 3 3 各类疾病相关基础研究文献的筛选 相关基础研究文献的筛选标准是文献的标题、摘要、m e s h 词三者中至少有一个 包含疾病的名称。经筛选后发现肿瘤类的相关基础研究文献最多,各类疾病的相关基 础研究文献数量如图2 2 所示。筛选得到的文献在后面两章会得到进一步的分析。 1 8 0 0 0 0 0 王6 0 0 0 0 0 1 4 0 0 0 0 0 1 2 0 0 0 0 0 l o o 0 0 0 0 8 0 0 0 0 0 6 0 0 0 0 0 4 0 0 0 0 0 2 0 0 0 0 0 0 图2 2 各类疾病的相关基础研究文献数 魏踵瓣熬薤瑟瑟毵璐翼錾譬曩藿曩基囊瑟瑟瑟瑟墨墨器蕊殛飘醛辫鬟墨纛疆墨囊糖疆疆麓夏罄疆疆驻整鬣鹫霸重爱嚣翟誓誓薹鬣露旗露裁越蠢器麓麓蟹毯囊圈雪网嘲斓煳黝阂嘲圜图捌黼煳鳓嘲嘲鳞翰鬯溺瀚潮瀚圜圆潮阉溺阁黼霞 2 4 本章小结 本章利用n c b i 的e u t i l s 程序设计模块编程下载p u b m e d 数据库2 0 10 年1 月前发 表的所有文献记录( m e d l i n e 格式) ,并对下载后的文献记录进行预处理。然后整 理人类各类疾病的名称表,并按整理后的疾病名称表筛选各类疾病的相关基础研究文 献,以待后文处理。 筮三童基土塞筮让量堂丝途猫基趟丛红丛逸坌蚯 塞趑| 量堂翘塞奎毽堡巫:篁佥型堂主的廛围 第三章基于文献计量学的疾病基础研究状况 分析 3 1 文献计量学方法与分析类目的选择 文献计量学常采用的方法,包括定量分析法、内容分析法、引文分析法等。本文 采用定量分析法和内容分析法研究各类疾病的基础研究状况。 分析类目又称分析维度,根据课题研究的需要而设定。分析类目选择得是否得当、 精确,对文献统计分析的结果至关重要。本文的分析类目包括以下几方面:文献量随 时间的变化情况、研究热点( 主要研究疾病) 、核心期刊、地域分布、核心科研机构 以及国家科研实力分析等。 其中,各期刊的影响因子参考自2 0 0 9 年的s c i 期刊影响因子表。文献的发表洲 信息、国家信息和机构信息均提取自文献记录的第一单位地址栏。在地域分析中,全 球被分为了六大板块,分别是:非洲、亚洲、欧洲、北美洲、大洋洲和北美洲。在国 家信息的提取过程中,各个国家的不同名字都予以考虑,例如荷兰就有两个不同的说 法:h o l l a n d 、n e t h e r l a n d s 。国家科研实力分析分数量( 文献发表的数量) 和质量( 文 献的影响因子) 两个方面进行。在文献质量分析中,本文计算了各国家各类疾病研究 发表文献的影响因子总和,从文献的质量角度来衡量国家的科研实力。 此外本文还探讨了文献发表量与国家国内生产总值( g r o s sd o m e s t i cp r o d u c t ,g d p ) 的关系,以及主要科研国家的人均文献产量和平均g d p 文献产量。各国的国内生产 总值和人口数据均来源于世界银行的在线数据平刽”1 。 3 2 结果统计分析 本文对二十一大类疾病分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论