(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf_第1页
(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf_第2页
(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf_第3页
(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf_第4页
(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(遗传学专业论文)web+services和xml技术在生物信息数据发布及整合中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.n 1 大李硕士李位恰人 s e r vi c e s和x ml技术在生物信息数据发布及整 合中的应用 遗传学专业 硕士研究生李校指导教师张义正教授 摘要 上个世纪 s o年代,人类基因组计划的实施标志着生物学的发展进入了基 因组时代。这个时代最显著的特征是各种分子数据呈现爆炸性增长。随着 www的蓬勃发展, 通过因特网来传播生物信息是最快捷和最方便的手段。 然 而,由于生物数据的复杂性、庞大性以及生物数据格式的复杂性、多样性,使 得生物数据的获取和整合变得十分困难。 与传统数据库中高度结构化的数据相 比, w e b 上的数据最大特点就是结构化特征较弱, 通常是半结构化的, 甚至是 无结构化的, 而且每个数据源都是分散的、自 治的,生物学家们要想获取相关 数据异常得艰难。因此, 如何有效地发布、 传输及整合来自 不同数据源的数据 是当前生物信息学和基因组、蛋白组科学中的重要课题之一。以x n ( l技术为 核心的w e b s e r v i c e s 是下一代i n t e rne t ,已经被业界广泛应用于电子商务。作 为一种完全结构化的数据格式,x ml被生物信息团体用来描述生物学数据。 本论文以w e b s e r v i c e s 跨平台的特点,在分布式的环境中发布和整合以x m l 格式的生物数据。 利用抑制 削减 杂交和 基 因芯片技 术获 得一批黄 抱原 毛平 革菌 ( p h a n e r o c h a e t e c h r y s o s p o r i u m ) 特异表达的e s t 序列, 使用p h r a p , e m b o s s , b l a s t , g e n s c a n , mz e f 软件, 基于l i n u x 操作系统,构建了e s 丁 序列分析 系统,完成了从 e s t和基因组 b l a s t 数据库的构建,载体序列的去除, e s t 序列的分类和组装, e s t序列在基因组上的定位, 外显子和内含子的识别以及 基因预测。 并通过使用p e r l 语言结合b i o p e r l 模块编写的 脚本程序使分析过程 .川大李城士学位伦我 自动化, 从而可以快速地对大批e s t序列进行分析, 为克隆相关基因及研究黄 抱原毛平革菌功能基因组学提供有用的信息。 关键词 l a n g u a g e 生物数据整合生物数据发布w e b ( x ml ) 生物信息学 黄抱原毛平革菌 s e r v i c e s . e x t e n s ib l e m a r k u p es t .川大李吸士李 位份大 a p p l i c a t i o n o f we b s e r v i c e s a n d x ml i n b i o i n f o n n a t i c s d a t a d i s t r i b u t i o n a n d i n t e g r a t i o n ma j o r : g e n e t i c s s t u d e n t : l i x i a o a d v i s o r : z h mg 1 i z h e n g ab s t r a c t i n 9 0 s o f l a s t c e n t u ry , t h e d e v e l o p m e n t o f h u m a n g e n o m i c s p r o j e c t i n d i c a t e d t h a t b i o l o g y h a s s t e p p e d in t o t h e a g e o f g e n o m e . t h e m o s t re m a r k a b l e c h a r a c t e r i s t i c o f t h e a g e i s t h e v o l u m e o f b i o l o g y d a t a g r o w i n g a t a n e x p o n e n t ia l r a t e . mo r e a n d m o r e g e n o m e s a r e b e in g s e q u e n c e d a n d a n n o t a t e d , a n d t h e d a t a o f p r o t e i n s a n d g e n e s a r e a c c u m u l a t e d . wit h t h e r a p i d d e v e l o p m e n t o f w ww ( w o r l d w i d e w e b ) , b i o l o g i c a l d a t a a r e m o s t l y d i g i t a l a n d s t o r e d i n a w i d e v a r i e t y o f f o rm a t s i n h e t e r o g e n e o u s s y s t e m s . b io l o g i c a l d a t a e x i s t a l l o v e r t h e w o r l d a s v a r io u s w e b s i t e s , w h i c h p r o v i d e b io l o g i s t s w it h m u c h u s e f u l i n f o r m a t i o n . h o w e v e r , t h e c o m p l e x i t y o f b i o l o g i c a l d a t a a n d t h e v a r ie t y o f d a t a f o r m a t s m a k e it d i ff i c u lt t o r e t r ie v e a n d i n t e g r a t e t h e in t e r e s t i n g d a t a . c o m p a r i n g w i t h t h e t r a d i t i o n a l s t r u c t u re d d a t a , t h e b i o l o g y o n e s lo c a t i n g a t w e b a r e s e m i - s t r u c t u r e d o r n o - s t r u c t u r e d , a n d h a v e h e t e r o g e n e o u s f o r m a t s . t h e r e f o r e , r e t ri e v i n g a n d i n t e g r a t i n g b i o l o g y d a t a i s a v e ry i m p o r ta n t t a s k . r e c e n t ly , i t i s w id e l y r e c o 咖z e d th a t e x c h a n g e , d i s t r ib u t i o n , a n d i n t e gr a t i o n o f b i o l o g y d a t a a r e t h e k e y s t o im p r o v e b i o i n f o r m a t i c s a n d g e n o m i c s i n p o s t - g e n o m i c e r a . t h e e x t e n s i b l e ma r k u p l a n g u a g e ( x ml ) i s r a p i d l y s p r e a d i n g a s a n e m e r g i n g s t a n d a r d f o r s t r u c t u r i n g d o c u m e n t f o r e x c h a n g i n g a n d i n t e g r a t in g d a t a o n t h e w o r ld wid e w e b ( www) . w e b s e r v i c e i s t h e n e x t g e n e r a t i o n o f www a n d f o u n d e d u p o n t h e o p e n s t a n d a r d s o f w3 c ( w o r l d wi d e we b c o n s o r t i u m ) a n d i e t f ( i n t e r n e t e n g i n e e r i n g t a s k f o r c e ) . t h i s p a p e r p r e s e n t s x ml a n d w e b s e r v i c e s .川大 学峨士李 位俗大 te c h n o l o g i e s a n d t h e i r u s e f o r a n a p p r o p r i a t e s o l u t i o n t o t h e b i o i n f o r m a t i c s d a t a e x c h a n g e a n d in t e g r a t i o n p r o b l e m . a n u m b e r o f d i ff e r e n t i a l l y - e x p r e s s e d c d n a f r a g m e n t s w e r e o b t a i n e d fr o m p h a n e r o c h a e t e c h r y s o s p o r i u m b y u s i n g s u p p r e s s i o n s u b t r a c t i v e h y b r i d i z a t io n ( s s h ) a n d mi c r o a r r a y t e c h n i q u e s a n d 4 3 3 o f t h e m w e r e s e q u e n c e d . t o m a n a g e a n d a n a l y z e t h e s e e s t d a t a , b a s e d o n l i n u x o p e r a t i n g s y s t e m , t h e p h r a p , e m b o s s , b l a s t , g e n s c a n , mz e f s o ft w a r e w e r e u s e d t o c o n s tru c t a p la t f o r m . t h e p l a t f o r m in c l u d e s c o n s t r u c t i n g e s t a n d g e n o m e d a t a b a s e s , r e m o v i n g v e c t o r s e q u e n c e s , s o r t in g a n d a s s e m b l i n g s e q u e n c e s , lo c a t i n g o n g e n o m e , i d e n t i f y i n g e x o n s a n d in t r o n s , a n d p r e d i c t i n g g e n e s . mo r e o v e r , u s i n g b i o p e r l m o d u l e s , t h e s c r i p t s w r i tt e n w i t h p e r t la n g u a g e e n a b le a n a l y s i s a u t o m a t ic a l l y . r e s u lt s d e m o n s t r a t e d t h a t t h e r o b u s t p l a t f o r m c o u l d a c c e l e r a t e d a t a a n a ly s i s f o r l a r g e - s c a l e e s t s e q u e n c e s a n d o ff e r u s e fu l in f o r m a t i o n f o r c lo n i n g c o r r e l a t i v e g e n e s a n d s t u d y i n g t h e f u n c t i o n a l g e n o m i c s o f p h a n e r o c h a e t e c h r y s o s p o r i u m k e y w o r d s : b i o l o g i c a l d a t a i n t e g r a t i o n , b i o l o g i c a l d a t a d i s t r i b u t i o n , e x t e n s i b l e ma r k u p l a n g u a g e ( x ml ) , w e b s e r v i c e s , b i o i n f o r m a t i c s , p h a n e r o c h a e t e c h r y s o s p o r i u m , e s t vi i 第一部分 发布及整合核酸数据的we b s e r v i c e s 平台的构建 摘要 上个世纪9 0 年代, 人类基因组计划的实施标志着生物学的发展进入到了 基因组时代。这个时代最显著的 特征是各种分子数据呈现爆炸性增长。因此, 如何有效地发布、 传输及整合来自 不同数据源的数据是当前生物信息学和基因 组、蛋白 组科学中重要的课题之一。随着 www 的蓬勃发展, 通过因特网来 传播生物信息是最快捷和方便的手段。 由于生物数据的复杂性, 庞大性, 利用 计算机和网 络技术来收集, 整理和交流生物数据就成为必然, 也是当今生物信 息学蓬勃发展的原因。 然而, 与传统数据库中高度结构化的数据相比, w e b 上 的数据最大特点就是结构化特征较弱,往往是半结构化 ( s e m i - s t r u c t u r e d )的, 甚至是无结构化 ( n o - s t r u c t u r e d )的。而且每个数据源都是分散的,自治的 ( a u t o n o m o u s ) ,生物学家们要想获取相关数据异常得艰难。本课题旨 在建立 一个整合的生物信息查询系统, 利用w e b s e r v i c e s 技术, 采用x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ,可扩展标识语言) 为数据模型,收集整合来自 各个不同 数 据源的生物信息数据口 关键 词生物 数 据 整 合 ( b i o l o g i c a l d a t a i n t e g r a t i o n ) w e b s e r v i c e s x m l ( e x t e n s i b l e m a r k u p l a n g u a g e ) j a v a p e r l生物信息学 1 引言 以 人类基因组计划为代表的基因组时代, 产生了并正加速产生着庞大的生 物数据。几乎生物体各个水平的数据正在呈爆炸性的增长,从 d n a. r n a , s n p ,蛋白到代谢网络等等。截止到2 0 0 4年5月,g e n b a n k中收录的核酸数 据己经达到2 0 1 亿碱基。 然而,由于收集者的兴趣和采用的数据存储方式的不 同,生物数据以不同的数据格式分散存储在 i n t e r n e t中,我们可以称之为 wtq大李减士李位论炙 生物数据的异质性:包括数据存放的地点 ( 数据源) , 数据的文件格式,数据 库的不同, 数据库内容的关注点的不同, 操作平台的不同以及检索系统的不同。 生物学家如果想获得某一完整的数据,就不得不在各个数据源之间进行查找。 随着后基因组时代的来临,系统生物学开始兴起,以整合的系统的观点分析生 物学问题成为必然,因此, 数据整合就成为系统生物学发展的起始的必然的阶 段而受到广泛的重视( s t e i n , 2 0 0 3 ; s t e in , 2 0 0 2 ; k i t a n o , 2 0 0 2 ) 。 此外, 因为数据整 合是为了获得相关的所有数据, 在生物制药中的应用也受到了广泛的重视,因 为, 通过整合所有相关的数据, 研究者就能找出相关组分之间的联系,因而也 就能更快地找到药物靶标,更快地实现药物设计。 1 . 1生物数据整合的概念和困难 数 据整合是 和应 用关联( a p p l i c a t i o n i n t e r o p e r a b i l i ty ) 、 应用整合( a p p l ic a t i o n i n t e g r a t i o n )相联系但又不同的 概念。数据整合是指收集和存储来自 各个不同 数据源的在生物学意义上相互联系的数据。应用关联是指规范化数据接口 ( i n t e r f a c e ) , 使得从一个应用程序产生的数据能直接作为另一个应用程序输入 的数据。 应用整合则包括了以上的2 个方面, 是数据整合和数据关联结合在一 起的使用( s i e p e l e t a l , 2 0 0 1 ) . 生物数据整合是个复杂的工程, 从技术角度来说, 必须克服以下几个障碍: 1 )分散的数据源:计算机和信息技术应用于分子生物学研究以来,短时 间内 产生数以 万计的数据m( l a c r o i x , 2 0 0 2 ) . 2 )数据格式的不一致:有传统的高度结构化的关系性数据库数据格式, 也有半结构化的fl a t f i l e s , t e x t 文本格式, 完全无结构化的h t ml格式, 同时也有从应用程序中新产生的数据格式 ( 如 b l a s t 等) 。数据格式的 统一严重阻碍了信息交流与整合。 3 )数据源更新的不同步性:各个数据源是自治的,分属于不同的研究机 构和私营企业。出去公开和不公开的差别外,各个数据源的更新是不 同步的 ( s e a r l s , 2 0 0 3 ) a 当 前, 生 物数据普 遍采用fl a t f i l e 格式( 包括g e n b a n k , e m b l , d d b j , f a s t a 等格式) 来描述和储存。由于缺乏分布式应用, 所有的数据必须下载到本地整 .74大李硕士李位俗次 合。 而且,fl a t f i l e 格式是无结构化的标识语言,为了 抽提和整合重要的或者感 兴趣的信息,解析 fl a t f i l e 格式是困难的。除了fl a t f i l e 格式,另一个被广泛用 来 传播数 据的 是h t m l ( h y p e rt e x t m a r k u p l a n g u a g e ) , 作为一 种半 结构 化的 标 识语言,解析同样是困难的。 为了克服上述格式的不足, x ml作为一种新的 可扩展的标识语言诞生了。最初的时候,x ml是为了解决在电子商务中传输 和整合数据的。 然而, 由于其良好的可扩展性, 开始被用于去描述生物、 化学、 数学等专门 学科领域的 数 据 ( a r c h a r d e t a l . , 2 0 0 1 ; h a a s e t a l . , 2 0 0 2 ; b e n i n i e t a l . , 2 0 0 3 ; g o e s m a n n e t a l , 2 0 0 3 )。 1 . 2 w e b s e r v i c e s 以x ml为核心的被誉为下一代的互连网的w e b s e r v i c e , 如今己经开始应 用于电 子商务中, w e b s e r v i c e s 具有一些重要的 特性从而克服了上述的困难( d e e t a l . , 2 0 0 4 ) : 1 ) w e b s e r v i c e s 形成一个分布式环境并支持远程过程调用( r p c s , r e m o te p r o c e d u r e c a l l s ) 。 作为一种跨平台的分布式环境在生命 科学中日 益显得重要。通过分布式的环境,能最大效益地利用 互连网。这样,一些花费大 ( 包括硬件本身及其所处理的庞大 数据)的应用程序可以直接在远程的大型服务器中调用执行。 2 ) w e b s e r v i c e s 是以x ml为基础的。 这一点非常重要, 因为x ml 具有完全结构化的特点,利用计算机进行解析是方便的. 3 ) w e b s e r v i c e s 的组件是松祸合的。 传统的数据整合必须紧紧捆绑 于上游的数据源。当数据源发生改变时,数据整合就会失败。 4 )在通信方面, w e b s e r v i c e s 依赖于开放式的we b 标准: t c p / i p , h t t p 和x m l 。 包含过程调用、 描述、 发布、查找、绑定等内 容的更高级的协议基于x ml语法。 因为多种平台都广泛支持开 放式标准,并且开放式标准可越过防火墙传输信息,所以开放 式标准能够确保内部可操作性以及无须紧紧捆绑于上游数据 源。 s o a p ( s i m p l e o 场 e c t a c c e s s p r o t o c o l ) , ws d l ( we b s e r v i c e d e s c r i p t i o n a4大李硕士李位伦人 强 x ml在生命科学中的应用,并使其规范化。而且 b i o x ml采取开 放源代码的政策,任何人都能参与开发和错误修订。 6 ) s b ml ( h u c k a , e t a l ., 2 0 0 3 ): t h e s y s t e m s b i o l o g y ma r k u p l a n g u a g e ( h t t p :/ / w w w . s b m i .o r g / ) 表1 x m l 在生命科学中的应用 t a b l e l t h e x m l a p p l i c a t i o n i n b i o l o g y s c i e n c e ti t l eurl d e s c r i p t i o n h tt p j / w w w .b io x m l .o r g / p 闷 眯t s / g a n te j h tt p :/ / w w w . b i o m l .c o m bi o ml / h tt p :/ / w w w . l a b b o o k .c o m / p r o d u c ts / x m lb s m l .a s p h tt p :/ / w w w .a g a v e x m l . o r g / das pr o m l p r oxi ml mage一 m gg ce 1 1 m1 cmi s m bi xem bl gi b bi nd h 即:/ / b io d a s .o r g ( h tt p :/ / c a r t a n .g m d .d e / p ro m i w e b / h t tp :/ / w w w .c s e . u c s c . e d u / % 7 e d o u g l a s / p r o x i m l/ h tt p j / w w w .m g e d ,o r g / in d e x .h t m l h tt p :/ / w w w .g e n c o n t o l o g y .o r g / h tt p :/ w w w .c e l l m l .o r g / h t t p :/ / w w w . = i - c m i . o r g / h tt p :/ / w w w .e d s . c a l t e c h .e d u l e r a t o / s b m l/ d o c s / h tt p :/ / w w w .c b i .a c .u k / x e m b il h tt p :/ / g i b .g e n e s .n i g .a c j p / h t t p :/ / w w w . b i n d d b .o 叼 g e n o m e a n n o t a t io n ma r k u p l a n g u a g e b i o p o ly m e r ma k e u p l a n g u a g e t h e b i o i n f o r m a t i c s e q u e n c e ma r k u p l a n g a u a g e a r c h i t e c t u r e f o r g e n o mi c a n n o t a t i o n , v i s u a l iz a t io n a n d e x c h a n g e d is t r i b u t e d s e q u e n c e a n n o t a t io n s y s t e m p r o t e i n ma r k u p l a n g u a g e p r o te i n e x t e n s l b l e m a r k u p l a n g u a g e mi c r o a r r a y ma r k u p l ang u a g e g e n e o n t o l o g y c e l l ma r k u p l a n g u a g e c h e m i c a l ma r k u p l a n g u a g e t h e s y s t e m b i o l o g y m a r k u p l a n g u a g e x ml p ro j e c t o f e m b l ddb i ge n o me i n f o r ma t i o n br o k e r t h e mo l e c u l a r i n t e r a c t i o n ne t w o r k 2 w e b s e r v i c e s 服务的调用 2 . 1 构建平台的硬件和操作系统以及软件 本案例使用p e n t i u m 1 .8 g c p u , 5 1 2 m内存,1 8 g s c s i 硬盘。 所用操作 .i 大李 硕士李位格人 系统为r e d h a t l i n u x 8 . 0 。我们分别使用j a v a, p e r l 语言来构建w e b s e r v i c e s 客 户端。 所用软 件是j a k a rt a t o m c a t 4 . 1 .2 4 , j a v a ( j a s d k 1 .4 . 1 . 0 2 ) , a p a c h e a x i s 1 . 1 以 及a p a c h e 1 . 3 .2 7 . a p a c h e a x i s 是一 个s o a p 引 擎, 用来构 建s o a p 消 息, 并获取文档。 p e r l v 5 . 8 .0 0 2 . 2 w e b s e r v i c e s 提供商 本案 例所 有调用的 服务 均 来自d d b j x m l 中 心( s u g a w a r a e t a l ., 2 0 0 3 ) , 该 中心提供如下服务: 表2 d d b j w e b 服务列表 t a b l e 2 t h e l i s t o f d db j we b s e rvi c e s na meur工 bl as t de mo bl a s t cl u s t a l w ddbj e x cl u s t a l w f a s t a g e t e n t ry gi b h tt p :/ / x m l .n i g . a c j p / w s d l/ b l a s t d e m o .w s d l h tt p :/ / x m l . n i g .a e j p / w s d i/ b l a s t .w s d l h tt p :/ / x m l .n i g . a c j p / w s d y c i u s t a l w . w s d l h t t p :/ / x m l .n i g . a c .j p / w s d l/ d d b j . w s d i h tt p :/ / x r n l . n i g .a c j p / w s d i/ e x c l u s t a w .w s d i h t t p :/ / x m l .n i g .a c .j p / w s d u f a s t a . w s d i h tt p :/ / x m l .n i g . a c j p l w s d v g e t e n t ry .w s d l h tt p :/ / x m l .n i g . a c j p / w s d i/ g i b . w s d i h tt p :/ / x m l .n i g . a e .j p / w s d v g t o p .w s d l h tt p :/ f x m l .n i g . a c .j p / w s d l / p m l . w s d l h t t p :/ / x m l .n i g . a e j p / w s d v s r s . w s d l h t t p :/ / x m l . n i g . a c j p / w s d l / t x s e a r c h .w s d l gtop脱srs xml c e n t r a l o f ddbj xml c e n t r a l o f ddb j x ml c e n t r a l o f d db j xml c e n t r a l o f d db j xml ce n t r a l o f ddbj xl v l c e n t r a l o f ddb j xml c e n t r a l o f ddbj xml c e n t r a l o f ddb j xml c e n t r a l o f ddb j x ml c e n t r a l o f d db j xml c e n t r a l o f ddb j xml ce n t r a l o f ddbj 2 . 3 调用w e b s e r v i c e 。 服务获取x m l 格式的核酸数据 2 . 3 . 1获取x m l 格式核酸数据的技术流程 x m l c e n tr a l o f d d b j 提 供的g e t e n tr y 服 务 其中 有 一项 功能 让 客 户 端获 取 x m l 格式的 核酸数据, 其方法为g e t x m l d d b j e n t ry , 该方法在g e t e n t ry .w s d l 曰m大李城士李位恰次 参考文献 a r c h a r d f , v a y s s e i x g , b a r i l lo t e . x m l , b i o i n f o r m a t i c s a n d d a t a i n t e g r a t i o n . b io i n f o r m a t i c s r e v i e w 1 7 : 1 1 5 - 2 5 , 2 0 0 1 . b e n i n i a a , c o n l e y c e , s h d e e d r , s p u r w a y k , y a r m o s h u k m. i n t e g r a t i o n o f d i ff e r e n t d a t a b o d i e s f o r h u m a n it a r i a n d e c i s i o n s u p p o rt : a n e x a m p l e fr o m m i n e a c t i o n . d i s a s t e r s 2 7 : 2 8 8 - 3 0 4 , 2 0 0 3 . d e k , g u o y , l i j , k w a n a , y i p k , c h e u n g d , c h e u n g k . a w e b s e r v i c e s c h o r e o gr a p h y s c e n a r i o f o r i n t e r o p e r a t in g b i o i n f o r m a t i c s a p p l i c a t i o n s . b mc b i o i n f o r m a t i c s 1 0 : 2 5 , 2 0 0 4 _ f e n y o d . t h e b i o p o l y m e r ma r k u p l a n g u a g e . b i o i n f o r m a t i c s 1 5 : 3 3 9 - 4 0 , 1 9 9 9 . g e n e o n t o l o g y c o n s o rt i u m . g e n e o n t o l o g y : t o o l f o r t h e u n i f i c a t i o n o f b i o l o g y . n a t u r e g e n e t 2 5 : 2 5 - 9 , 2 0 0 0 g i l m o u r r . t a x o n o m i c m a r k u p la n g u a g e : a p p l y i n g x m l t o s y s t e m a t i c d a t a . b i o i n f o r m a t i c s 1 0 : 4 0 6 - 7 , 2 0 0 0 . g o e s m a n n a , l i n k e b , r u p p o , k r a u s e l , b a r t e l s d , d o n d r u p m, m c h a r d y a , w i l k e 人 , p u h l e r a , m e y e r f . b u i l d i n g a b r i d g e f o r t h e i n t e g r a t i o n o f h e t e r o g e n e o u s d a t a fr o m f u n c t i o n a l g e n o m i c s i n t o a p l a t f o r m f o r s y s t e m s b i o l o g y . j b i o t e c h n o l 1 9 : 1 5 7 - 6 7 , 2 0 0 3 . h a a s l m . d a t a i n t e gr a t i o n t h r o u g h d a t a b a s e f e d e r a t i o n . i b m s y s t e m s j o u rn a l 4 1 : 5 7 8 - 9 6 , 2 0 0 2 . k i t a n o h . s y s t e m s b i o l o g y : a b r i e f o v e r v i e w . s c i e n c e 2 9 5 : 1 6 6 2 - 4 , 2 0 0 2 . l a c r o i x z . b i o l o g i c a l d a t a i n t e gr a t i o n : wr a p p i n g d a t a a n d t o o l s , i e e e t r a n s i n f t e c h n o l b io m e d . 2 0 0 2 , 6 ( 2 ) : 1 2 3 - 8 . l i c h u n w , j e a n - j a c k民 a l a n r . x e mb l : d i s t r i b u t i n g e m b l d a ta i n x m l f o r m a t . b io i n f o r m a t i c s 2 0 0 2 : 1 1 4 7 - 8 , 2 0 0 2 . m h , a f , h ms , h b . t h e s y s t e m s b i o l o g y m a r k u p l a n g u a g e ( s b m l ) : a m e d iu m f o r r e p r e s e n t a t i o n a n d e x c h a n g e o f b i o c h e m i c a l n e t w o r k m o d e l s . b i o i n f o r m a t ic s 1 9 : 5 2 4 - 3 1 , 2 0 0 3 . s e a r l s , d b . d a t a i n t e gr a t i o n - - c o n n e c t i n g t h e d o t s . n a t b i o t e c h n o l . 2 0 0 3 a u g ;2 1 ( 8 ) : 8 4 4 - 5 . s e r g e a . o n v i e w s a n d x m l . a c m s i g mo d r e c o r d 2 8 : 3 0 - 8 , 1 9 9 9 s i e p e l a c , a .n .t o l o p k o . a n i n t e g r a t i o n p l a t f o r m f o r h e t e r o g e n e o u s b i o i n f o r m a t i c s c o m p o n e n t s . i b m s y s t e m s j o u rna l 4 0 : 5 7 0 - 9 1 , 2 0 0 1 . 一 3 o- 田呵大净城士李位论文 s t e in l . i n t e g r a t i n g b i o l o g i c a l d a t a b a s e s . n a t r e v g e n e t 4 : 3 3 7 - 4 5 , 2 0 0 3 . s t e i n l . c r e a t i n g a b i o i n f o r tn a t i c s n a t i o n . n a t u r e 4 1 7 : 1 1 9 - 2 0 , 2 0 0 3 . s u g a w a r a h , m i y a z a k i s . b io l o g i c a l s o a p s e r v e r s a n d w e b s e r v i c e s p r o v i d e d b y t h e p u b l i c s e q u e n c e d a t a b a n k . n u c l e i c a c i d s r e s 3 1 : 3 8 3 6 - 9 , 2 0 0 3 . -4大李城士李位伦次 第二部分l i n u x 平台下e s t序列分析系统的构建 摘要 利用抑制削减杂交和基因芯片技术获得一批黄饱原毛平革菌特异表达的 e s t 序列, 使用p h r a p , e m b o s s , b l a s t , g e n s c a n , m z e f 软件, 基于l i n u x 操作系统, 构建e s t序列分析系统, 完成了从e s t和基因组b l a s t 数据库的构 建,载体序列的去除, e s t序列的分类和组装, e s t序列在基因组上的定位, 外显子和内 含子的 识别以 及基因 预测。 并通过使 用p e r l 语言 结合b i o p e r l 模块 写的脚本程序使分析过程自动化, 从而可以快速地对大批e s t 序列进行分析, 为克隆相关基因及研究黄抱原毛平革菌功能基因组学提供有用的信息。 关键词黄抱原毛平革菌,e s t序列分析,生物信息学,基因预测, l i n u x 操作系统, b i o p e r l 1 引言 黄抱原 毛平 革菌( p h

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论