(应用数学专业论文)计算生物学中的两个问题的研究.pdf_第1页
(应用数学专业论文)计算生物学中的两个问题的研究.pdf_第2页
(应用数学专业论文)计算生物学中的两个问题的研究.pdf_第3页
(应用数学专业论文)计算生物学中的两个问题的研究.pdf_第4页
(应用数学专业论文)计算生物学中的两个问题的研究.pdf_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算生物学中的曲个问题的蚵究 摘要 本文主要内容包括以f 几方面: 在篼章我们介绍了一些分子,! ;f 三物中的基础知识。大多数后面要用到的术语和基 本概念都在这早做了简要的介绍。 在第_ 章我们考虑了一种d n a 序列的三维图形表示以及它们的数值特征。并且以 人类的一g l o b i n 基凶的第个外显子为例说明了这种方法。然后基于这种表示,根据 一g l o b i n 基因的第个外显子,分析了1 1 个物种的相似性。 在第三章我们用动态规划算法寻求m r n a 序列与蛋白质序列的最优局部对比和全 局对比。 关键词:d n a ,l l 矩阵,蛋白质,m r n a 三维图形表示 生竺生塑堂! 堕堕竺型望竺坐壅 a b s tt a c t t h em a i nc o n t e n t so f t h i sp a p e ra r el i s t e da sf o l l o w s : i n c h a p t e rl ,w ei n t r o d u c es o m eb a s i ck a a o w l e d g eo fm o l e c u l a rb i o l o g y m o s to ft h e t e r m sm i dc o n c e p t su s e di nt h i sp a p e ra r ee x p l a i n e d b r i e f l yh e r e i n c h a p t e r2 ,w ec o n s i d e ra3dg r a p h i c a lr e p r e s e n t a t i o no fd n a s e q u e n c e sa n dt h e i r n u m e r i c a lc h a r a c t e r i z a t i o n t h em e t h o di si l l u s t r a t e do nt h e c o d i n gs e q u e n c eo f t h ef i r s te x o n o f h u m a n 一g l o b i ng e n eb a s e do nt h i sr e p r e s e n t a t i o n ,w ea n a l y s i ss i m i l a r i t yo ft h ef i r s t e x o n o f ? 一g l o b i ng e n e so f 11 s p e c i e s i nc h a p t e r3 ,w eu t i l i z ed y n a m i c p r o g r a m m i n ga l g o r i t h mt os e a r c ht h el o c a la l i g n m e n t a n d g l o b a la l i g n m e n tb e t w e e nm r n a s e q u e n c e sa n dp r o t e i ns e q u e n c e s k e y w o r d s :d n as e q u e n c e ,p r o t e i n ,l lm a t r i x ,3 b g r a p h i c a lr e p r e s e n t a t i o n , m r n a 2 计算生物学中的两个问题的研究 0 前言 自从1 9 5 3 年d n a 结构被揭示出来,分子生物学取得了巨大的进展。随着我们对 生物大分子序列操纵能力的增强,科研工作已经产生并仍在产生大量的数据。处理来 自全世界不同实验室所产生的大量数据,并使其可用于进步的科研,产生了全新的 本质上具有多学科交叉性质的问题。生物科学家是这些数据的创造者和最终用户。然 而,由于数据的规模和复杂性。从创造到使用这些都需要多学科特别是数学和计算机 科学的参与。这种要求产生了个新的领域,通常叫做计算分子生物学。 广义的讲,计算分子生物学包括开发和使用数学与计算机技术,以帮助解决分子 生物学中的问题 2 2 。其主要研究内容包括:序列比较与数据库搜索、片断组装、种 系发生树的构建、基因组重排、分子结构预测等。 本文关注计算分予生物学中的两个问题。 1 序列的几何图形表示。一些研究者构造了多种几何图形来表示生物序列,从图 形表示的方面来研究序列的信息和结构。本文给出了一种d n a 序列的三维图形表示, 并据此给出了物种的相似性分析方法。 2 序列比对是计算分子生物学中的一个经典的问题。通常的序列比对是在同种生 物大分子序列之间进行的。为了判断m r n a 序列和蛋白序列之间的关系,我们给出了 m r n a 序列和蛋白序列的局部对比和全局对比算法。 4 计算生物学中的两个问题的研究 1 生物学基础知识 1 1d n a ,r n a 和蛋白质 d n a ( d e o x y r i b o n u c l e i ca c i d ) 是遗传特征的基础,它是由核苷酸小分子生成的聚 合物。核苷酸有四种,可以用四种基来区分他们。四个基分别是( a ) 腺嘌呤、( c ) 胞嘧啶、 ( g ) 鸟嘌呤和( t ) 胸腺嘧啶。d n a 分子可以看成是四个字母字符集j 年 a ,c ,g t ) 上的词。 d n a 分子是有方向性的,左端通常记为5 ,另一端记为3 。 d n a 蕴涵的复制机制的关键特征是碱基互补。既a 与t 配对,g 与c 配对。这 种配对是由于氢键作用。原理是d n a 单个链( 按5 到3 次序) 5 a c t g a c t g c3 与相反方向写的相补的链配对。 5 ac tgactgc liiiiii i l 3 tgactgacg d n a 分子是双链结构。两条链缠绕在一起形成双螺旋,此著名的双螺旋( d o u b l e h e l i x ) 结构是由j a m e sw a t s o n 和f r a n c i sc r i c k 在1 9 5 3 年发现的。这种碱基互补配对的 机制使得d n a 在细胞中得以复制。 r n a ( r i b o n u c l e i ca c i d l 分子与d n a 分子很相似但在组成和结构上也有一些重要 的不同。在r n a 分子中,核糖取代了d n a 分子中的2 脱氧核糖。另外,胸腺嘧啶t 被尿嘧啶u 取代了,u 与t 一样能够与a 配对。 r n a 分子并不形成双螺旋。有时我们可以看到r n a d n a 杂交双螺旋。此外,r n a 能够通过碱基互补与同一分子的其它部分结合。r n a 的三维结构远较d n a 复杂。d n a 计算生物学中的两个问题的研究 与r n a 的另一个不同是,d n a 本质上仅有一个功能,即编码信息,而在细胞中有不同 的r n a ,各自行使不同的功能。 生物体的大部分物质是各种各样的蛋白质,他们既是工作部件,又是组成原料。 蛋白质包括很多种,结构蛋白是组织的构成单元,酶是化学反应的催化剂。蛋白质的 其他功能还包括氧气输送和抗体防御等。 这种非常重要的大分子是由氨基酸( a m i n oa c i d ) 的分子序列组成的。自然界中之 发现了2 0 种不同的氨基酸,表】1 列出了这些氨基酸,这是蛋白质中最常见的2 0 种, 另外还有几种非标准的氨基酸。 表1 1 蛋白质中发现的2 0 中常见氨基酸 t a b l e1 12 0a m i n oa c i d s 6 计算生物学中的两个问题的研究 在蛋白质中,氨基酸通过肽键相连。因此,蛋白质是多肽链。肽键使得每个蛋白 质都有一个骨架( b a c k b o n e ) ,在骨架的一端是一个氨基,另一端是一个羧基。我们因 此可以区别多肽链的两端并给它定一个方向,习惯上多肽始于氨基( n 端) ,止于羧基 ( c 端) 。 蛋白质并不仅仅是氨基酸残基的线性序列,这种序列称为级结构( p r i m a r y s t r u c t u r e ) 。蛋白质实际上在三维空间中折叠。形成二级( s e c o n d a r y ) 、三级( t e r t i a r y ) 和姻级( q u a t e r n a r y ) 结构。因为蛋白质的三维结构非常复杂,而且,蛋白质的三维结 构与其功能相关,因此确定蛋白质的折叠或三维结构是分子生物学的一个重要领域。 1 2 分子遗传学机制 d n a 分子的重要性在于,机体中合成r n a 和蛋白质的信息编码于d n a 分子中。 基于此,d n a 有时被称为“生命蓝图”。每一个细胞都有几个非常长的d n a 分子,每 一个这样的分子称为染色体( c h r o m o s o m e ) 。d n a 中仅有一部分连续的片段编码构建 蛋白质的信息,而其它部分并不编码蛋白质信息。每一种不同的蛋白质仅对应一段d n a 序列,该段序列称为基因( g e n e ) 。 如前所述,蛋白质是氨基酸链。因此,确定蛋白质仅需确定其所含的每一个氨基 酸,这正是基因所要做的,他用三联核昔酸编码每一个氨基酸。每个三联核营酸称为 密码子( c o d o n ) 。三联核苷酸与氨基酸之间的对应关系称为遗传密码( g e n e t i c c o d e ) , 计算生物学中的两个问题的研究 见表1 2 。 表1 2 氨基酸的遗传密码 t a b l e1 ,2g e n e t i cc o d e fsyc u苯氨酸丝氯俄酷氩酸半膀氨酸 u itns c 异亮氰酸苏氨酸天冬酰胺丝氯酸 8 汁算生物学中的两个问题的珀f 究 表1 2 中的三联核甘酸是用r n a 碱基而非d n a 碱基表示,因为r n a 分子提供了 d n a 和蛋白质之间的关联。另外,有三个密码子并不编码任何氨基酸而是用于表示基 因的终止,这三个特殊的终止密码在表中用s t o p 表示。 下面我们介绍d n a 信息是如何指导蛋白质合成的。一个识别基因或基因簇起始的 机制是启动子( p r o m o t e r ) 。启动子是基因前面的一段d n a 序列,密码子a u g 则是基 因丌始的信号。识别出基因的起始点后,基因到r n a 的拷贝就开始了,合成的r n a 称为信使r n a ( m r n a ) ,其序列与d n a 的一条链相同,但是u 代替了t ,该过程称 为转泵( t r a n s c r i p t i o n ) 。 因r n a 是单链而d n a 是双链的,m r n a 在序列上与条d n a 链相同( 只不过 是u 取代了t ) ,与另一条链互补。d n a 中,与m r n a 序列一致的链称为反义链( a n t i s e n s e s t r a n d ) 或编码链( c o d i n gs t r a n d ) ,而另一条链称为有意义链( s e d s e s t r a n d ) 、反密码链 ( a n t i c o d i n gs t r a n d ) 或模板链( t e m p l a t es t r a n d ) 。实际上被转录的是模板链,因为m r n a 是由与该链互补的核糖核酸组成的,合成过程是从5 端向3 端,因此模板链是从3 端 计算生物学中的两个问题的硼f 究 向5 端阅读的。 上述的转录在原核生物( p r o k a r y o t e ) 中是正确的。在这些生物中,由于缺乏核膜, d n a 是自由悬浮于细胞中的。但在真核生物( e u k a r y o t e ) 的细胞中有细胞核,d n a 位 于细胞核中,其转录模式更为复杂。许多真核细胞基因具有不同的组成部分,即内含 子( i n t r o n ) 和外显子( e x o l 1 ) 。转录后内含子必须从m r n a 中切除,这意味着内含子 不参与蛋白质的合成。在内含子被剪切后,离开细胞核的剪短的m r n a 仅含有外显子 与起始和终止的调控序列。 因为有内含子和外显子,我们用不同的名字命名染色体上的全基因和剪切后仅含 外显子的基因前者称为基因组d n a ( g e n o m i cd n a ) ,后者称互补d n a ( c o m p l e m e n t a r y d n a ) 或e d n a 。通过细胞核外的m r n a ,然后使用一个称为反转录( r e v e r s e t r a n s c r i p t i o n ) 的过程以m r n a 为模板合成e d n a 。这样,人们可以不经染色体而获得 e d n a 。在某些生物的中也存在反转录现象,例如,反病毒通过反转录的机制能将它们 的r n a 基因组复制成d n a 。 现在让我们重新回到m r n a 和蛋白质合成。在这个过程中另外两种r n a 分子起 到重要的作用。蛋白质的合成是在细胞内的核糖体中进行的。核糖体由蛋白质和被称 为核糖体r n a ( r i b o s o m a lr n a ,r r n a ) 的大分子组成。遗传信息从r n a 传到蛋白质 的过程称为翻译( t r a n l m i o n ) 。 实际上,遗传密码的翻译是由t r n a 实现的,它连接密码子和其所编码的氨基酸。 当m r n a 穿过核糖体内部时,t r n a 匹配当前的密码子,即当前位于核糖体内部的 m r n a 密码子,与它结合,并带进对应的氨基酸( 细胞中总是悬浮着大量的氨基酸) 。 这些分子此时所处的空间位置使他们可以完成下列操作,即随着t r n a 与密码予结合, 新结合的氨基酸紧靠先前已形成的氨基酸链,一个合适的酶则催化该氨基酸加入肽链, 然后释放t r n a 。蛋白质按这种一个氨基酸按一个氨基酸的方式合成起来。当出现终止 密码子时,没有t r n a 与之对应,合成便终止,m r n a 被释放,并被降解成核糖核苷 酸。 总结上面描述的过程,细胞内遗传信息的流动通常用中心法则( c e n t r a ld o g m a ) 来 说明。 1 0 计算生物学中的两个问题的研究 复制 1 3 无用d n a 和阅读框 图1 1 分子生物学的中心法则 f i g u r e l - 1c e n t r a l d o g m a 基因作为染色体上的连续区域,并没有占据整个染色体。每一个基因,或一组相 关基因,被调节区域包围。调节区域控制基因的转录和其他有关过程。那些未知功能 的基因间的区域被称为无用d n a o u n kd n a ) ,因为它们的出现看起来并无特定的理由。 而且,这个区域可积累许多碱基突变,因为位于这些部位的不影响基因和调控序列的 突变常常不是致命性的,因而能够传给后代。然而,最近的研究显示,无用d n a 含有 比过去所认为的更多的价值。无用d n a 的量随物种而变化。原核生物几乎没有,其染 色体基本上为基因所覆盖。相比之下,真核生物则有大量的无用d n a ,例如人体有大约 9 0 的染色体d n a 是无用d n a 。 阅读框( r e a d i n gf r a m e ) 对理解转录过程非常重要。阅读框是指把d n a 或r n a 序列 划分成密码子的三种可能方式之一。需要注意的是三种读框分别起始自给定序列的1 、 2 、3 位最。如果我们考虑从位置4 开始,获得的密码子是起自碱基l 所获得的读框的 子集,也就是起自不同位置的同一读框。通常,如果分别起始自i 和_ ,j i 是3 的倍 数,那么实际上我们使用的是同一读框。 有时我们讨论序列中的6 个而不是3 个不同的读框,在这种情况下,我们考虑的 计算生物学中的两个问题的 p f 究 是两条d n a 序列的情况。我们在一条链上获得3 个读框,在另一条链上有另外3 个, 总共有6 个读框。当我们获得新测序的d n a 并将它与蛋白质数据库相比较时经常要做 这样的工作。我们需将d n a 序列翻译成蛋白质序列,但共有6 种方式,每一种具有不 同的读框。在序列的末端丢失1 或2 个碱基并不重要,这些序列足够长,即便缺少几 个氨基酸也能产生有意义的序列比对。 d n a 序列中的一个可读框( o p e nr e a d i n gf r a m e ,o r f ) 是指该序列的一个连续段, 由起始密码子开始,含有整数个的密码子( 长度是3 的倍数) ,且无终止密码子。起始 密码子前面的调控序列也用于分析o r f 。 计算生物学中的两个衄题的埘究 2d n a 序列的三维图形表示 不少研究者提出了各种各样的的生物序列的表示方法 1 0 ,2 0 ,2 1 】,他们的基本思 想是:先将生物序列转化为图形表示,然后根据图形表示构造矩阵,利用与矩阵相关 的不变量( 例如特征值、行和、迹、元素平均值,等) 来分析生物序列的相似性。 这一章,我们考虑一种d n a 序列的三维图形表示以及他们的数值特征。这种表示 避免了某些三维和二维表示由于表示d n a 的曲线的交叉和重叠而导致的信息的丢失。 并以人类1 3 一g l o b i i q 基因为例说明这一方法。 2 1 导言 d n a 序列的图形表示的主要优点在于:它允许对数据进行形象的观察f 1 3 ,1 4 , 1 6 ,1 7 1 。这有助于发现相似的d n a 序列之间的主要区别【1 5 ,1 8 。n a n d y 1 2 提出一 种图形表示:分别用坐标系的四个方向( - x ) ,( + x ) ,( 一y ) 和( + y ) 来表示af 腺嘌呤) ,g ( 鸟 嘌呤) ,t ( 胸腺嘧啶) ,c ( 胞嘧啶) 。这种d n a 序列的表示有两方面的问题:( 1 ) 由 于所得到的曲线的自身的重叠与交叉而导致的图形信息的丢失;( 2 对表示四个碱基 的方向的选择是任意的。r a n d i c 1 l 】等人提出了一种三维图形表示,但是所得到的空间 曲线仍然有交叉或重叠的情况。后来,r a n d i c 等人提出了一种新的二维图形表示避免 了n a n d y 的方法的弊端。h a m o r i 1 9 等人提出了h c u r v e ,这是d n a 序列的一种三维图 形表示。四个基由四个方向( n w n e ,s e ,和s w ) 柬分别表示。构造h - c h i v e 基本的规 则是:在相应的方向移动一个单位,同时在z 轴方向移动一个单位。h - c u r v e 可以唯一 的表示一个d n a 序列,不过他要求d n a 序列的二维投影或三维立体投影。 计算生物学中的两个问题的研究 2 2 构造三维图形表示 我们做下面这样的一种对应 ( 一1 ,0 ,0 ) 斗a ( 1 ,0 ,o ) 斗g ( 0 ,一1 ,0 ) _ t ( 0 ,1 ,0 ) _ c 也就是浼,我们把a ( a d e n i n e ) ,g ( g u a n i n e ) ,t ( t h y m i n e ) 和c ( c y t o s i n e ) 分别置于三维坐 标系中的x y 平面的四个坐标轴的单位点上。同时,根据序列,曲线向z 轴的正向伸展。 具体地说,设置= 毛,女:,k 是任意一段d n a 序列,我们定义映射如下: 垂( 盔) = ( 一1 ,o ,i ) ( 1 ,o ,j ) ( o ,- 1 ,i ) ( 0 , 1 ,f ) 如果k = a , 如果鼻= g , 如果k = t , 如果k = c 例如d n a序列 a t g g t g c a c c对应的点集的坐标为 ( 一1 ,0 ,1 ) ,( o ,一1 ,2 ) ,( 1 ,o ,3 ) ,( 1 ,0 ,4 ) ,( o ,一l ,5 ) ,( 1 ,0 ,6 ) ,( 0 ,l ,7 ) ,( 1 ,o ,8 ) ,( o ,1 ,9 ) ,( 0 ,l ,1 0 ) 。序列的第一 个碱基为a ,它对应的坐标是( 一1 ,0 ,1 ) 。然后,从这一点出发移动到第二个碱基t 所对应 的坐标( o ,一1 ,2 ) ,再由这一点移动到第三个碱基g 的坐标( 1 ,0 ,3 ) 。这样,将这些点依次连 接起来就得到d n a 序列的三维图形表示。在图2 1 中我们给出了序列a t g g t g c a c c 的三维图形表示。 1 4 汁算生物学中的阿个问题的司f 究 图2 1 序列a t g g t g c a c c 的三维图形表示,每个点表示组成序列的碱基 f i g u r e2 1 3d i m e n s i o n a lg r a p h i c a lr e p r e s e n t a t i o no f t h es e q u e n c ea t g g t g c a c c 2 3d n a 序列的数值特征 用上面的方法得到了d n a 序列以后,我们可以利用d n a 序列的图形表示构造一 个矩阵。一旦我们用一个矩阵来表示一段d n a 序列,我们就可以用一些矩阵不变量来 作为该序列的描述符( d e s c r i p t o r ) 。 我们用d n a 序列构造距离矩阵e ,m m 矩阵和l l 矩阵。他们的具体定义如下: 距离矩阵e :e 中的元素e 。即为曲线中的点i 与点j 的欧氏距离。 m m 矩阵:矩阵元素m ,2 一卅 l l 矩阵:矩阵元素,= i 乒一( 即睦线上第i 点与第j 点之间的距离除以两点之间 己e k ( k 棚 的距离总和) 计算生物学中的两个问题的研究 表2 1 ,2 2 ,2 3 分别给出了同一段d n a 序列的上述三种矩阵。 表2 1 序列a t g g t g c a c c 的距离矩阵的上三角 t a b l e2 1t h eu p p e rt r i a n g l e so f t h eem a t r i c e so f t h es e q u e n c ea t g g t g c a c c 表2 2 序列a t g g t g c a c c 的m m 矩阵的上三角 t a b l e2 2t h eu p p e r t r i a n g l e so f t h em mm a t r i c e so f t h es e q u e n c ea t g g t g c a c c 6 计箅生物学中的两个问题的础究 表2 3 序列a t g g t g c a c c 的l l 矩阵的上三角 t a b l e2 3 t h eu p p e r t r i a n g l e s o f t h e l l m a t r i c e so f t h es e q u e n c e a t g g t g c a c c b a s eatggtgca cc a010 8 1 6 50 8 0 7 70 6 8 4 70 6 7 9 20 6 3 8 l 0 6 1 4 5o 6 1 90 6 4 5 t0l0 8 9 6 60 6 7 20 6 8 4 70 6 7 9 20 6 3 810 6 3 90 6 6 5 4 g0l 0 8 9 6 60 6 7 20 6 8 4 70 6 7 9 20 6 3 8 l0 6 6 9 9 g0l0 5 7 7 40 6 3 8 30 6 4 5 5 0 6 0 6 3 8 l t010 8 1 6 50 6 3 8 30 6 4 5 50 6 7 9 2 g010 8 1 6 50 6 3 8 30 6 8 4 7 c0l 0 5 7 7 40 6 7 2 a010 8 9 6 6 c 0 1 c 0 在图2 1 种我们分别把a ,g t , c 置于x ,+ x ,一y 和+ y ,如果我们把a ,t g c 置于- x , + x ,y 和十y 我们也可以得到条表示d n a 序列的曲线。当然它们基于对坐标系中 的x y 平面的四个半轴的不同的标号顺序。 昆然a ,g ,t 和c 的不同的标号顺序有2 4 种,但这并不意味着有2 4 个矩 阵表示。在图2 2 中我们分别胃a ,g ,t ,c 于( 1 ,0 ) ,( o ,- 1 ) ,( 1 ,o ) ,( o ,1 ) ,若顺时针旋 转9 0 度,将顺序a g t c 变成顺序g t c a ,则曲线并不改变,因为他们之间的距离 7 计算生物学中的两个问题的研究 并不改变,因此a g t c ,g t c a ,c a g t ,t c a g 对应相同的矩阵表示:再有我们 交换a 和t 或g 和c ( 见图5 2 ) ,曲线上各点之问的距离也不改变,也就是说形 式a c t g 与形式a g t c 或形式t g a c 和形式a g t c 具有同样的矩阵表示,因此我 们可得到a g t c ,c a g t ,t c a g ,g t c a ,a c t g ,g a c t ,t g a c ,c t g a 具有同 样的矩阵表示,故每条d n a 序列最多有3 个矩阵表示。另一方面,从图2 3 可以 看出,我们改变a g t c 的顺序为a t c g 和a t g c ,显然a 和t 之间的距离改变, 且将顺序a g c t 变为a t c g 会改变a 和g 之间的距离,因此形式a g t c ,a t c g 和a t g c 具有不同的矩阵表示,因此每条d n a 至少有3 个矩阵表示,综上所述, 我们可以断定每条d n a 序列有且只有3 个矩阵表示。 - _ 图2 2旋转与对换 f i g u r e2 2 r o t a t i o na n de x c h a n g e 书牛平 图2 3 三种不同的矩阵表示对应的顺序 f i g u r e 2 3t h r e ea r r a n g e m e n to f a ,t ,qc 计算生物学中的两个问题的研究 d n a 的碱基可以有三种分类:嘌呤( a ,g ) 嘧啶( c ,t ) , 氨基( a ,c ) 酮基( g t ) 弱氨键( a ,t ) 强氢键( g c ) 从图2 3 可以看出d n a 序列的三种不同的表示,分别对应着三种不同的分类。 我们选择m m 矩阵和l l 矩阵的最大特征值作为d n a 序列的描述符,把它们作 为可能有助于进行d n a 序列比较的数值参数。 2 4d n a 序列的相似性分析 在这一节中,我们将利用矩阵的最大特征值来进行相似性的对比。表2 4 列出了 1 1 种物种的b g l o b i n 基因的第一个外显子的序列。我们将以此为例来说明这种方法。 表2 4 1 1 种物种的b g l o b i n 基因的第一个外显予序列 t a b l e2 4t h ec o d i n gs e q u e n c e so ft h ef i r s te x o ro f0 一g l o b i ng e n e s o f11d i f f e r e n ts p e c i e s s p e c i e s c o d i n gs e q u e n c e h u m a na t g g t g c a c c t g a c t c c t g a g g a g a a g l 、c t g c c g t t a c t g c c c t g t g g g g c a a g g t g a a c g t g g a t t a a g t t g g t g g t g a g g c c c t g g g c a g g o a ta t g c t g a c t ( ;c t g a g g a g a a g g c t g c c g t c a c c g g c t t c t g g g g c a a g g t g a a a g t o p o s s u m g a l l u s l e m m u r g g a t g a a g t t g g t g c t g a g g c c c t g g g c a g a t g g t g c a c t t g a c t t c t g a ( ;g a g 从g a a c t g c a t c a c t a c c a t c t g g t c t a a g g t g c a g g t t g a c c a g a c t g g t g ( ;t g a g g c c c t t g g c a g a t g g t g c a c i 、g ( 遗c t g c t g a g g a g a a g c a g c t c a t c a c c g g c c t c t g g g g c a a g g t c a a t g t g g c c g a a t g t g ( ;g g c c g a a g c c c t g g c c a g a t g a c t t t g c t g a g t g c t g a g g a g a a t g c t c a t g t c a c c t c t c t g t g g g g c a a g g t g g a t g t a g a g a a a g t t g g t g g c g a g g c c t t g g g c a g 9 计算生物学中的掰个问题的瑚净t m o u s e r a b b i t r a t g o r i l l a b o y i t i e c h i m p a n z e e a t g g t t g c a c c t g a c t g a t g c t ( ;a g a a g t c t g c t g t c t c t t g c c t g t g g g c a a a g g t g a a c c c c g a t g a a g t t g g t g g t g a g g c c c t g g g c a g g a t g g t g c a t c t g t c c a g t g a g g a g a a g l 、c t g c g g t c a c t g c c c t g t g g g g c a a g g t g a a t g t g g a a g a a g t t g g t g g t g a g g c c c t g g g c a t g g t g c a c c t a a c t g a t g c t g a g a a g ( ;c t a cr i 、g t t a g t g g c c t g t g g g g a a a g g t g a a c c c t g a 3 、a a t g t t g g c g c t g a g g c c c t g g g c a g a t g g t g c a c c t g a c t c c t g a g g a g a a g t c t g c c g t t a c t g c c c t g t g g g g c a a g g t g a a c g t g g a t g a a g t t g g t g g t g a g g c c c t g g g c a g g a t g c t ( ;a c t g c t g a g g a g a a g g c t g c c g t c a c c g c c t t t t g g g g c a a g g t g a a a g t g g a q 、g a a g t t g g t g g t g a g g c c c t g g g c a g a t g g t g c a c c t g a c t c c t g a g g a g a a g t c t g c c g t t a c t g c c c t g t g g g g c a a g g t g a a c g q 、g g a t g a a g t t g g t g g t g a g g c c c t g g g c a g g t t g g t a t c a a g g 前文提到,对于任意一段d n a 序列,我们可以得到三个不同的矩阵表示。例如序 列d n a 序列a t g g t g c a c c 。图2 1 是基于顺序a t g c 的曲线。下面的图2 2 和图2 3 分别是基于顺序a t c g 和顺序a g t c 的曲线。 对于一段序列的每一种矩阵表示,都可以得到它的最大特征值。这样,给定一段 序列,我们可咀得到基于三种不同的矩阵表示的三个特征值。表2 5 给出了1 1 种物种 的0 一g l o b i n 基因的第一个外显子序列的l f l l 矩阵的最大特征值。 2 0 计算生物学中的两个问题的研究 图2 2 序列a t g g t g c a c c 的曲线( 基于顺序a t c g ) f i g u r e2 2t h ec u r v eo ft h es e q u e n c ea t g g t g c a c c ( b a s eo nt h eo r d e ro fa t g c ) 图2 3 序列a t g g t g c a c c 的曲线( 基于顺序a g t c ) f i g u r e2 ,2t h ec u r v eo ft h es e q u e n c ea t g g t g c a c c ( b a s eo nt h eo r d e ro fa g t c ) 2 计算生物学中的两个问题的研究 表2 511 种物种的b g l o b i n 基因的第一一个外显子序列的l l 矩阵的最大特征值 t a b l e2 5t h e1e a d i n ge i g e n v a l u eo ft h ef i r s te x e r to f0g l o b i ng e n e s o fl1d if f e r e n ts p e c i e s a i g c 1 4 i 5 1 2 1 71 2 4 l1 47 21 26 51 4 6 91 25 8i 5 1 21 2 9 91 39 21 4 3 9 a 1 1 c g 1 41 3 1 2 2 5 1 3 3 61 4 ,7 21 2 5 61 44 41 2 4 61 5 0 31 2 9 61 3 9 01 4 3 8 a g t c1 4 5 31 24 21 2 5 71 5 3 21 28 0 1 4 9 51 2 8 01 5 4 2i 3 1 41 4 3 i1 4 7 7 我们可以把每个物种所对应的三个晟大特征值看成是一个三维坐标系中的一个向 量的三个坐标。通过计算向量之间的央角,或向量终点之间的距离来比较物种之间的 相似性。下面两表列出了各物种所对应的向量的终点之间的距离( 表2 6 ) 或向量之间 的夹角( 表2 7 ) 。 表2 6i i 个物种的b g l o b i n 基因的第一个外显子的相似性表( 向量终点之间的距 t a b l e2 6t h es i m i l a r i t y d i s s i m i l a r i t ym a t r i xf o r1 1s p e c i e s ( d is t a n c e b e t w e e nv e c t o r s ) 物种h u m a n g o u tg a l l u s o p o s s u ml e m u r m o u s er a b b i tr a tb o v i n eg o r ic h i m p 1 1 8anzee _ h _ w 一- _ _ - 一 h u i a034 5 6 73 ,1 6 6 9 1 1 3 5 72 7 8 1 307 4 8 l2 8 8 i l 1 5 9 9 l2 1 5 9 503 9 5 40 4 1 3 3 g o a t 6 a l l 003 0 5 9 4 5 8 3 806 8 7 04 1 9 1 70 5 9 4 65 0 4 7 8 13 0 4 23 0 6 2 738 6 9 4 03 7 3 6 40 3 8 7 0 3 8 9 8 202 9 7 64 ,7 5 6 6 1 o l i l2 7 7 3 435 7 9 6 o p u s 039 1 0 3 0 4 6 1 24 ,0 0 7 70 5 2 0 0 32 9 0 515 2 2 80 7 2 7 6 计算生物学中的两个问题的训了 表2 71 1 个物种的bg l o b i n 基因的第一个外显子的相似性表( 向量之间的央角) t a b l e2 7t h es i m i l a r i t y d i s s i m i l a r i t ym a t r i xf o r1 1s p e c i e s ( a n g l eo fv e c t o r s ) 物种h o m a ng o a to a l l l i so p o s s u l e m u l m o u s er a b b i tr a tb o v i n eg o r i l l c h i m p a l u m a0 g o a t g a l l o p o s l e m u m o u s r a b b r a t b o y i g o r i 0 0 0 5 50 0 0 5 8 00 0 6 00 0 0 6 00 0 0 6 40 ,0 0 4 30 0 0 2 70 0 0 5 8 o 0 0 0 80 0 0 0 4 0 0 0 4 50o l i 00 0 0 5 500 1 0 30 0 0 7 00 0 0 5 7 0 0 0 4 30 0 0 6 200 0 5 2 00 0 2 0 2 0 0 0 1 10 0 0 7 200 0 4 000 0 3 600 0 1 40 0 0 6 60 0 0 5 5 0 o o l l 900 0 9 500 0 9 30 0 0 8 600 1 2 90 ,0 0 5 30 0 0 6 4 0 0 0 0 6 4 00 0 3 40 0 0 3 40 0 0 2 20 0 0 6 80 0 0 5 7 00 0 0 3 4o0 0 4 70 0 0 8 600 0 6 70 0 0 6 5 o00 0 1 600 0 5 400 0 4 800 0 4 2 o00 0 4 90 0 0 3 70 0 0 2 8 00 0 0 7 60 0 0 6 5 0 0 0 0 1 2 c h i m 0 从表2 6 与表2 7 中的数据可以看出o a l l u s 与其他物种的相似性最小,这很显然 且与事实是相符的。因为g a l l u s 是非哺乳动物,而其他1 0 种都是哺乳动物。而h u m a n 计弊:生物学中的两个问题的研究 g o r i 儿a 与c h i m p a n z e e 这三个物种具有极高的相似性,这也与实际情况相符的很好, 他们都是灵长类生物。虽然从表中得到的结果基本上与实际相符,不过也有个别不理 想的结果。分析我们的比较方法,造成这种现象的原因主要有以下两方面:( 1 ) 我们从 距离矩阵中抽取序列不变量可能丢失信息,且提取的信息也可能不足以判断这些物种 的相似性。( 2 ) 在对这1 1 个物种比较时,我们用的仅仅是它们的一个基因的一段( g l o b i n 基因的第一个外显子) 。然而,每一个物种的基因组序列是非常的长,并且都含有非常 多的基因。所以物种的遗传信息是包含在所有得基因里面而不可能包含在某一部分旱 面。这就是说我们比较的信息可能不足以判定这些物种的相似性。所以利用这种比较, 我们只能得到这些物种的某些相似性而不是全部。另外,比较表2 6 和表2 7 ,我们可 以发现向量之间的夹角是相似性的较好的度量。 计算生物学中的两个问题的研究 3m r n a 序列与蛋白序歹u 的对比 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性。早期 的序列比对是全局的序列比对,但由于蛋白质具有模块性质,可能由于外显子的交换 而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两 条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高 则说明两个残基越相似。因此,序列比对问题变成在矩阵罩寻找最佳对比路径。具体 地讲,对两个d n a 序列w 和w ,求出它们的扩张序列,使得它们的扩张序列的罚分 d ( w ,w 2 ) 为最小。序列比对算法是一个动态规划算法,最早是n e e d l e m a n - w u n s c h 动 态规划算法,在此基础上又改良产生了s m i t h 。w a t e r m a n 算法和s i m 算法。自后又有许 多算法被提出,它们的要点是下列递归公式: d ( i ,j ) = m i n d ( i 一1 ,) + d ( a ,一) ,d ( i l ,一1 ) ,d ( i ,一1 ) + d ( 一,b ,) 这里d ( i ,) 表示两个序列的前面长为i 的字首与前面长为j 的字首之间的最小距 离。 利用上面的递归公式,我们能用一个矩阵表逐一求出两个扩张序列的所有字符的 最小距离。 序列的比较这个问题从一开始被提出就得到了研究者们的关注

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论