（应用数学专业论文）生物序列的图形表示及系统发生分析.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-06 格式：PDF 页数：45 大小：1020.88KB 积分：18 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大连理工大学硕士学位论文摘要本世纪是生命科学发展的一个关键时期，生物信息学是2 1 世纪自然科学的核心领域之一。它的研究内容是非常丰富的，目前在某些方面的研究已经取得了重要进展，但是至今还有许多没有得到解决的问题。本文主要涉及生物序列的图形表示以及系统发生分析。生物序列的图形表示是生物信息学的一个重要课题。图形表示的方法是多种多样的，本文只介绍了几种比较典型的生物序列的二维、三维图形表示。系统发生分析的传统用途是揭示物种之间的进化关系，新用途是分析基因家族以及追溯特定基因的进化历史，也可以对了解基因组进化做出贡献。本文介绍了系统发生分析的有关知识，并提出了构造进化树的一种新方法。本文的主要内容包括以下几个方面：在第一章，介绍了生物信息学的基础知识。本文后面要用到的术语大多数在这里都有简单的论述。在第二章，介绍了几种比较典型的生物序列二维、三维图形表示，并对于图形做出了一些优点和缺点的评述。在第三章在第四章，介绍了系统发生树的有关知识，并且利用2 0 个物种的线粒体的全基因组序列，提出了一个构造进化树的新方法，并对其进行了比较说明。论文的总结。关键词：生物信息学；生物序列；图形表示；系统发生分析生物序列的图形表示及进化分析 t h eg r a p h i c a lr e p r e s e n t a t i o no fd n as e q u e n c e sa n d p h y l o g e n e t i ca n a l y s e s a b s t r a c t t 1 1 i sc e n t u r yi s 也ek e yp 甜o do fl i f es c i e n c e s ，a n db i o i n f o m 撕c si so n eo fc o r e d o m a i n so fn a _ t u r es c i e n c e si nt h i sc e n t u r y t h ec o n t e to fb i o m f o r n l a t i c si se i l r i 幽e n t ，a t 出ep r e s e n tt i m e ，s o m ef i e l d sh a v eg o tg r e a tp r o 笋e s s ，b u tm 趾yp r o b l e m sr 锄a i nt ob e s o l v e d t m st h e s i sc o n c e m sm em e m o d so f 寥a p h i c a ir e l m s e n t a t i o no fb i o s e q u e n c e sa l l d p _ h y l o g e n e t i ca n a l y s e s t h e 擎a p k c a lr e p r e s e n t a t i o no f b i o s e q u e n c e si sa ni m p o r t a n “躲k 证 b i o i i l f 0 i i n a t i c s t h e r c8 r em a i l yh n d so fm e m o d si nf a p h j c a lr e p r e s e n t a t i o n h e r ew e0 1 1 l y i 曲d u c es o m et y p i c a 王2 d ，3 dg r a p l l i c a lr e p r e s e n t a t i o n s t h et r a d i t 至o n a l p u r p o s e o f p h y l o g e n e t i c 孤a l y s e s i s t o i n d i c a t e t l l ee v o l v e m e n to f s p e c i e s ，a n d m e n e w u s e o f i t i s t oc a s t b a c kt h ee v 0 1 v e m e n to f l e g i v e ng c n e a n dp h y l o g e n e t i c 孤a l y s e sc a i l a l s om a k e c o 础b u t i o n so nu n d e r s t a n d i r 培t 1 1 ee v o l v e m e n to fg e n o m e t h ef o l l o w i n gw o r ki st o i m m d u c et h ek n o w l e d g eo fp h y l o g e n e t i ca n a l y s e sa n dp r o p o s ean e wm e t h o dt oc o n s t m c t p h y l o g e n e t i c 蜘e e t h e nw ed r a wan e wp h y l 0 誉m e t i ct r e ea n dm 础诧s o m ec o m p a r i s o na n d a 1 1 a l y s i s t h em a i nc o m e m so ft h i sm e s i sa r el i 啦da sf o l l o w s ： i nc h a p t e r1 ，w e 咖d u c es o m eb a s i ck n o w l e d g eo f b i o i n f o 肋a t i c s m o s to f t t l et e n n s 蛐dc o n c e p t su s e di nt l l i st l l e s i sa r ee x p l a i n e db r i e n yh e r e 1 1 1c h a p t e r2 ，w ei n 廿o d u c es o m e2 d ，3 d 口a p 椅c a ir e p r e s e n t a t i o n so f b i o s e q u e n c e sa n d m a k es o m ec o m m e n t so nt h e s em c 也o d s i nc h a p 恤3 ，w ei n 廿o d u c et h ek i 删l e d g eo fp h y l o g e n e t i c 跚础y s e sa r dp r o p o s ean e w m e t h o dt oc o n s m j c tp h y l o g e n e t i c 由r e e t h e n ，b 船e do nt h e2 0m 仍n as e q u e n c e s ，w ed r a wa n e wp h y l o g e n e d c 仃e ea n dm a k es o m ec o m p a r i s o n 趾da n a l y s i s h lc j i l a p t e r4 ，w em a k es o m ec o n c l u d i n gr e m a r k s k e yw o r d s ：b i o i n f o r m a t i c s ；b i o - s e q u 蛐c e ；g r a p h i c a ln p r e s 叫t a t i o n ；p h y l o g e “i c s 独创性说明作者郑重声明：本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。作者签名：庭篮日期：星q 翌：( ：丝大连理工大学硕士研究生学位论文大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”，同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版，允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名导师签名三章年月日大连理工大学硕士学位论文引言生物信息学是一门研究生物和生物相关系统中信息内容和信息流向的综合性学科。通过对生物信息的计算处理，人们能从众多分散的生物学观测数据中，获得对生命运行机制的详细而系统的理解。生物信息学的发展反映了科学知识的深化和研究方式的转变，在短短几年内已影响了生物、医学、农业等众多领域。如何利用生物信息库和生物计算手段，是多种学科研究人员需要掌握的一种新的基本技术。 2 1 世纪是生命科学发展的一个关键时期，随着许多模式生物的基因组序列和基因目录的完成以及人类基因组计划进入了一个高速收获的时期，基因和许多分子的数据呈指数级上升，而分子水平和整个生物系统的信息水平之间却出现了一道鸿沟；在现代生命科学迅速发展的过程中，跨学科，跨领域的新思想，新方法不断涌现，利用信息技术剖析生物现象的本质已成为生命科学研究工作者们关注的焦点。生命科学与数学的紧密结合关系到生命科学研究的定量化与精确化的问题，这也正是目前所要发展的，也是数学理论和生命科学相结合的重要契机。生命科学的发展已不是单纯的生物学家的工作，只有在多学科的综合协同研究中才能得到更快的发展和取得更大的成就。生物学的内容包括三个层次：基因组信息学，蛋白质的结构计算与模拟以及分子药物设计。其中，基因组信息学是生物信息学的源头和基础；蛋白质的结构设计与模拟是基因组学发展的必然结果：分子的药物设计是利用蛋白质的结构和功能的信息来造福人类的有力工具。生物信息学的研究内容是非常丰富的，例如，序列的比较和分析，构造系统发育树，基因的识别及预测，r n a 和蛋白质的结构的预测，d n a 和蛋白质序列的表示，药物设计等等。其中，序列的比较是生物信息学中最基本也是最重要的问题，因为对于d n a 序列，即使我们考虑它的一个非常小的片段，我们也不可能得出它所表示的对象所具有的全部信息，然而我们如果比较一些不同的序列片段就有可能得到某些信息。但是，这个问题是相当复杂的，至今还有许多没有得到解决的问题。论文的结构安排如下：第一章，计算分子生物学知识概论；第二章，生物序列的图形表示；第三章，系统发生分析与系统发生树；第四章，论文总结。生物序列的图形表示及进化分析 1 计算分子生物学知识概论 1 1 什么是生物信息学? 生物信息学是生物和信息技术的结合，这一学科包括了用来管理，分析和操作大量生物数据集的任何计算工具和方法。生物信息学主要有三个组成部分：建立可以存放和管理大量生物信息学数据集的数据库；开发确定大数据集中各成员关系的算法和统计方法；使用这些工具来分析和解释不同类型的生物数据，包括d n a 、r n a 和蛋白质序列、蛋白质结构、基因表达以及生化途径等。生物信息学这个术语从2 0 世纪9 0 年代开始使用，最初是d n a 、r n a 以及蛋白质序列的数据管理和分析的同义词。自从2 0 世纪6 0 年代就有了序列分析的计算工具，但是那时并没有引起人们很大的关注，直到测序技术的发展使g e n b a n k 之类的数据库存放序列的数量快速增长。现在这一术语已经扩展到了其它类型的生物数据，如蛋白质结构，基因表达和蛋白质互作等，这些领域都需要有它自己的数据库，算法和统计方法。 1 2 计算机和数学在生物信息学中的作用生物信息学尽管不是专门的计算机和数学的学科，但在很大程度上是以计算机为基础并应用数学的方法来解决生物信息学的问题。计算机在生物信息学中非常重要的原因有两个。第一，许多生物信息学问题需要重复相同的任务数百万次。例如，将一条新序列与数据库中的其它每条序列作比较或系统的比较组序列来确定进化关系。在这些情况下，计算机处理信息和快速测试不同解决方案的能力是必不可少的。第二，生物信息学需要计算机解决问题的能力。这类生物信息学需要解决的典型问题包括通过给定氨基酸序列得到蛋白质的折叠途径，或者通过给定搜索集的r n a 表达数据来推测生化途径。计算机可以帮助解决这些问题，但专家的输入和可靠的原始数据也是很重要的。数学可以给生物信息学提供一个简单、快速而有效的解决方法。随着数学知识的逐渐引入，生物信息学的有关知识也会一一被人类所了解。但是，对于数学资源的利大连理工大学硕士学位论文用还只是刚刚起步，还有待于更加深入的挖掘。生命科学与数学的紧密结合关系到生命科学研究的定量化与精确化的问题，这也正是目前所要发展的，也是数学理论和生命科学相结合的重要契机。 1 3 生物信息学的基础知识 1 31 生物的分类所有的生物首先分成原核生物( p r o k a r y o t e ) 和真核生物( e u k a r y o t e ) 。而噬菌体和病毒不属于原核生物或真核生物，而是一种超分子的亚细胞生命形式。 1 3 2 核酸核酸最先是由细胞核提出的一种酸性物质因而得名。实际上核酸不仅分布在细胞核里，也分布在细胞质里。核酸的基本结构单位是核苷酸，其组成方式为碱基一戊糖一磷酸，如图1 1 。核酸可分为两大类：核糖核酸( r i b o n u c l e i ca c i d ，r n a ) 和脱氧核糖核酸( d e o x y r i b o n u c l e i ca c i d ，d n a ) 。d n a 主要分布在细胞核内，少量在线粒体中； d n a 是生命遗传物质的携带者，与生物的繁殖，遗传和变异有密切的关系。r n a 大部分分布在细胞质内，小部分在细胞核内；r n a 与蛋白质的生物合成有密切关系。d n a 分子中的主要碱基是腺嘌呤( a d e n i n e ，a ) ，乌嘌呤( g u a n i n e ，g ) ，胞嘧啶( c y t o s i n e ，c ) 和胸腺嘧啶( t h y m i n e ，t ) 。r n a 分子中的主要碱基是腺嘌呤，鸟嘌呤，胞嘧啶和尿嘧啶 ( u r i d i n e ，u ) 。 q i o = p l o 图l1 、核苷酸分子的结构示意图。 _ b a s e ： p -_ 生物序列的图形表示及进化分析 1 3 3d n a 的结构 ( 1 ) d n a 的一级结构 d n a 的一级结构是指d n a 分子的核菅酸序列及其连接方式。一般的，哺乳类动物 d n a 中g 十c 含量占4 0 ，而a + t 含量占6 0 。每个物种的d n a 碱基组成具有特异性，而同一个物种的不同器官，组织则完全相同。组成d n a 的4 种脱氧核苷酸可以任意排列，因此就可以造成各种d n a 片段的特异性。d n a 的一级结构完全取决于碱基的构成，所以，d n a 的一级结构即指其碱基序列。真核细胞d n a 中存在大量重复序列，在人类 d n a 中，约4 0 的顺序是以重复序列形式存在，重复序列的复性次数越多，速度越快。 ( 2 ) d n a 的二级结构根据c h a r g a f f 原则：所有d n a ( 无论其来源) ，其a = t ，g = c ，a + g = c + t ，即a 与t 的含量总是相等，g 与c 的含量总是相等，嘌呤碱基含量等于嘧啶碱基含量。此规则为 d n a 二级结构模型的建立提供了有力的证据。研究表明：d n a 几乎都是双链如图1 2 ，a 与t ，g 与c 配对形成氢键。1 9 5 3 年，w a s t o n 和c r i c k 提出了著名的d n a 右手螺旋模型 ( d o u b l eh e l i xm o d e l ) ，双螺旋给出一个d n a 分子怎样被分开并变成两个同样的d n a 分子的物理模型。在他们的文章中出现了科学中最著名的一句话“我们提出的特定的配对直接蕴涵遗传物质可能的复制机制，这一点逃不出我们的注意”。复制机理是现代遗传学的基础。d n a 蕴涵的复制机制关键特征是互补基对，即a 与t 配对，g 与c 配对。这种配对是由于氢键作用，原理是d n a 单个词( 或链) ( 按5 到3 次序) 5 a t g g t g c a c c 3 与相反方向的互补基对数量，如图1 3 。扩一 t下亍?下彳?i ? 一掣掣一 t a cccg tgg 一扩图1 3 在这个例子中有l o 个基对。a 与t ，g 与c 是由氢键形成配对由竖杠来表示氢键。 d n a 通常以双链出现，它的长度作为基对的数量度。 ( 3 ) d n a 的三级结构 4 大连理工大学硕士学位论文细胞中的d n a 双螺旋可以进一步盘曲形成更加复杂的结构，其中以超螺旋结构最常见。环状d n a 分子形成的超螺旋结构，其中一条链与另一条链交叉的总次数是一个整数，叫做环链数( 1 i n k a g en u m b e r ) 。图l _ 2 、d n a 分子的双链结构 1 3 4r n a 的结构与d n a 相似，r n a 也是主要由4 种核苷酸通过磷酸二酯键相连而成的。但在碱基中，尿嘧啶替代了d n a 中的胸腺赌啶即由a 、c 、g 、u 组成的。绝大部分r n a 分子都是直线状的单链，但在r n a 分子的某些区域，通过单链折叠仍可以进行碱基互补配对，形成局部的双螺旋结构。最简单的局部双螺旋结构如发夹形状，也有像三叶草状如图l ，4 等结构，构成了r n a 的二级结构。以此为基础，r n a 分子也可以在盘旋扭曲，形成r n a 三级结构。生物序列的图形表示及进化分析 c 图1 4 、三叶草结构图 r n a 结构预测的基础：一种用于预测r n a 分子中最可能的碱基配对区域的计算方法仅仅是给出序列，就可以获得一个关于r n a 的二级结构的初始预测结果。从具有潜在的碱基配对互补序列中，选拔出最稳定的一组。通过这种方法可以得到近乎稳定能量的结构和最可靠的预测结果，在相关序列中发现的序列变异也可以预测哪种碱基配对有可能在每一个分子中存在。r n a 结构预测方法的一种变体是预测可能形成一种特定结构的序列。通过序列进行三维结构预测的方法还正在发展( 见h t t p ：b i o i n f o m a t h r p i e d u u k e r r n a ) 。另一种r n a 的二级结构预测的方法考虑了碱基配对的保守模式，这些模式在一类给定的r n a 分子进化的同时发生变化，使得结构的完整性得以维持。例如，如果在一个给定序列类型中两个位置( g 和c ) 形成一个碱基对，则在相应位置上保留了g 和c 、 a 和u 或u 和a 的序列被认为是可能的匹配。 r n a 分子中协同变异模式是二级结构的大连理工大学硕士学位论文一种表现，可依次预测结构。在计算上遇到的挑战是如何在其它序列变化的背景中发现这些协同变量的位置。 1 3 5 蛋白质 ( 1 ) 蛋白质的组成及结构蛋白质在细胞中的含量最为丰富，而且种类众多，功能复杂。蛋白质几乎参与所有的生命活动，如生物体的生长、发育、繁殖、遗传等生命活动都离不开蛋白质，它是各种生命活动的物质基础。氨基酸是组成蛋自质的基本单位。图1 5 是氨基酸的倒子，每一个氨基酸有个中心碳原子，称之为口碳原予或c 。，c 。连接一个氢原子( h ) ，一个氨基( 一n h ) ，一个羧基( 一c o o h ) 和一个侧链。正是侧链决定了氨基酸的差异。侧链也可以是简单的氢原子( 如甘氨酸) ，也可以是复杂的两个碳环( 如色氨酸) 。在自然界中有2 0 种不同的氨基酸，如表1 1 所示。 c 玛酗一岛一c o o i h 丙氨酸图1 ，5 、氨基酸的例子弋喁。 e h 码n c a c o o 珏 f 琏苏氨酸在蛋白质中，氨基酸是通过肽键相连的。因此，蛋白质是多肽链。在肽键中，属于氨基酸a 的羧基的c 原子与氨基酸a 。的n 原子连接。在该键的形成中，因羧基的原子和氧原子与氨基的氢原子结合而脱去1 个水分子，所以我们在肽键的内部所发现的仅仅是一个残基。由此我们说蛋白质有1 0 0 个残基而不是有1 0 0 个氨基酸。典型的蛋白质含大约3 0 0 个残基，但也有至少1 0 0 个残基和多达5 0 0 0 0 个残基的氨基酸。肽键使得每一个蛋白质都有一个骨架，它是重复的基本单元一n c 。一( c o ) 一，每个c 。生物序列的图形表示及进化分析个侧链，因为在骨架的一端是一个氨基，另一端是一个羧基，我们因此可以区别多肽链的两端并给它定一个方向，习惯上多肽始于氨基( n 端) ，止于羧基( c 端) 。蛋白质并不仅仅是氨基酸残基的线形序列，这种序列称之为一级结构。蛋白质实际上在三维空间中折叠，形成二级、三级甚至四级结构。蛋白质的二级结构是通过骨架原子间的相互作用形成的，并导致“局部”结构，如螺旋等。三级结构是二级结构在更大范围内的堆积的结果。而更高层次的堆积，即一组不同亚基的堆积就形成了四级结构。 ( 2 ) 蛋白质的结构预测和分子设计目前，蛋白质结构预测的方法大致可以分为两大类。一类是假设蛋白质分子天然构想处于热力学最稳定，能量最低状态，这样我们来考虑蛋白质分子中所有原子间的相互作用以及蛋白质分子与溶剂之间的相互作用，采用分子热力学的能量极小化的方法，计算出蛋白质分子的天然空间结构。第二类方法是找出数据库中已经有蛋白质空闯结构与其一级序列之间的联系，总结出一定的规律，并逐级从一级序列预测二级结构，在建立可能的三维模型，根据总结出的空间结构与其一级序列之间的规律，排除不合理的模型，在根据能量最低原理得到修正的结构。这也就是所谓“基于知识的预测方法”。但是，第一类方法遇到在数学上难以解决的多重极小值问题，而逐级预测又受到二级结构精度的限制。要解决这些困难需要将知识预测的方法与计算化学以及统计物理学等结合起来，发展出新的方法。 1 36 中心法赠 2 0 世纪生物学领域最重要的成就之一，是继d n a 双螺旋结构的发现总结出分子生物学的中心法则，揭示生命遗传信息传递的方向和途径。半个世纪以来对阐明中心法则有关问题有杰出贡献而获得诺贝尔奖的学者先后已经多达3 4 位。分子生物学中心法则的简单表达： d n a 双螺旋是遗传信息的携带者，它在定条件下可以准确地自我复制。遗传信息从d n a 通过“转录”作用到单股的m r n a 上。m r n a 的前体经过修饰和加工以后成为成熟的i i 】 n a 并进入细胞质内，在核糖体中，根据m r n a 上的遗传信息“翻译”制造出蛋白质。新生的蛋白质经过折叠成特定的三维结构，发挥特定的生物功能。中心法则的模式如图1 6 。大连理工大学硕士学位论文表1 1 、蛋白质中发现的2 0 种常见的氨基酸以及氨基酸的遗传密码 g e n e t i c d e 蒸墓黻3 个字母1 个字母 g c t ，g e e ，g g a ，g e g丙氨酸( a l a 丑i 鹏) a h a e g u ，c g c ，c g a ，c g g 精氨酸( a 喇越n e ) a r g r g a e ，g a e炙冬氨酸( a 8 | 解t i e 矬d d )a s dd a a 譬，a a c天冬酰胺f a s p a 硎咖e ) a s nn u g e ，u g c 半胱氯酸( e y 舭l 哇n ) e v s e g a a g a g 答氯酸( 搿吼a 戚c 撕d ) g 1 1 ：le e a a c a g 答氨崴胺( 甜l l 乇岫) g l i l q g g u ，g g c ，g g a ，g g g 甘舞【酸( g l y c 遗印 g 跨 g c a u 。g a e维氨羧汹s t i d 弧)珏话丑 a u u 矗u e a u a 募亮氨黢( i 8 出e n c h l e ) e 【 e v u ，g u e ，e u a ，c 毯g ，蛩譬a u u g亮氨酸f 硒曲弛) l 飙ll a a a a a g 赖氨酸l y 咖e ) l y s k a _ u g 甲硫氨酸( n l e t h i 锄i n e ) a l g tm u e e u u c 举丙氨黢( p 沁n y 腻a 蝻l e ) p l l ef c c u ，c c c ，a e a ，e e g 腑氨酸( p r c d i m ) p r op u e u ，u c c ，u e a ，u e g艟氨黢( 8 e r l e ) s 盯s a c u ，a c c a e a 。ac g 苏燕艘f t 塘丑i 嬲) 曰球t u g g 色甄黢船i ) t o p h 急n )n p w u a u ，v a g 醵蒸酸( 姆m s 融e t v r | r g u u ，g v e ，g u a ，g 移g 缬氨酸f v a l i n e ) v 甜v 从d n a 到d n a 的环是指分子可以拷贝，这个过程称之为复制。下一个箭头称之为转录，最后一个称之为翻译。每一个箭头指明由现有的大分子序列导引形成另一个大分子。中心思想是一个大分子可以用作模板构造出另一个大分子。这个过程的迷人的细节对生命来说是基本的。对模板的理解将解释为进行某些有趣的分析研究的理由。今天中心法则已经被推广了。在分子生物学的中心法则中，d n a 和r n a 的复制，d n a 转录成r n a ，r n a 反转录成d n a 以及以m r n a 为模板翻译成多肽链的过程和机制基本上已经阐明。但从多肽链折叠成蛋生物序列的图形表示及进化分析白质的过程，即所谓的“新生肽的折叠”问题，又是从“遗传信息”到“生物功能”的关键环节，是中心法则至今仍留下的空白，有待于我们在未来解决。信用图1 6 、中心法则图示 1 3 7 基因和遗传密码有机体的每一个细胞都有几个非常长的d n a 分子，每一个这样的分子称为染色体 ( c h r o m o s o m e ) 。在d m 中仅有一部分连续的片段编码构建蛋白质的信息，而其余部分并不编码构建蛋白质的信息，而且每一种不同的蛋白质仅对应一段d n a 序列，该段序列称为基因( g e n e ) ，更确切地说基因是编码蛋白质或者连续的d n a 序列。基因的长度变化很大，人类的基因可为1 0 0 0 0 b p 。特殊的细胞机制能够准确的识别基因的起点和终点位置。如前所述，蛋白质是氨基酸链。因此，确定蛋白质仅需要确定其所在的每一个氢基酸，这正是基因所要做的，它用三联核昔酸编码氨基酸。每一个三联核苷酸称为密码子( c o d o n ) 。三联核苷酸与氨基酸之间的对应关系称为遗传密码( g e n e t i c c o d e ) 见表1 2 ，而每一个三联核苷酸是用r n a 碱基而非d n a 碱基表示，其原因是，r n a 分子提供了d n a 和蛋白质之间的关联。由于存在6 4 种可能的三联密码子，但氨基酸仅有2 0 种，事实上，有几个密码子给同一种氨基酸编码，而它们的区别仅仅在于第三个基上。另一方面，第一个碱基或第二个碱基不同的两个密码子通常是给不同的氨基酸编码的。表1 2 中我们可以看出，在6 4 种三联密码子中有3 个终止密码子u 从、u a g 大连理工大学硕士学位论文和u g a ( 可以用s t o p 表示) ，其余的6 1 种密码子编码了2 0 种氨基酸，因此很多氨基酸都有多种编码( 这一现象称作密码的简并( d e g e n e r a c y ) ) ：3 种氨基酸有6 重简并编码：亮氨酸( l ) 、丝氨酸( s ) 、和精氨酸( r ) ；5 种氨基酸有4 重简并编码：缬氨酸( v ) 、脯氨酸( p ) 、丙氨酸( a ) 、甘氨酸( g ) 和苏氨酸( t ) ：有3 重简并编码是异亮氨酸( i ) 和终止密码子；9 种氨基酸有2 重简并编码：苯丙氨酸( f ) 、酪氨酸( v ) 、组氨酸( h ) 、谷氨酰胺( q ) 、天动酰胺( n ) 、赖氨酸( k ) 、天冬氨酸( d ) ，谷氨酸( e ) 、半胱氨酸( c ) 。只有甲硫氨酸( m ) 和色氨酸( 1 i | l i ) 是单重编码的。表1 2 、三联体通用密码子表第一个棱瞥酸第：个核瞢酸第兰个棱苷酸 5 ，一端) uaa g ( 3 l 端) fsyau u g fi s 7a 三 s术车五s 十阿笔墨替羹 u e 至多8 曩 c a g it 蕊su a ；鬟薹冀 a tkrg g 影舞当g u 矿aeg譬 v aegg 大i 垂塑工大学硕士学位论文 2d n a 序列的图形表示 2 1 导言由于生物的原始序列是由四种碱基所表示的字符串的形式，直接从原始序列本身寻找信息相对是比较困难的，所以人们利用各种工具对原始序列加以改造并进行分析，利用图形来表示生物的原始序列就是其中之一，这些表示方法可以使我们更加直观的观察生物序列。他们的基本思想是；先将序列转化为图形表示，然后根据图形表示构造矩阵，利用与矩阵相关的不变量( 例如，首特征值，行台，迹，元素平均值等等) 来分析生物序列的相似性等问题( 详见文献i l 一2 9 ) 。下丽我们就介绍几种典型的d n a 、 r n a 以及蛋白质序列的图形表示，并进行了总结性的论述。 2 2 生物序列的几种图彩表示 ( 1 ) n a n d y 的( a g c t ) 2 d 的d n a 序列图形 1 在这个方法中，首先是建立个笛卡儿坐标系，并且定义了以嘌呤和嘧啶分别对称的4 个方向的坐标系，即分别将( 一1 ，o ) ，( 1 ，o ) ，( 0 ，一1 ) ，( 0 ，1 ) 四个坐标赋予给d n a 序列的a ，g ，c ，t 四个碱基，如图2 1 所示。 t a c g 图2 1 、一肋d y 的二维图形蛤四个碱基赋予的方向。以d n a 序列的片段a t g c t g c a c c 为例，从左向右每次观察一个基，根据每次观察到的基画出图形，则序列片段在此坐标系下的图形如图2 + 2 所示。的基画出图形，则序列片段在此坐标系下的图形如图2 + 2 所示。生物序列的图形表示及进化分析 i 一一一一。+ “ 图2 2 、a t g g t g c a c c 在n a n d y 的2 d 图形中的表示在一定程度上，这样的图形表示可以揭示原始序列的一些信息，但是我们不难发现，仍存在着信息丢失的情况。例如序列片段a t g g t g c a c c 和序列片段a t g g g t a c c c 都对应着图2 2 ，也就是说图形与序列并不是一一对应的，为什么会产生这样的情况呢? 原因很简单：在图中有交叉的情况出现。在图论的意义上讲，n a n d y 的2 d 图有圈的情况出现，因而会出现简并( d e g e n e r a c y ) 的情况，使得信息丢失了。更一般地说，在这个图形中所呈现出的只是d n a 序列所谓的“p a t ho ft r a v e l ”，而不是i s t o r yo f t r a v e l ”，因此，在将d n a 序列转化成图形的过程中些有用的信息就会被漏掉了。与此方法相类似的有g a t e s 2 的( a t g c ) 2 d 图形表示如图2 3 和l e o n g m o g e n 血a l e r 3 的( a t g c ) 2 d 图形表示如图2 4 ，他们的方法也同样是在先建立坐标系的前提下，再将四个碱基赋予不同的方向。大连理工大学硕士学位论文 a g g ca c t 图2 3 、g a t e s 的2 d 图形图2 4 、l e o n g ，p m ，m o g e n t h a l e r ，s 的2 d 图形 ( 2 ) g u o 的新2 d 的d n a 序列图形 4 与刚刚提到的方法类似，g u o 的新2 d 图形方法是将四个基赋予了坐标系中的四个特殊的方向，即：其中d 是一个正整数，如图2 5 。 c t a g 斗斗斗哼 i ) h 1 一d一d ，，，，，一j一d 1 h 生物序列的图形表示及进化分析 ? ，) 所以有向图所对应的口胗形式矩阵是一个上三角矩阵，这与前面提到的无向图所对应得到的矩阵形式是不同的，它比无向图所对应的对称阵要更简单且容易计算。另外，一旦给出了矩阵，人们经常会用到矩阵的某些不变量，如平均矩阵元素，平均行台，首特征值，以及w i e n e r 数，其具体描述请见 1 3 2 6 。为了简便，我们把这些不变量分别记为，。( m ) ，l ( 肜) ，a ( m ) 和l ( 吖) 。通过验证在上三角矩阵中的，。) ，j ，( m ) 和。( m ) 仍可以作为d n a 序列的不变量 1 3 。但是对称阵中 a ) 一般不是o ，而上三角矩阵中的a ) 为o 。尽管两个矩阵是彼此决定的，但是它们的首特征值却没有什么关系，这就意味着，上三角矩阵的首特征值不可以作为d n a 序列的不变量。在 1 4 中，新提出了一个不变量a l e _ i n d e x ，即；删呲，+ 厚0 鼽，渺，= 厨同样可以简单验证上三角矩阵和对称阵中的a l e i n d e x 也是彼此有联系的，因而上三角矩阵中的a l e i n d e x 也是d n a 序列的不变量。而且这个不变量的计算是非常简便的。大连理工大学硕士学位论文显然，有向图的这种表示避免了某些二维和三维图形表示中由于曲线的交叉或者重叠而导致的信息的丢失，而且在有向图中，我们所看到的是描述d n a 序列的路径历史 ( h i s t o r yo ft r a v e l ) 。而且在由有向图转化的上三角矩阵中，数值特征的易计算是显然的。它同样也适用于域出i a 和蛋白质序列的有向图形，这方面的研究还有待于进一步的探讨。 2 3 总结与评述最初的n a n d y 的( a g c t ) 图形，g a t e s 的( a t g c ) 图形以及l e o n g 和 m o g e n t h a l e r 的( a c g t ) 图形，将人们从由字符串表示的原始的d n a 序列引入进了由图形表示的d n a 序列，这也为后人研究d n a 序列指出了一条路径。虽然有了直观性，方便对于物种进行相似性的比较说明，但是在图形中可能会存在许多交叉或重叠的情况，也就是在图论的意义上所谓的多边或圈的出现，最直接的影响就是使得一条d n a 序列唯一的对应着一个图形，但是一个图形并不是唯一的对应着一条d n a 序列，这样由图形分析出来的结果就有些缺乏准确性了。而后，在g u o 提出的新2 d 图形中，他是在上面提到的图形的基础上有了更进一步的完善，也就是将四种碱基赋予的方向略微地偏离了原坐标轴，这样的好处是可以大大减少了交叉或重叠的现象，使得简并度有所降低。简并的情况与圈的最小长度有关，而且经过严格验证得出的结论是，如果d 为偶数则最小圈长是4 d ，如果d 为奇数最小圈长是2 d 。d 越大，简并的情况越很少发生，可是当d 太大了的时候也是不得体的，因为当d 趋近于无穷大的时候，四种碱基的赋予方向也就趋近于坐标轴了，所以要使锝图形能够更加的完善，那么对于d 的取法就不单单是看取奇数还是偶数的问题了，还是需要进一步的探究。为了更加增强图形的直观性，r a n d i c 等人又提出了d n a 序列的三维图形表示，也就是将四种碱基赋予了三维空间的某些方向。这样确实大大增强了图形的直观性有了立体感，但是我们发现随着序列的逐渐增长，图形所占有的空间也会随之增大，尤其是大多数的d n a 序列的长度是很惊人的，这样看来这种图形就存在弊端了。随后有些人也考虑了将图形压缩在了一个正方体内见文献 1 5 ，但由于序列的长度很长，图形又压缩的相对很小，这样就使得直观性有所降低。所以，在d n a 序列的三维图形表示的方法中都或多或少存在着一些不足，这些方面还是值得我们去深入研究和探讨的。前文还提到了“四水平线”等类似的方法来表示d n a 序列，这些方法是很简单也是很独特的，又给我们提供了一种如何将d n a 原始序列转化为图形的新的思维方式，不过我们仍然会注意到当序列无限增长时，图形也是会无限的延伸，这样观察起来还是有很多不便之处的。在按下来提出的对于r n a 和蛋白质序列的图形表示，其方法仍然与生物序列的图形表示及进化分析前面的雷同，这里就不再加以说明了。最后提出的是d n a 序列有向图形表示，由于生物大分子序列是有方向性的，而且在前面所提到的所有d n a 序列的图形表示都是无向图，在这类图形中由d n a 序列转化成它所对应的图形的过程中，一些有用的信息势必会被遗漏的，因而用有向图形来表示d n a 序列是更加合理些的。事实上，在有向图形中我们所看到的是沿着生物序列“t r a v e l ”时的“历史”，那么从这个意义上讲，有向图更加容易激发人们的形象思维，也更加有利于人们抓住生物序列的基本特征。有向图可以大大降低筒并的现象是显而易见的，甚至在某些情况下将不会出现筒并的现象。这种方法也给生物序列的分析研究提供了一种新的途径。但是值得强调的是，d n a 序列有向图形表示是做的最多的，而对于r n a 以及蛋白质序列的图形表示略微有些欠缺，尤其是蛋白质的图形表示。总而言之，生物序列的图形表示是丰富多彩的，这里仅仅是罗列出了几种比较典型的方法，这些方法都是值得我们仔细揣摩并思考如何加以完善，也启发我们尽可能提出一些更加准确的图形表示。而对于生物序列的图形表示的研究工作直到今天已经有将近 3 0 年的发展历史了，每一步无不推动着这方面的分析研究进程。大连理工大学硕士学位论文 3 系统发生分析与系统发生树 3 1 导言系统发生( p h y l o g e n y ) 是指生物形成或发生进化的历史，系统发生学p h y l o g e n t i c s 研究物种之间进化的关系，基本思想是比较物种的特征，并认为特征相似的物种在遗传学上接近。系统发生研究的结果往往以系统发生树的形式表示出来，用它描述物种之间的进化关系。在分子水平上的系统发生分析有许多优势，所得到的结果更加可靠、科学。分子系统发生分析主要分成三个步骤：分子序列或者特征数据的分析，系统发生树的构造以及结果的检验 3 0 。 3 2 系统发生分析 3 2 1 系统发生分析的内容经典系统发生学研究所涉及的特征主要是生物表型特征，即生态学的( 结构) 特征，如生物的大小，颜色，触角的个数，也包括某些生理的，生化的以及行为习性的特征。当然利用这些来研究物种的进化关系是非常有局限性的。随着人们对生物的认识从宏观发展到微观，科学家对物种分类的依据也从宏观上的形态发展到微观上的分子，并有了突破性的迸展，系统发生分析进入分子层次。科学家认为现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化形成的，作为生物遗传物质的核酸和作为生命机器的蛋白质分子其中都存在着关于生物进化的信息，可用于系统发生关系的研究。在分子水平上的分析具有许多表型分析所没有的优势，所得到的结果更加科学、可靠。分子系统发生分析直接从核酸序列或蛋白质分子中提取的信息，并作为物种的特征，通过比较生物分子序列，分析序列之间的关系，构造系统发生树，进而阐明各物种之间的进化关系。当然，这些分子不仅在序列上保留进化的痕迹，它们的结构也保留着进化的痕迹。在分子水平上研究生物之间的关系早在2 0 世纪初就开始了。直到2 0 世纪中期，分子数据才被广泛的应用于系统发生分析的研究。2 0 世纪6 0 年代，蛋白质测序成为可能。2 0 世纪7 0 年代，研究者开始能够获得基因组信息，特别是d n a 序列。蛋白质序列和d n a 序列为分子系统发生分析提供了可靠的数据。 3 2 2 系统发生分析的作用系统发生分析的传统用途是揭示物种之间的进化关系。在这些情形中，需要选择合适的基因或d n a 序列来进行系统发生分析，这些基因或序列需要显示足够的但不是太生物序列的图形表示及进化分析多的变异，例如，分析线粒体序列可以揭示哺乳动物的进化关系。系统发生分析的新用途是分析基因家族以及追溯特定基因的进化历史，例如，利用数据库相似性检索可以鉴定植物基因组中的几种蛋白质的相似性，在利用这些蛋白质家族的系统发生分析可知它们应该有的功能。在一类物种中追溯某一基因的进化历史，能够推断出一个基因组中基因长期留存以及物种间基因水平转移。因此，系统发生分析也可以对了解基因组进化做出贡献。 3 3 系统发生树 3 3 1 系统发生树及其构造 ( 1 ) 系统发生树的定义所谓树是一个无向非循环图。系统发生树是由一系列节点和分支组成，其中每个节点代表一个分类单元( 物种或序列) ，而节点之间的连线代表物种之间的进化关系。树的节点又分为外部节点和内部节点，外部节点代表实际观察到的分类单元。内部节点又称为分支点，代表了进化事件发生的位置，或分类单元进化历程中的祖先。树节点之间的连线称为分支，其中一端与叶节点相连的为外支，不与叶节点相连的称为内支。 ( 2 ) 系统发生树的形式系统发生树有许多形式：可能是有根树，也可能是无根树；可能是一般的树，也可能是二叉树；可能是有权值的树( 树中标明分支的长度) ，也可能是无权值的树。在一棵有根的树中，有一个唯一的根节点，代表所有节点的共同祖先，这样的树能够反映进化的层次，从根节点历经到任何其它节点只有唯一的途径。无根树没有层次结

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（应用数学专业论文）生物序列的图形表示及系统发生分析.pdf

文档简介

温馨提示

最新文档

评论

（应用数学专业论文）生物序列的图形表示及系统发生分析.pdf

文档简介

温馨提示

最新文档

评论

相关文档