(运筹学与控制论专业论文)dna序列的图形表示及其相似性分析.pdf_第1页
(运筹学与控制论专业论文)dna序列的图形表示及其相似性分析.pdf_第2页
(运筹学与控制论专业论文)dna序列的图形表示及其相似性分析.pdf_第3页
(运筹学与控制论专业论文)dna序列的图形表示及其相似性分析.pdf_第4页
(运筹学与控制论专业论文)dna序列的图形表示及其相似性分析.pdf_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 近二十年来,d n a 序列的图形表示方法在研究d n a 序列局部和整体的比较 分掇孛静作用越塞越太,并豆弓之攘对应静数菹籍延及襁 矬性分辑毽这些直瑕 静视觉惑翔雯翔趱程凭。 在本篇论文中,我们首先给出了一个关于d n a 序列的潮形表示方法较为详 细的综述,其中我们先从3 维表示方法入手,然后根据氓化性的有无对2 维表示 方法进行了介绍,并给出了一种基于3 条特征啦线的新的2 维豳形方法。然而,本 文的中心内容并不仅是对图形表示方法的研究,丽从基予嘲形表示的数值特缎 自量去进行d n 婧捌之裁豹楣毂挫分掇。在接下寒兹三、毅章中,透过上一一辜 绘蠢的新匿形方法y l y a u 1 1 的匿形袭示法我髓薅裂了q 怒簿,并秘用q 矩簿豹 标准化主特征德得到三种表示d n a 序列的数值特征向量方法。根据向量之间的 欧氏距离,我们分析了1 1 种生物的肛g l o b i n 基因的第一外照子序列的相似性,并 同其它文献中的相似性分析的结果避行了比较。摄后,作为d n a 序列比较的一 种参照,我们从簸长公共子序列的角艘考虑了d n a 序列的糖毂性分析,并进行 了筠单静讨论。藜中三、霾章中的数馕褥翟囊量黍l 穗毅性绻袋均氆殛m a t i a b7 。0 完成。 关键词:d n a 序列,图形表示,数慎特征,相似性分析,最长公共子序列 a b s t r a c t i nr e c e n tt w e n t yy e a r s ,g r a p h i c a lr e p r e s e n t a t i o nt e c h n i q u e so fd n as c - q u e n c e sh a w b e e nf o u n dt ob ev e r yu s e f u li nh i g h l i g h t i n gl o c a la n dg l o b a ld n a s e q u e n c ec o m p a r i s o na n a l y s i s ,a n dc o r r e s p o n d i n gn u m e r i c a l c h a r a c t e r i z a t i o n s a n da n a l y s i s 。s i m i l e x i t yh a v eb e e nd e 、j e l o p e dt h a th e l pq u a n t i f yt h ev i s u a l p a t t e r n s , i nt h i st h e s i sw es t a r to u tw i t har e v i e wo f3 dd n ag r a p h i c a lr e p r e s e n - t a t i o n s ,a n dt h e np r e s e n tr e c e n t2 dr e p r e s e n t a t i o n sa c c o r d i n gt od e g e n e r a c y , m e a n w h i l ew ep r o p o s ean e w2 dg r a p h i c a lm e t h o db a s e do nac j a s s i f i c a t i o no f d n ab a s e s ,w h i c hi ss u i t a b l et om a k en u m e r i c a la n a l y s i sl a t e r n e v e r t h e l e s s ,t h e f o c u so ft h i st h e s i si sn o to n l yt 。i n t r o d u c eg r a p h i c a lr e p r e s e n t a t i o n sb u ta l s o t od e s c r i b es e v e r a ln u m e r i c a la n a l y s i sm e t h o d sb a s e d0 1 1g r a p h i c a lr e p r e s e n t a - t i o n sf o rt h ec o m p a r i s o no fd i f f e r e n td n as e q u e n c e s i nc h a p t e r3a n d4 ,w eu s e t h en e wg r a p h i c a lr e p r e s e n t a t i o na n dy a u 1 1 1 sr e p r e s e n t a t i o nt om a k en u m e r i c a l d n aa n a l y s i s m o r e o v e r ,w ei l l u s t r a t et h e s em e t h o d sb ye x a m i n i n gd i s s i m i l a r - i t yo fe x o n lo f 芦- g l o b i ng e n eo f1 1s p e c i e s ,a n dc o m p a r e o u rr e s u l t sw i t hs o m e e x i s t i n gr m m e r i e a lm e t h o d s i nt h el a s tc h a p t e r ,w eb r i e 酊d i s c u s sa n a l y s i so f s i m i l a r i t yi nv i e wo fl o n g e s tc o m m o ns u b s e q u e n c ep r o b l e mo fd n as e q u e n c e s t h en u m e r i c a le h a r a c t e r i z a t i o n sa n da n a l y s i so fs i m i l a r i t yi nc h a p t e r3a n d 4a r e p e r f o r m e db yu s i n gm a t l a b7 0 k e y w o r d s :d n as e q u e n c e ,g r a p h i c a lr e p r e s e n t a t i o n ,n u m e r i c a lc h a r a c t e r i z a - t i o n s ,a n a l y s no fs i m i l m i t y , l o n g e s te o m i n o i ls n b s e q u e n c c 表格 3 1 1 1 个物神的肛g l o b i n 基因第一外显子序列及其长度 3 2 基于我们在2 23 讧中提出的图形曲线下的1 0 x 1 0 q 矩阵的上二角部分,其 中的d n a 序列是人类的p q - g l o b i n 基因第一外显子的前1 0 个核酸基序列 3 3 基r 表格3 1 中d n a 序列的q 矩阵( k = 1 ,2 ,5 ,1 0 ,1 0 0 b ) 的标准化主特征值。 3 4 基于表格3 1 中d n a 序列的二条特征曲线下q 矩阵的标准化主特征值。 3 、5 基于表格3 1 中d n a 序y l | y a u 的1 2 条不同类型的特征曲线下q 矩阵的标推 化主特征值。 4 1 4 2 4 3 4 4 5 维d n a 序列向量表示法下的1 1 个物种伊g l o b i n 基因第一外显子序列之间 的距离矩阵的上二角部分。 3 维d n a 序列向量表示法下的1 1 个物种f l - g l o b i n 基因第一外显子序列之间 的距离矩阵的上二角部分。 1 2 维d n a 序列向量表示法下的1 1 个物种 q - g l o b i n 基因第- - # b 显子序列之间 的距离矩阵的上二角部分。 用d n a 序列向量表示法下的人类与其他物种b - g l o b i n 基因第一外显子序列 之间的距离:( a ) 本文中的5 维向量表示方法下表格4 1 中的结果。( b ) 本 文中的3 维向量表示方法下表格4 2 中的结果。( c ) 本文中的1 2 维向量 表示方法f 表格4 3 中的结果。( d ) 【1 2 】中1 2 维向量表示法下表格3 中的 结果。( e ) 1 5 中1 6 维向量表示法下表格6 中的结果。( f ) 4 r 0 6 4 维向量 表示法下表格9 中的结果。( g ) 1 6 1 5 b 1 2 维向量表示法下表格1 2 中的结 果。( h ) 17 l 中5 维向量表示法下表格9 中的结果。( i ) 1 8 中1 5 维向量表示 法下表格8 中的结果。( j ) 1 9 1 中3 维向量表示法f 表格5 中的结果。 1 8 1 9 2 0 2 0 2 1 插图 2 1 ( a ) d n a 的核酸基在3 维空间中所对应的4 个基向量。( b ) 刷h 曲线所表示的 一条d n a 序列( 右边所示) 的正面透视图。 2 2c h u nl i 和j u nw a n g 对于d n a 序列a t g g t g c a c c 的3 维图形表示曲线 2 3 d n a 序列2 维表示的三种独立的正交坐标系统和它们关于人类伊g l o b i n 基 因第一外显子序列的3 种图形表示。 2 4 ( a ) g u o 在x o y 坐标系中表示四种核昔酸的4 个特殊向量。( b ) c u o 的关:l 二人 类伊g l o b i n 基因第一外显子序列的图形表示。 2 5 关于人类的局部o b s c n 基冈序列( 包括1 8 7 6 0 个碱基对) 的全部a cd b 一曲 线。其中外显子用黑色表示,内含子用灰色表示。 2 6 ( a ) y a u 设计的代表a ,g ,c ,t 的4 个单位向量。( b ) y a u 的关于人类和山羊 的,- g l o b i n 基因第一外显子序列的图彤表示。 2 7m i l a nr a n d i c 2 j 于d n a 序列a t g g t g c a c c t g a c t c c t g a 的4 条平行 线表示法,4 条平行线有2 4 种不同位置排列,我们列出了其中的3 种。 2 8 基于a g c t ,a t c g ,a c g t 三种向量顺序的d n a 序列图形表示,序列为 人类的肛g l o b i n 基因第一外显子的前2 0 个核酸基构成的序列。 5 6 8 9 1 0 1 2 1 4 1 5 第一辇前言 1 1 雩l 言 隧羞生麓技零季芋澍是分子生穆学技术豹褒速发震,耱学家铜获褥了谗多貔 种的大量基因序列。尤其是人类基因缀计划( h g p ) 实埯酌避步深入,为生物 学研究提供了犬赞的人类基因数据,生命科学_ 己步入后熬困组时代。这样,就 需要我们对遮然已有的生物信息进行加工、储存、分配、分析、释读、搜索和恢 复。在这种情况下,生物信息学作为门生物学和数学、僚怠科学、计算机科学 和系统科学撩交叉豹毅兴学科应运蕊受。疆裁,生物信惑学毫成为整个生命秘 学发震的重要鳃袋部分,或黄生禽辩学研究静主要蔻沿。 揭示生物分子数据的内涵是生物信息学的长远目标,这些数据之间存在复 杂的联系,并黼涵着丰富的生物学知识和生物学规律。掰前生物信息的主要任 务是研究生物分子数据的获取、存储、省询,发展数据分析的方法,并开发分析 工具和实用软件。同时,生物分子数据类型的不断增多及数据量的不断膨胀又 霾遗了生物羲惑擎斡磅究和瘟周。瑷蠢静鼗据源包瑟:d n a , 渗残,蛋自蒺穿列, 大分子绪稳,鏊溺缱等等。这些数据墩要求我稻不断蕤爨赫瓣生物信息算法和 工具。 下面我们简单回顾一下生物信息学中常用的几个专谢名词,这些术语将在 本文中出现,例如:染色体、d n a 、骚自质、d n a 序列、序列的相似性等等。读 者可以从关予生物信息学导论的书籍( 例翔i 1 1 ) 中得到更加深入的引导知识。 粢露分数予缨藏菝中,承载垒耪髂蠹鹰奄遗传魏疆,其毒特臻静生物形 态呈丝状或拇状物,台有d n a 、蛋岛藏和少量r n a 。 脱氧核糖核酸( d n a ) 编码遗传信息的生物大分予,怒染色体的主要他学 成分,同时也是组成基因的材料。d n a 的结构是由一对多核苷酸链相互盘绕组 成的双螺旋。斓种碱基是:腺嘌呤( a ) ,鸟嘌呤( g ) ,胞嘧啶( c ) 和胸腺嚏啶( t ) 。 自然界中,碱蒸对只有a t i 和g c :霹滔单链d n a 静碱基序捌可殴扶它的互於链 攘蕻瑟寒。d n a 分子极为宠大,大缝蠢蔻百万碱基霹b p ) 。d n a 是邃簧懿分予 基础,将遗传攒令从一代传至l 下一幸。 蛋白质鬣自旗是包含一条或多麓的氨基酸链的大分子结构。这些链具有特 第一章前言 2 定的顺序;由蛋白质中基因的核酸基序列所决定。蛋白质通过将一条d n a 序列 转化为一条氨基酸序列来构成。蛋白质是生命活动中最基本的和最重要的物质, 氨基酸是蛋白质的基本单位。 d n a 序列代表组成d n a 的四种核苷酸一腺嘌呤( a ) ,鸟嘌呤( g ) ,胞嘧 啶( c ) ,胸腺嘧啶( t ) 无间隔的排列在一起构成d n a 序列。任意长度大于4 的一串 核苷酸被称作一个序列。倒如序列a g t c t g a c c t g 。 序列的相似性序列的相似( s i m i l a r i t y ) 指一条d n a 或蛋白质序列与另一条序 列的相似程度。这个程度是有差别的,如两条序列的的相似程度达到3 0 或6 0 在进行序列比较时也经常用到”同源”f h o m o l o g y ) 这个概念,需要注意的是两条序 列同源足指它们具有共同的祖先,在这个意义。t ,无所谓同源的程度,两个序列要 么同源,要么不同源 上面我们简短的介绍了生物信息学的知识概论,在最近几年随着生物分子 数据库( g e n b a n k e m b l - b a n k d d b j ) 的不断增长,生物信息学的热点问题也不 断增加,像基因组比较分析、单核酸多态现象、系统生物研究等等。而在这些 研究中,序列的比较分析是生物信息学中最基本、最重要的任务,通过序列的 比较可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是, 通过比较生物分子序列,发现它们的相似性,找出序列之间的共同区域,同时辨 别序列之问的差异。d n a 或蛋白质的相似性是多方面的,可能是核酸或氨基酸 序列的相似,可能是结构的相似,也可能足功能的相似。但一个普遍的规律是 序列决定结构,结构决定功能。研究相似性的目的之一是通过相似的序列得到 相似的结构或相似的功能。因此,我们需要找到更加合适的方法来研究不同的 序列之问的相似性。 近二十年来,d n a 序列的图形表示方法在研究d n a 序列局部和整体的比较 分析中非常有用,并且与之对应的数值特征及相似性分析使这些直观的视觉感 知更加理- 性化。d n a 序列图形表示方法的主要思想是用4 个向量去表示d n a 的 4 个核昔酸,并且将这个d n a 序列映射成3 维空间或2 维平面上的蛆线,同时, 我们可以根据这些图形曲线得到d n a 序列的数值特征。利用这些从图形表示 导出的数值特征表示的向量,我们可以用r ,中的一个n 维向量表示一个d n a 序 列。然后用关于向量的距离函数来测量向量之间的距离,这里的距离函数可以 有许多种形式。从而,我们可阻用不同向量之间的距离来进行d n a 序列相似性 分析。 第一章前言3 因此,为了促进序列比较分析的研究,我们选择d n a 序列的图形表示及其 相似性分析作为本文的主题。本文围绕该主题主要做了以下两方面的工作: 一、对近年来的d n a 序列的图形表示方法给出了一个较为详细的调查和介 绍,并提出了一种基于3 条特征曲线的新的图形表示方法。 二、基于新的图形表示方法j l i y a u 1 1 1 的图形表示法,我们通过矩阵得到 了d n a 序列的数值特征,并运用这些数字特征构成的向量对1 1 种生物的肛 g l o b i n 基因的第一外显子序列进行了相似性分析,并与现有的一些d n a 序列相 似性分析方法得到的结果进行了比较。 1 2 论文的结构安排 鉴于序列比较在生物信息学中的重要地位,以及目前在d n a 序列图形表示 与相似性方面的深入讨论,本论文就此展开研究,主要内容分为如下六章: 首先,在第一章引言中,我们简单介绍了生物信息学的基本知识和几个术 语,以及本论文的写作动机和主要贡献。 在第二章中,我们给出了d n a 图形表示方法的一个较为详细的回顾和综 述,先从3 维方法入手,然后分别根据序列图形表示的退化性的有无介绍了2 维图形方法,在这章的最后,作者提出了一种基于3 条特征曲线的新的图形表示 方法。 在接下来第三章给出了图形表示方法的数值特征,通过q 矩阵我们给出了 三种数值特征的向量表示方法,前两种是基于我们提出的新图形方法,后一种 是基于y a u 1 1 1 的无退化性图形表示法。同时在这章的结尾,我们还介绍了几种 求向量之问距离的函数。 在第四章,我们利用第三章的数值向量,对1 1 种生物的肛g l o b i n 基因的第一 外显子序列进行了相似性分析,并与几种现有的方法进行了比较。 在第五章中,我们把最长公共子序列的概念引进蛩j d n a 序列的相似性分析 中来,进行了讨论且给出具体算法。 最后一章是对本文的总结以及对未来的展望。 第二章d n a 序列的图形表示方法 d n a 序列由a ,g ,g ,t 四种棱苷酸构成的祭编码符号列,如果从序列本身 去寻找信息则相对困难,所以人们利用备种工其对这些序列进行政造并进行分 析。一个篱苇、直接、交互式静d n a 序列的图形表示可璐便读纛搬方便的蕊察 蛰j d n a 序列的整体和局部的特征,因此它在观察、分析和比较不同的d n a 序列 孛莛麓 零耋簧静撂掰。这季孛死褥蛰形袭示方法夔主要纛怒是将d n a 静4 令援 酸基设置为3 维空间戏2 维平面中的向量,然后通过将这些向量连接,映射成 空间绶平嚣上的趁线蕊褥到。在这一章中我 】绘出一个关于3 维秘2 维嬲较为 详细的图形表示方法的综述,并在最后一节提出一个新的图形表示方法,这种 方法是建立经对d n a 的核酸基的分类的基础上的。 2 13 维图形表示方法 首先尝试用图形撩术来表示d n a 序捌蠹每- 琵h a m o r i s w r u s k i n ( 2 】翻) ,德稍提 出了强曲线和h 一曲线袋示方法,g 一曲线是在一个5 维空间里产生的,4 个坐标 方自分聚为a ,g ,e ,t 嚣张菝替骏,蕞磊个坐标遵弱d 瓣a 净确孛梭蓄酸豹整爱 特征。通过计算机的帮助,如果序列的篇一个桉酸基是a ,则沿a 轴前进一个单 位商嶷,如襞璺e ,则潞c 轴,依次类搬。这样隧着一个个单位自罄的不酝皱痒 出,位置轴也逐渐增加,直至序列达到嫩后结束。按照这种方法,我们可融得到 一个连续的沿位置轴的曲线,肖然这个曲线是在一个5 维空间中的。然两,一 般来讲,我们蹩穰难森穗的去疆解一个5 维空瓣馥线鹣。因瑟,这释方法并不 是一个有效的表示d n a 序列的图形方法。 摊夔线纛黢了g 薤籍线豹缺点,著褥其改逶,楚d n a 膨舞懿餮影表示露入了 人们易于理解的3 维宅问中。通过这种方法,d n a 序列的信息内容从e h a ,c , g ,t 四个字母豹序列转他为一燕可以出几俺方法来操住鲍3 维空闽曲线,并且 给人警现出该净列的视觉特点。 在h _ 曲线的构造过程中,h a m o r i 和r u s k i n 定义向量烈z ) 为z 的函数,z 为一 条任意d n a 露捌串菝黢基豹使置数。这个函数舞有菇t 4 个往中酶一个,当z 对 应核媛基a 时,向量函数g ( z ) 对应如下:g ( z ) - i + j k 类似的,当z 对戚核酸 第二章d n a 露判的豳形表示方法 5 基t ,c ,g 时,翔下: t :g ( z ) _ + 一j k c :9 ( z ) i - i j b g :9 ( 。) - i + j 一是 这墨巧蠢k 分鞠代表在3 维萋卡尔空耀中浴x ,y 秘z 麓豹鼙建国登( 整蚕冀2 。l a ) 。 同时,他们定义h ( z ) ;:g ( z ) ,弗令聪,表示当z 从i 增办鞋硼时h ( z ) 走过的3 维赫 线轨迹。根据定义,耽。就是1 条空间曲线,它由n 个基向濑首尾连接而成,并 沿z 轴负方向逐渐延伸( 见图片2 1 b ) 。 ,j l 图2 1 :( a ) d n a 豹鞍酸基在3 维空间中所对应的4 个基向量。( b ) 痒j h 曲线所表示韵一 条d n a 序列 。 事实上,在这鼙我们可以看融骞3 种独立的坐标系统霹以作出d n a 序弼 的2 维图形,这岛我们在后面2 2 3 节使用的3 条特征曲线是相致的。然而,由于 较高的退化性,选三种表示方法使得隐藏在d n a 序列中的“些特性不能显现出 来。例如在图h ”2 3 下面,我们分别展示了关于人类1 3 - g l o b i n 基因第一外显子序 列豹3 静图形表示。在这些图中,盛线表示这条路径上只露一个自量,两实线表 示这条臻径上鸯夫子一夸静自量存褒。势基,我霹】可敬潢楚麴簧弱在图澎孛商 大量的闭环或圈存在,因此每一个d n a 序列不髓由它的醋形袭示难一决定。 第二章d n a 序列的图形表拳方法 8 ;- m 鹫2 3 :d n a 序列2 维表示的三耪独立鲍委交坐耩系缓和它们荚于太类争孚。毯基因第一多 显子序列的3 种图形表示。 一一一爨一一一一 一一蒸一誊蘩 蕤誉燮一 翟咀尸 一t 。 k 美二章d n a 亭列鹃斑形表示方洼9 为了克服较漪的退化性,x i a o f c n gg u o 等人【9 提出了一种2 维图形表示方 法,这种方法具有较小的退化性和重叠。他们用d n a 序列在图形表示中形成圈 的最小长度来衡擞不同的图形表示中的相对退化程度。最小嘲的长度值越小, 退化程度越高。为此谯们设计了如下4 个( x ,y ) 坐括来表示a ,g ,c ,t 锺静核苛 酸: ( 一l ,+ 五1 ) 一a ,( + ;,一1 ) 一t ( + l ,+ :) 一g ,( + ;,十1 ) 一g 这罩d 是一个正整数( 见图片2 4 a ) 。 图2 4 :( a ) g u 0 在x o y 坐标系中表示四种梭静酸的4 个特殊向量。( b ) a u o 的关丁人类伊 g l o b i n 基冈第一外显予序列的图形表示。 这样根据g 氇t e s 镑入酶向量作匿方法,在g u o 静自量坐器系统下,其孝羹应 静d n a 痔礤圈澎袭零可寝褥壅。在鬓冀2 ,4 b 中,我餐j 绘趣- f g u o 豹关予人类伊 g l o b i n 基因第一外鼹予穿列的图形表示。事实上,对于g u o 的d n a 序列图形表示 也有3 种独立的坐标系统,它们是分别和g a t e s ,n a n d y ,以及l e o n g 和m o r g e n t h a l e r 的坐标系统相对应的。图片2 4 给出的g u o 的向量表示系统是j f u n a n d y 的系统一 致的,而g u o 的其它瓶种坐标系统可以根据n a n d y 与l e o n g $ 【 m o r g e n t h a l e r 的做 映获褥。 鸯了讨论g 瀚骢2 维霆影表示方法豹遮往性,g u o 等又遴避谤算d n a , 亭翻蓬 形表示中形成豳姻摄小长度提出了一个定理t 定理( x i a o f e n gg u o ) 令s 为一个d n a 序列,它的图形袭示g d ( s ) 形成的圈 具有最小的长度令a ,靠,g ,c 分别为a ,t ,g ,c 在s 中出现的次数,则有: 第二章d n a 序捌瓣嚣形表示方法 1 0 1 i s i = 2 d ,厶= 扣= ;( d + 1 ) ,庀一尼= j ( d 一1 ) ,当且仅当d 为奇数; 2 1 s i = 4 d ,如= ,g = d 一1 , = 办= d + 1 ,当且仅当d 为偶数。 上面的定理指出,如果d 是一个较大的偶数,贝4 d n a 序歹姻的图形表示g a ( s ) 鸯较小的退化瞧。在图片2 4 中,d n a 痔捌鹃图形表示中d 敬瓣为4 。从整形中, 我翻可 冀菱窭g u o 静d n a 廖襄銎形表示较之蘩_ 垂豹足穗鹫形方法确有较枣鹣 退化性和重叠。偿由于他们的图形表示比较杂乱,没有单调增加的性质,两且 退化性问题并没眷根本解决,因此采用这种方法分析d n a 序列的一些性质则比 较困难。 2 。2 2茏邋像牲婢2 维图形表示穷法 为了提供弹箍单壹接薛强形方法,骶可以渣豫退纯彀又可玖将d n a 净列 的性质清楚的表现出来,y o n g h u iw u 等人f 1 0 提出了一个袭示2 个核酸基性质 的d n a 图形方法,称为d b 一曲线( d u a l - b a s ec u r v e ) 。d b - 曲线在平面上一次表 示2 个核酸基的性艨。这种表示方法的思想足如果一条d n a 序列具有有价值的 图形特征,那么它的r 古有2 个核酸基的予序列也必将该特征体现出来。傍j 如, 蘸条穗钕戆穿强浚必定在它的哭含鸯2 令援酸基夔予亭残上侮毽出戆程熬稠曩冀 缝特点。 图2 ,5 :关丁人类的局部o b s c n 基因序列( 包括1 8 7 6 0 个碱基对) 的企部a cd b - 曲线。其 中外显子用黑色表永,内含子用灰色表示。 第二章d n a ) 芋列的图形表示方法 对于a ,c ,g ,t 四种核酸基,我们在不计基的顺序时,可以得到a c ,t c , c g ,a t ,t g 和a g 六种对基组合,d b 一曲线可以从这六种组合的任一种组合中 获得。例如,我们接下来考虑a cd b 一曲线。我们定义一个向量,起点( 0 ,0 ) ,终 点( + 1 ,+ 1 ) ,对应核酸基a ;。个向量,起点( 0 ,0 ) ,终点( 1 + 1 ) ,对应核酸基c ; 一个向量,起点( o ,0 ) ,终点( o ,+ 1 ) ,对应核酸基t 和g 。我们把序列的起点定义 在( 0 ,o ) ,则根据前面的作图方法,可以将一条d n a 序列映射成平面上的曲线( 图 片2 5 ) 。这样,其他的对基组合t g ,t c ,c g ,a t 和a gd b - 曲线也可以类似的 得到。 a cd b - 曲线强调了a 和c 两个核酸基之问的关系,并且使它们的图形特点 易于呈现出来。此外,曲线中的颜色也可以根据我们的需要来表达不同的含 义。在图片2 5 中,我们可以清楚的看到外显子用黑色表示,内含子用灰色表示。 从d b 一曲线的构造来看,曲线具有局部单调增加的特点,而且曲线不会产生闭 环或圈,这样退化性的问题就被解决了。 尽管d b 一曲线能够完全的消除退化性,但它不能保证条任意的d n a 序列 和它的图形表示之间的映射是一一对应的。例如,序歹t a t g c t g 与a t g c g t 在 甲面上的d b 曲线是相同的。因此,s t e p h e ns 一t y a u 1 1 1 提出了一种新 的2 维d n a 序列图形表示方法,这种方法下的图形没有退化性,并且序列和 图形之间的映射是一“对应的。y a u 的图形方法是将a ,c ,g ,t 四种核酸基映 射为2 维笛卡儿坐标系中的4 个向量,其中嘧啶基( c 和t ) 在第一象限,嘌呤 基( a 和g ) 在第四象限( 图片2 6 a ) ,如下: ( j ,一孚) 一4 ,( 雩,一;) 一g ,( 竿,互1 ) 一g ( ;,竽) 一t 在图片2 6 b 中,我们给出了人类和山羊的f l - g l o b i n 基因第一外显子序列的图 形表示。从图形中,我们可阻看出y a u 的图形表示中没有圈,就是说退化性是不 存在的,对于这个结论,我们可以从数学上加以严格证明。 首先,我们假设组成一个闭圈的核酸基数目是1 3 ,在这个闭圈中a ,g ,c 和t 的 数目分别是a ,g ,c 和t 。因此,a + g + c + t = n 。由于a a ,g g ,c c 年l t t 构成了 一个闭圈,则下面的方程成立: 。( ;,一譬) + ,( 雩,一百1 ) + c ( 雩,互1 ) + t ( 互1 ,雩) = 。 第二章d n a 序列的图形表示方法 1 易t j 令: q 。 【。 图2 6 :( a ) y a u 设计的代表a ,g ,c ,t 的4 个单位向量。( b ) y a u 的关于人类和山羊的伊 g l o b i n 基因第一外显于序列的图形表示。 n + 、勋+ 、3 c + t = 0( 1 ) 一、3 n g + c + 3 t = 0 ( 2 ) ( 1 ) ( 2 ) 成立当且仪当a g ct = 0 ,因此n = 0 ,即在这个图形表示 中是不存在闭圈的。 进一步,我们来看一下y a u 的图形表示 d d n a 序列的对应关系,给出序列 上任一点p 在x o y 系里的坐标( x ,y ) ,则我们有: n ( ;,一雩) + 9 ( 雩,一j 1 ) + c ( 雩,互1 ) + t ( ;,雩) :( 砌) 即: 。+ 西+ 琵+ t = 2 x 一, - a n g + c + 、盈= 2 3 , 这里x ,y 是p 点在x 轴和y 轴的投影,则2 ) ( 、2 y 是具有m + n 西形式的无 理数( m 、n 是整数) 。m x ,m ”与嘞足由2 x 和2 y 唯一决定的,这里用唧,g p , c p 与亡p 表示从序列开始到p 点的a ,g ,c ,t 的数日,它们可以由以下线性系统得 到: 第二章d n a 序列的图形表示方法1 3 + 如= m z 蜘十c p 2 n z 一岛+ 勺2 一+ 如= n 口 这样,我们可以通过图形上序列的( x ,y ) 点得到原来的d n a 序列。所以, 我们在d n a 序列图形和d n a 序列之间建立了一一对应的关系。 y a u 的图形表示给我们提供一种直观的没有退化性的d n a 序列表示方法。 从这些图形中,我们可以看出2 维曲线可以将d n a 序列信息无损失的呈现在平 面上,可以清楚的看到序列的整体和局部特征。例如,在图片2 6 b 中,我们可以 通过简单的图形观察来分析人类与山羊的伊g l o b i n 基因第一外显子序列的差异 性。而且,我们还可以发现,两条互补的d n a 序列,它们的曲线表示是关于x 轴 对称的。事实上,我们用a g c t 来表示a ,g ,c :f i j t 在图形中的向量的顺序,利 用这个顺序,我们可以对给定的一条d n a 序列作出曲线。如果我们改变这个顺 序,例如将a ,t 互换,可以得到一条不同的曲线表示。这样a ,g ,c ,t 可以 有41 种不同的顺序排列,但有些排列得到的曲线表示是相同的。例如一条给定 的d n a 序列在5 - a g c t 一37 和它的逆序3 ,一t c g a - 5 下具有相同特征的曲线,只是 关于x 轴对称。类似的方式,我们可以通过改:变y a u 的图形表示中a ,g ,c ,t 的 向量顺序,得到1 2 种不同类型特征的d n a 表示曲线,在下一章计算数字特征中 我们会用到这一性质。 下面我们简单介绍另一种有特色的非退化性2 维d n a 图形表示方法,它足 由m i l a nr a n d i c 等人f 1 2 1 利用问距为单位距离的4 条平行线来建立的,在平行线 上的点表示d n a 中的核酸基在序列中的位置。这种方法首先需要设置与4 条平 行线相对应的a ,t ,g ,c 的位置,相似的,我们用a t g c 来表示a ,t ,g ,c 在 图形中的平行线顺序。沿着水平线轴上的核酸基之间也足一个单位距离。这样 我们把每个基在平行线上的对应点连接起来,就可以得到一条d n a 序列的图形 表示曲线( 图片2 7 顶端) 。 由于曲线可以建立在不同的a ,t ,g ,c 在图形中的平行线顺序上,因此 对于一给定的d n a 序列可以有不同的曲线表示。如在图片2 7 中,我们给出了 在a t g c 、a t c g 、t g a c 三种顺序下的曲线表示。a ,t ,g ,c 对于4 条平行线 第二章d n a 魏e 掰的鞠影表示方法1 4 图2 7 :m i l a nr a n d i c 对 :d n a 序歹# a ,堇t g g t g g a e c t g a c t e g t g a 的条平行线表示 法,4 条孚蠢线鸯2 4 秘币弱位置羲 列,我翻期撒了其孛瓣3 蘸。 可以有2 4 种排列方式,并且排列的逆序也不会产生出新类型特征的曲线,所 以我们可以得到1 2 种不同类型特征的d n a 表示曲线,图片2 7 中仅列出了其中 的3 种。 2 。2 。3 一狰纛衰在对d n a 核黢蒸分类基磷上的罄形表示方法 在最近豹文献中,出现了一些建立在对d n a 核酸基分类簇础主鹃鹜形表示 方法,在这种方法中,一条d n a j 芋列由三条独立的特征曲线所寝示。而且,对于 一条d n a 编码序列,它可以由它的三祭特征曲线中的任意对来唯一决定。例 如,p i n g - a nh e 1 j u nw a n g 1 3 将一条d n a 序列简化为3 个( o ,1 ) 序列。 用一种相似的方法,我们设计一种赫的基于三条特征曲绒的嵌示方法。我 嚣j 褥噻睫基( e 翻攀) 设菱为第一蒙瓣孛熬一个蠢量,嘌冷篓( a 葶羹g ) 为第疆象 限中的一个囱登,如下; ( 娑,一害) 一 a ,g ) ,( 宰,娑) 一惕研 显然,表示遮4 个基的向量均为单位向爨,并且两个向爨之间的夹角为9 0 。 我据可娃投据粪钕予、气n 的俸图方法,褥至i j d n a 痔列静銎影袭示。毽图形与序 鳓之蔫麓瓣瘦不怒一对应豹,帮孝捌不镌由匿形难一静决定。这警我弱也 用a g c t 来表示a ,g ,c ,t 在图形中的向量的顺序。在闰月2 8 中,我们给出了 基于a g c t ,a t g t ,a c g t 三种向量顺序的d n a 序列图形表示,我们得到了三 条特征曲线。 第二章d n a 序列的图j b 表示方法 1 5 图2 8 :基 - a g c t ,a t c g ,a c g t z 种向量顺序的d n a 序列图形表示,序列为人类 的f l - g l o b i n 基冈第一外显子的前2 0 个核酸基构成的序列。 第二章d n a 穿捌熬鞫形表示方法 1 6 单位向量在x 轴上的射影的性质保持一致,所以基于顺序a g c t 的d n a 图形 表示和它的逆序t c g a 的图形是相同的。事实上,对于一个给定的d n a 序列,它 在向量顺序a g c t ,a g t c ,g a c t ,g a t c ,c t a g ,c t g a ,t c a g ,t c g a 下 的豳形表示均怒捆同鳇。丽另方瓣,从向量顺序a g c t 转纯裂a c g t ,和 扶a g c t 转琵刭a 霉g c 爨l 会导篷秀条不鞫豹乎垂整唆。这撵,虢稻褥塞结专叁,对 于一条给定静d n a 序列,我们的向鳖妖射方法可班得出三种不同的特征曲线。 这三种特征曲线可以用分别用a g ,a c 和a t 来表示。根据d n a 中核酸基的化学 性质,我们可以把它们进行分类:嘌呤( a ,g ) 嘧啶( c ,t ) ;氯基( a ,c ) 酮 粪( g ,t ) ;弱氢键结合( a ,t ) 强氢键结合( g ,c ) 。 定t 璧( p i n g - a nh e ,j u nw a n g ) 对予一条d n a 编璐黟嬲,它可鞋由它的 三条特薤嫠线孛鹣强意一对来壤一决定。 证明令b = b 1 6 2 b 。为任意一条d n a 编码序列,则我们商一个映射办,j = 1 ,2 ,3 ,将b 映射为一组三维数组。具体来说,南( b ) = 咖( b 1 ) 咖( 幻) 如( 6 。) ,其 由 蜮妒 ;| :季黧;篡 一f | :雾蓑搿 一 :| :誉冀茹三; 这样,每一个执对应一个三维数组( 庐1 ( ) ,如慨) ,九仇) ) 。则定理可证。这里 的映射咖1 ,也:也分别对应于a g ,a c ,a t 三个特征曲线。 第三章d n a 序列的数值特征 在上一。章中,我们对d n a 序列的燃形表示方法给出了个较为详细豹综 述,这些委形方法对我翻瓣凌d n a f 爹捌鼹爰获静垒三物弦惑淘憨帮臻缀大,戈箕 薅一些较长鹩垮列可 冀帮助我们获褥一个全面稻局部的债怠分析。然而,对 于不同长度的d n a 序列之间的比较分析而育,图形表示并不是一个比较准确 的方法。例如,在表格3 1 中,1 1 个物种的卢- g l o b i n 基因第一外显子序列的长发 从8 6 n 1 0 5 爿= 不栩婶,这就需要我们用一些数字方法去做比较精确的序列间的比 较分析。 嚣鼓,我 】嚣黉翔一些不变的数字麓袋表示这些圈形。为了缛囊不交萋,我 f j 通常把这些d n a 序列蓝线转位为另释数学对象,矩阵。一旦我们用矩阵采 表示条d n a 序捌,我们可以从矩阵中寻找不变量来作为邈条d n a 序列的描述 符。目前可以导l 妊可行的d n a 序列撼谶符的矩阵主要是q 玺眭阵,n i d d 矩阵,它 的主特征值被认为足用来衡量d n a 序列图形表示中退化性程度的,主特征值越 小,它所对应魏黼澎表示中的退化性或麓叠程度越大1 1 4 。在这一章孛,我们主 要霸爱麓终瓣主耪薤毽去筏造一些翘餐遴嚣来表示d n a 黟捌。 3 1 商矩阵q q 矩阵是一个对称矩阵,q = q 7 ,其中,非主对角线上的元素被定义为陷 线上一对顶点之间的欧氏距离与两点悯沿曲线豹路线距离的商值,而主对角线 上鹃元素被定义为o ,郄: : 鼋若洋j 10若i = j 其中哦j 是曲线上第i 个顶点和第j 顶点之间的欧氏距离。这里我需要指出的 是如果路线中存在潮,则商量重复的鼹线距离仍然计算在蠹。 在表辏3 ,2 审,1 0 1 0 豹上三角短蓐慧耄我弱在2 2 3 莓审撬窭黥图形爨线下 的q 矩阵,冀中的d n a 序列是人类的z - g l o b i n 基因第- - # b 显予的前1 0 + 核酸基序 列。 第三章d n a 牟矧鹣数谴特链 鲞! :! ! ! ! 尘塑塑塑些g ! ! ! ! ! 凝固蔓二! 星王壁型墨基,壁鏖 ah u m a n 口一撼l o b | n 9 2b a 8 e 8 a t g g t g c a e g t g a c t c c t g a g g a g a a g t g t g c c g t t a c t g c c c t g t g g g g c a a g g 蕈g 矗矗e g t g g a 譬馘a g t 霹g t g g t g a g g e g e t g g g e a g bgoal艇l曲辆86b 8 s a t g c t g a c t g c t g a g g a g a a g g c t g g c g t c a c c g g g t t c t g g g g g a a g g t g a a a g t g g a t g a a g _ r _ r g g t g c t g a g g g c e t g g g c a g c o p o s s u m 融g o b i n 9 2b a s e s a t g g t g c a c t t g a g t t c t g a g g a g a a g a a c t g c a t c a c t a c c 斛c t g g t c t a a g g t g g a g g t t g a g g a g a c t g g t g g t g a g g e c 砧t t g g e a g d g a l l u s 辨g l o b i n 9 2b a s e s t g g t g c a c f g g a g t g c t g a g g a g a a g e a g c t e a t e a c c g g c o t c t g g g g c a a g g t c a a t g t g g c o g a a t g t g g g g g c g a a g g c g t g g c c a g e l e l l l t i rl - 甜o b i n9 2b 鹪婚 a t g a c t t t g c t g a g t g c t g a g g a g a a t g c t g a t g t c a c c t e t c t g t g g g g c a a g g t g g a t g t a g a g a a a g t t g g t g g c g a g g c c t t g g g c a g p m o e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论