(生物物理学专业论文)人与其他高等真核生物基因组isochore和超级保守序列研究.pdf_第1页
(生物物理学专业论文)人与其他高等真核生物基因组isochore和超级保守序列研究.pdf_第2页
(生物物理学专业论文)人与其他高等真核生物基因组isochore和超级保守序列研究.pdf_第3页
(生物物理学专业论文)人与其他高等真核生物基因组isochore和超级保守序列研究.pdf_第4页
(生物物理学专业论文)人与其他高等真核生物基因组isochore和超级保守序列研究.pdf_第5页
已阅读5页,还剩104页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着基因组测序技术的蓬勃发展,越来越多的全基因组序列完成测序。这 带给我们一个前所未有的机会,使我们可以在序列水平上研究基因组结构特征, 可以对多个物种进行全基因组水平上的比较研究。已有的研究工作揭示了基因 组结构的许多基本特征。本论文主要致力于人与其他高等真核生物基因组的 i s o c h o r e 结构和超级保守序列的研究。 论文第一部分介绍了生命科学研究的新动态和生物信息学相关知识。简要 介绍了z 曲线理论和方法,以及在基因组研究中的应用。 论文第二部分主要致力于人与其他高等真核生物基因组i s o c h o r e 结构的研 究。着眼于人类基因组i s o c h o r e 边界的生物学意义,使用最新开发的基于z 曲 线理论的基因组序列分段算法,在单核苷酸精度的水平上重新定位了人类基因 组5 6 个i s o c h o r e 的边界,共得到7 9 个独立的边界。通过与其他的生物学特征相 比较,我们发现i s o c h o r e 边界与很多有生物学意义的生物学元件的边界重合,如: 重复元件( r e p e a t ) ,g p g 岛分布,保守序列等。另外i s o c h o r e 边界附近的序列 组成高度保守。通过和已被实验证实的m h c 序列中的复制开关点附近的序列相 比较,有理由推断这7 9 个i s o c h o r e 边界都有可能是人类基因组中的复制开关位 点。结果表明,i s o c h o r e 的边界可能发挥着重要的功能,并且为理解人类基因组 的结构提供新的方向。论文还分析了六个基因组( 人,鼠,牛,斑马鱼,脂鲤, 杨树) 的i s o c h o r e 结构,发现温血脊椎动物,冷血脊椎动物,和植物基因组中都 具有i s o c h o r e 结构,并且分析了i s o c h o r e 结构特征的异同。发现植物基因组中内 含子( 外显子) 的平均g + c 含量与它们所在的i s o c h o r e 的g + c 含量的关系,明 显不同于脊椎动物。 论文第三部分是围绕植物基因组中超级保守序列的问题展开的。我们选择 了模式生物拟南芥,水稻和杨树基因组。研究发现了拟南芥和水稻两个基因组 间的3 3 个独立的超级保守序列片段。论文详细分析了这些超级保守序列的长度, 数量,序列特征,它们的基因功能,以及和其它物种之间的序列相似程度等诸 多问题。 关键词: z 曲线,i s o c h o r e 边界,超级保守序列,基因组,人类基因组,植物 基因组 a bs t r a c t w i t ht h ed e v e l o p m e n to ft h es e q u e n c i n gt e c h n o l o g y , t h ew h o l eg e n o m i c s e q u e n c e so fn u m e r o u so r g a n i s m sh a v eb e c o m ep u b l i c l ya v a i l a b l e i tg a v eu sa n u n p r e c e d e n t e do p p o r t u n i t yt oa n a l y z et h ef e a t u r e so fg e n o m eo r g a n i z a t i o n sa t s e q u e n c el e v e la n dt os t u d yd i f f e r e n c e sa m o n go r g a n i s m sb yc o m p a r i n gt h ew h o l e g e n o m i cs e q u e n c e s p r e v i o u sr e s e a r c hw o r k sh a v er e v e a l e dm a n yb a s i cf e a t u r e so f t h eg e n o m eo r g a n i z a t i o n a ls t r u c t u r e s i nt h i st h e s i s ,t h ei s o c h o r es t r u c t u r e sa n d u l t r a c o n s e r v e ds e q u e n c e so fh u m a na n do t h e re u k a r y o t i cg e n o m e sw e r ea n a l y z e d t h eh u m a ng e n o m ei s c o m p o s e do fl a r g es e q u e n c es e g m e n t s w i t hf a i r l y h o m o g e n e o u sg cc o n t e n t ,n a m e l yi s o c h o r e s ,w h i c hh a v eb e e nl i n k e dt om a n y i m p o r t a n tf u n c t i o n s b i o l o g i c a li m p l i c a t i o n so fm o s ti s o c h o r eb o u n d a r i e s ,h o w e v e r , r e m a i ne l u s i v e ,p a r t l yd u et ot h ed i f f i c u l t yi nd e t e r m i n i n gt h e s eb o u n d a r i e sa th i g h r e s o l u t i o n u s i n gt h es e g m e n t a t i o na l g o r i t h mb a s e do nt h eq u a d r a t i cd i v e r g e n c e ,w e r e d e t e r m i n e da l l7 9b o u n d a r i e so fp r e v i o u s l yi d e n t i f i e dh u m a ni s o c h o r e sa t s i n g l e n u c l e o t i d er e s o l u t i o n , a n dt h e nc o m p a r e dt h eb o u n d a r yc o o r d i n a t e sw i t ho t h e r g e n o m ef e a t u r e s w ef o u n dt h a t5 5 7 o fi s o c h o r eb o u n d a r i e sc o i n c i d ew i t ht e r m i n i o fr e p e a te l e m e n t s ;4 5 6 o fi s o c h o r eb o u n d a r i e sc o i n c i d ew i t ht e r m i n io fh i g h l y c o n s e r v e ds e q u e n c e sb a s e do na l i g n m e n to f17v e r t e b r a t eg e n o m e s ,i e ,t h eh i g h l y c o n s e r v e dg e n o m es e q u e n c es w i t c h e st oal e s so rn o n - c o n s e r v e do n ea tt h ei s o c h o r e b o u n d a r y ;s o m ei s o c h o r eb o u n d a r i e sc o i n c i d ew i t ha b r u p tc h a n g eo fc p gi s l a n d d i s t r i b u t i o n ( n o t et h a to n eb o u n d a r yc a na s s o c i a t ew i t hm o r et h a n o n eg e n o m e f e a t u r e ) i na d d i t i o n ,s e q u e n c e sa r o u n di s o c h o r eb o u n d a r i e sa r eh i g h l yc o n s e r v e d t h e s er e s u l t ss u g g e s tp o s s i b l ek e yr o l e so ft h ei s o c h o r eb o u n d a r i e sa n dm a yf u r t h e r o u ru n d e r s t a n d i n go ft h eh u m a ng e n o m eo r g a n i z a t i o n b yt h ea n a l y s i so ft h ew h o l e g e n o m e so fh u m a n , m o u s e ,c o w , z e b r a f i s h , t e 订a o d o na n dp o p l a r , w eh a v ef o u n dt h a t a l lt h eg e n o m e sa r ec o m p o s e do fi s o c h o r e s t h e ys h a r es o m ec o m m o nc h a r a c t e r s ,b u t i ns o m ea s p e c t st h e yd i f f e rf r o me a c ho t h e r t h ef e a t u r e so fi s o c h o r e si nt h ep o p l a r g e n o m ea r eo b v i o u s l yd i f f e r e n tf r o mo t h e r s i i t h ed i s c o v e r yo ft h eu l t r a c o n s e r v e de l e m e n t si nt h eh u m a ng e n o m eh a sc a u s e d w i d ea t t e n t i o n s t h eu l t r a c o n s e r v e de l e m e n t si ni n s e c tg e n o m e sh a v ea l s ob e e n s t u d i e d b u tt h ei n s t a n c eo ft h eu l t r a c o n s e r v e ds e q u e n c e si nt h ep l a n tg e n o m e s r e m a i n su n t o u c h e d i nt h i st h e s i sw ef o u n d3 3i n d e p e n d e n tu l t r a c o n s e r v e ds e g m e n t s w h i c ha r ea b s o l u t e l yc o n s e r v e db e t w e e na t h a l i a n aa n dr i c eg e n o m e s m a n y p r o b l e m sa b o u tt h e s eu l t r a c o n s e r v e ds e q u e n c e sh a v eb e e na n a l y z e d ,s u c ha sl e n g t h s o ft h eu l t r a c o n s e r v e ds e q u e n c e s ,t h et o t a ln u m b e ro ft h e m ,t h es e q u e n c ef e a t u r e s ,t h e g e n e t i cf u n c t i o n s ,a n dt h es e q u e n c es i m i l a r i t i e sw i t ho t h e rp l a n tg e n o m e s k e yw o r d s :zc u r v e ,i s o c h o r eb o u n d a r i e s ,u l t r a c o n s e r v e ds e q u e n c e s ,g e n o m e s , h u m a ng e n o m e ,p l a n tg e n o m e s i i i 独创性l 声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得丕盗盘堂或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在 论文中作了明确的说明并表示了谢意。 学位论文作者躲彖p 久暂签字嗍2 0 0 7 年1 2 月3 1 日 郑文新 学位论文版权使用授权书 本学位论文作者完全了解墨鲞盘堂有关保留、使用学位论文的规定。 特授权叁鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学 校向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者虢群支新 导师繇 郑文耕张春霆 签字同期:2 0 0 7 年1 2 月3 1 日签字同期:2 0 0 7 年1 2 月3 1 日 第一章绪论 第一章绪论 i n t r o d u c t i o n 1 1 生命科学研究的新动态 1 9 5 3 年沃森和克里克提出的d n a 双螺旋模型,开创了生物学发展的新纪元, 促成了分子生物学的诞生,其重大意义可比肩于达尔文的进化论、孟德尔的遗传 定律。从此生物学一改描述性科学的常态。同时,人类惊喜地发现“生命的奥秘 可以在分子水平上得到更为精确的解释。7 0 年代出现的基因工程技术极大地加 速和扩展了分子生物学的发展。1 9 9 0 年启动的人类基因组计划是生命科学史上 第一个大科学工程,开始了对生物全面、系统研究的探索,2 0 0 3 年已完成了人 类基因组的测序,第一次揭示了人类的生命密码【l 】。伴随着人类基因组计划和模 式生物基因组计划轰轰烈烈的展开并日趋完成,生物学数据海量积累,人类解读 自身奥秘的步伐加快到前所未有的水平。生物物理、生物化学等一系列交叉学科 的产生,表明人类正将已有知识应用于生命这种最高运动形式。这一切都预示着, 人类对自身的认识将进入一个崭新的阶段。但是真正洞悉生命之奥秘,尚且任重 而道远。生命科学的前进,需要综合运用已有的各门学科,或者提出自己特有的 方法,各学科与生物学之间的融合与渗透,顺应了这一趋势。人类基因组计划和 随后发展的各种组学技术把生物学带入了系统科学的时代【2 】。 系统生物学( s y s t e m sb i o l o g y ) 是运用生物的、遗传的、化学的及物理的方 法对生物系统进行扰动从而对生物系统产生的响应进行研究,其需要检测基因、 蛋白、代谢物及信号途径的响应,进而对所得信息、数据进行综合,构建描述系 统结构及其响应于上述各种扰动的数学模型口1 。系统生物学1 4 的主要技术平台为 基因组学( g e n o m i c s ) 、转录组学( t r a n s c r i p t o m i c s ) 、蛋白质组学( p r o t e o m i c s ) 、代 谢组学( m e t a b o l o m i c s ) 、相互作用组学( i n t e r a c t o m i c s ) 和表型组学( p h e n o m i c s ) 等。基因组学、转录组学、蛋白质组学、代谢组学分别在d n a 、m r n a 、蛋白 质和代谢产物水平检测和鉴别各种分子并研究其功能。相互作用组学系统研究各 种分子间的相互作用,发现和鉴别分子机器、途径和网络,构建类似集成电路的 生物学模块,并在研究模块的相互作用基础上绘制生物体的相互作用图谱。表型 组学是生物体基因型和表型的桥梁,目前还仅在细胞水平开展表型组学研究【5 】o 第一章绪论 系统生物学是在细胞、组织、器官和生物体整体水平研究结构和功能各异的各种 分子及其相互作用,并通过计算生物学来定量描述和预测生物功能、表型和行为。 系统生物学将在基因组序列的基础上完成由生命密码到生命过程的研究,这是一 个逐步整合的过程。显然,系统生物学是以整体性研究为特征的一种大科学1 6 j 。 “整合”是系统生物学的灵魂。包括系统内不同性质的构成要素( 基因、 m r n a 、蛋白质、生物小分子等) 的整合i v , s ,多细胞生物中从基因到细胞、到 组织、到个体的各个层次的整合【9 】,以及研究思路和方法的整合。系统生物学还 是典型的多学科交叉研究,它需要生命科学、信息科学、数学、计算机科学等各 种学科的共同参与。“信息”是系统生物学的基础。在前分子生物学时代,生物 学家把生命视为具有特殊“活力”的有机体,遵循着无机界不存在的法则进行生命 活动。在分子生物学时代,研究者们把生命视为一架精密的机器,由基因和蛋白 质根据物理、化学的规律来运转。在后基因组时代,像胡德这种类型的科学家, 把生命视为信息的载体,一切特性都可以从信息的流动中得到实现 1 0 l 。“干涉” 是系统生物学的钥匙。系统生物学一方面要了解生物系统的结构组成,另一方面 是要揭示系统的行为方式。相比之下,后一个任务更为重要。也就是说,系统生 物学研究的并非一种静态的结构,而是要在人为控制的状态下,揭示出特定的生 命系统在不同的条件下和不同的时间里具有什么样的动力学特征】。 系统生物学使生命科学由描述式的科学转变为定量描述和预测的科学,已在 预测医学、预防医学和个性化医学中得到应用。系统生物学将不仅推动生命科学 和生物技术的发展,而且对整个国民经济、社会和人类本身产生重大和深远的影 响。 1 2 生物信息学 生物领域各学科的飞速发展,带来了数据的激增【l2 1 。自全长1 8 m b 的嗜血 流感杆菌( h a e m o p h i t u si n f l u e n z a er d ) 基因组序列于19 9 5 年发表【l3 j 以来,迄今 ( 截止到2 0 0 7 年1 1 月2 7 号) 己完成了6 8 4 种自由生物体全基因组测序工作 ( h t t p :w w w g e n o m e s o n l i n e o r g ) t 1 4 】,其中包括4 9 种古细菌,5 5 8 种细菌和7 7 种真 核生物,包括线虫【15 1 、果蝇【1 6 】、拟南芥1 7 1 、水稻和人等。此外,还有1 4 4 8 种原核生物( 5 7 种古细菌和1 3 9 1 种细菌) 和8 7 9 种真核生物正在测序。序列数 据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷 第一章绪论 酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。序列数据库的数据 来源主要是国际上几大著名的测序中心如位于英国剑桥南郊基因组园区的 s a n g e r c e n t r e ,华盛顿大学基因组研究中心等。 圈1 - 1 生物学数据的累积增长 1 翟型盘盆篮堂塞奎曾“。 核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核 酸序列数据库有三个:美国生物技术信息中心( n c b i ) 的g e n b a n k 、欧洲分子 生物学实验室的e m b l - b a n k ( 简称e m b l ) 及日本遗传研究所的d d b j 。三个 组织相互合作这些数据库中的数据基本一致,差别仅限数据格式,对于某一特 定的查询,这三个数据库的查询结果一样。这些数据库是综合性的d n a 和r n a 序列数据库,数据来源于众多的研究机构和核酸测序小组,也来源于科学文献。 用户可以通过各种方式将核酸序列数据提交给这三个数据库。数据库中的每一条 记录代表一个单独、连续、附有注释的d n a 或r n a 片段。这三个数据库建立 了台作关系,根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机 构所发布的序列数据,通过计算机网络每天都将新发现或更新过的数据进行交 换,从而保证数据库序列信息的完整性。由于d n a 测序能力的极大提高,d n a 第一章绪论 序列增长的速度也非常快。截止到2 0 0 7 年9 月,这三个数据库的数据量一直以 指数方式增长,如图l - l 所示【2 0 】。( h t t p :w w w c b i p k u e d u c n ) e m b l 是最早的d n a 数据库,建立于1 9 8 2 年。该数据库的数据来源主要 有两条途径:一是由序列发现者直接提交,几乎所有的国际权威生物学刊物都要 求作者在发表文章之前将所测定的序列提交给e m b l 、g e n b a n k 或d d b j ,得到 数据库管理系统所签发的登录注册号;二是从生物医学期刊上收录已经发表的序 列资料。g e n b a n k 是国际上最著名的核酸数据库。其序列组织方式采用a s c i i 文本文件,主要存放核酸序列数据,同时还有一些辅助文件,存放与序列相关的 辅助信息,如作者名、基因名、关键字、参考文献、其他数据库链接等等。 除了以上所提到的三大主要数据库之外,还有许多常用的核酸序列数据库。 以下是一些重要数据库的网址: 表1 - 1 重要数据库的网址。 t a b l el - 1t h ew e b s i t eo fs o m ei m p o r t a n td a t a b a s e d a t a b a s e e m b l 7 ,t 。、 d d b j g e n b a n k d b e s t ,j,r ,g s d b # n。, s g d e1 + 4 一4 ”“”。一 ,u n i g e n e ,一 , ,n ,m t d b *+ f ,u a c e d b w e b a c e 。,o d b s t s h t t p :t w w w e d i a c u k e b i _ d o c s e m b i _ d b e d i t o p e m b l h t m l h t t p :w w w d d b j n i g a c j p h t t p :w w w 。n c b i ,n l m 。n i h 。g o v a n e b g e n b a n l d ,。磁 h t t p :l l w w w l n c b i n i m n i h g o v d b e s t h t t p :w w w n c g r o r g g s d b 一j ? ,。j ,:,jj 。 h t t p :g e n o m e - w w w s t a n f o r d e d u s a c c h a r o m y c e s h t t p :w w w n c b i n l m 。n i h 。g o v u n i g e n e j 。j j 一? j ,旗 h t t p :w w w t i g r o r g t d b t d b h t m i h t t p :t w w w s a n g e r 。a c 。u k s o f t w a r e a c e d b jj ? 。j j 一,。 h t t p :w e b a c e s a n g e r a c 。u k h t t p :w w w n c b i n l m n i h g o v d b s t s “d b e s t ”是表达序列标记数据库【2 l 】。在1 9 9 0 年以前,关于人类基因序列 的数据库主要来自于对单个基因的研究,e s t 数据的出现是生物信息学发展史上 的一个里程碑。e s t ( e x p r e s s e ds e q u e n c et a g s ) 方法已被证明是识别转录序列最 有效的方法。e s t 序列中含有大量的基因信息,利用这些信息可以发现新的基因, 并阐明基因功能。d b e s t 是g e n b a n k 的一个部分,该数据库包括不同生物的e s t 第一章绪论 序列数据及其他相关信息,主要从大量不同组织和器官得到的短m r n a 片段。 e s t 数据库的主要作用是通过搜索比较,给实验新得到的一条e d n a 序列或是 基因组序列赋予公认的功能。通过对e s t 数据库的逆向分析,能够识别与疾病 相关联的基因。 “d b s t s ”是序列标记位点数据库。d b s t s 是n c b i 的一个数据源,也是 g e n b a n k 的一部分,包含已知的序列标记位点组成和定位信息。s t s ( s e q u e n c e t a g g e ds i r s ) 是序列标记位点,可以通过b l a s t 搜索s t s 序列,或者直接通过 f t p 下载序列。 “u n i g e n e 是面向基因聚类数据库【2 1 ,2 2 1 。u n i g e n e 数据库将g e n b a n k 中的 序列进行自动分类,形成面向基因群的非冗余集合。但是自动分类的过程还有待 进一步发展和完善。每个u n i g e n e 群包含代表一个唯一基因的多个序列,并附有 与该基因相关的信息,如基因表达的组织类型、定位图谱等。除基因序列之外, 还包括大量的e s t 序列。u n i g e n e 既可以作为发现新基因的数据源,也可作为 生物学研究人员进行大规模表达分析的辅助工具。u n i g e n e 中包括人类、大鼠、 小鼠、牛等生物的相关数据,这些生物含有大量的e s t 数据。 以上是一些常用数据库,存储着大量的生物学数据。数据并不等于信息和知 识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与以指数方式增长 的生物学数据相比( 图1 - 1 ) ,人类相关知识的增长却相对缓慢,如何把数据转 化为知识就显得至关重要。生物信息学的产生和发展顺应了这一潮流堙3 。2 5 1 。数据 的产生,搜集和分析,都必须依靠计算机和网络,都必须发展数据库,算法和程 序,这就是生物信息学的使命。生物信息学是一门交叉学科,它包含了生物信息 的获取、处理、储存、分发、分析和解释等在内的所有方面,它综合运用数学、 计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。 生物信息学是当前生物学领域的研究热点,有人预计二十一世纪将是生物学 的世纪。由于未来几年蛋白质和核酸的测序数据将以指数方式增加, ( h t t p :w w w c b i p k u e d u c n c h i n e s e d o c u m e n t s b i o i n f o r h g p b i o i n f o r h t m l ) 近期生 物信息学将在以下几方面迅速发展:大规模基因组测序中的信息分析;新基因和 新s n p s ( 单核苷酸多态性) 的发现与鉴定;完整基因组的比较研究;大规模基 因功能表达谱的分析;生物大分子的结构模拟与药物设计。 生物信息学的远期任务是读懂基因组,发现遗传语言的根本规律。从而阐明 若干生物学中的一些重大自然哲学问题,如生命的起源与进化等。这一研究的关 键要了解非编码区。普遍认为,它们与基因在四维时空的表达调控有关。因此寻 第一章绪论 找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课 题。对人类基因组来说,迄今为止,人们真正掌握规律的只有d n a 上的编码蛋白 质的区域( 基因) 等,很小一部分。如何深入了解非编码区序列的功能是当前科 学家们面临的一个巨大的挑战。另外,遗传密码起源和生物进化的研究,也是一 个很重要的课题。我们曾经利用全基因组序列的z 曲线,用几何的方法来分析进 化关系,代表了一个进化分析的新方向。虽然该方法还有待改进,但应该说是一 个很有前途的新方法。 1 3z 曲线理论 d n a 序列是所有生物遗传信息的携带者,它是一种用四个字母a 、c 、g 、 t 表示的字符串序列( 附录i ) 。5 0 多年前,d n a 双螺旋结构的发现告诉人们: 如果我们不能解读d n a 序列,就不能揭开生命的奥秘。因此对d n a 序列的分 析和解释是生物信息学最重要的工作之一。z 曲线理论是一种d n a 序列的几何 化表示方法,是显示和分析d n a 序列的直观工具,给定的d n a 序列与三维空 间中的一条曲线一一对应 2 6 , 2 7 】。z 曲线的提出,开创了一个利用几何学方法分析 和研究d n a 序列的崭新领域。 考虑一个长度为l 的单链d n a 序列,从第一个碱基开始,依次考察该序列, 每次只增加一个碱基。当考察到第n 个碱基时( n = 1 ,2 ,l ) ,从1 到1 2 这 个子序列中四种碱基各自出现的次数分别用a 。,c 。,g 。,l 表示。由于有 a 。+ e + e + l = n ,所以a 。,c 。,g 。,乙可以由三个变m 且x ,y 。,z 。表示,瓦, y 。,z 。的定义如下: 1 = ( 4 + q ) 一( e + z ) 三兄 :y 。= ( a 。+ e ) 一( g 。+ 乃) 兰m k = ( 4 + 乙) 一( q + g ) 善形 则,y 。,z 。可以对应于三维空间的一点只,把这样一系列点只( 共l 个点) 连 接起来构成的曲线称为d n a 序列的z 曲线2 6 2 q 。可以证明z 曲线与所表示的d n a 序列是一一对应的。即给定一d n a 序列,存在唯一的一条z 曲线与之对应;反 之,给定一z 曲线,可以找到唯一的一个d n a 序列与之对应【2 7 】。z 曲线包含了 d n a 序列的全部信息,是d n a 序列等价表示的一种几何形式。 2仉 y 之氓 第一章绪论 z 曲线的三个分量有着明确的生物学意义:x 。表示嘌呤( a + g ) 嘧啶( c + t ) 碱基沿序列的分布。当嘌呤碱基多于嘧啶碱基时,x 。 o 。否则z 。 o ,否则儿 o ,否则z 。 0 ,代表该区间g c 含量降低;相反z 曲线下 降代表该区间g c 含量增加。利用z 曲线可以不使用窗口技术来计算g c 含量。 这种方法的最高精度水平,可用来计算序列中单个碱基的g c 含量,而不是象以 往那样以确定大小的窗口为单位。该特性在分析基因序列碱基组成的精细结构时 非常有用【2 引。z 。曲线跃变幅度很大的区域是我们所感兴趣的,这些异常区域通 第一章绪论 常是致病岛等具有重要生物学意义的序列所在的区间【2 8 _ 3 0 1 。 1 4z 曲线理论的应用 z 曲线这种表示d n a 序列的一个等价的三维空间曲线可以用几何学的途径研 究基因组序列1 3 。利用z 曲线可以研究真核和原核基因组中若干重要问题,包括 人与高等真核生物基因组的i s o c h o r e 结构,微生物基因组的基因水平转移,古细 菌基因组复制起始位点识别,酵母基因组基因识别,细菌与古细菌基因组的a b i n i t i o 基因识别,s a r s c o v 基因组基因识别,高g + c 含量微生物基因组的结构, 比较基因组学以及分子进化等的研刭3 1 】。这里简单介绍z 曲线的应用。 1 4 1 基于z 曲线理论的基因识别算法 基于几何学的基因识别算法研究与基因识别软件的开发是z 曲线的主要应 用之一。酿酒酵母( & c e r e v i s i a e ) 是一种单细胞真核生物,是第一个完成测序的 真核生物基因组。从其已被实验证实的基因序列出发,提取它们的z 曲线的共同 数字特征( 用9 个参数描述) ,然后用于判别一个待预测的开放读框( o r f ) 是 否为基因 3 2 , 3 3 1 。用各种检验方法证实,此算法有9 5 以上的准确度。基于此,开 发的酵母基因组基因识别软件z c u r v ey 。z c u r v e 是基于z 曲线理论研发出 的细菌与古细菌a bi n i t i o 的基因识别算法与相应软件1 3 4 1 。该算法不需要任何先验 的知识,只要输入待预测的基因组的d n a 序列就可以了。在此算法中,z 曲线 的提取参数从1 8 个增加到3 3 个,准确率又提高了,但用所增加的准确率来换取 较低的伪正识别率。结果,此算法有9 8 以上的准确率,但有较低的伪正率。基 于“z 曲线在起始密码子附近出现了跳变行为,而与其上、下游的z 曲线行为形 成了鲜明的对比”这个发现,提出了新的算法并开发了新的基因翻译起始位点识 别软件,即g s f i n d e r 3 5 1 。该软件的识别精度相当高,优于同类的其他软件,例 如r b s f i n d e r 。为了抗s a r s 的需要,充分考虑冠状病毒( c o r o n a v i r u s ) 基因组 的特点,很快研发出冠状病毒基因专用基因识别软件z c u r v ec o v1 0 版,该 软件尤其适用于s a r s c o v 基因组,具有运行速度快、结果准确可靠等优点【3 6 1 。 可以肯定地说,在国际上提出的各种基因识别算法中,z 曲线方法至少是最好的 算法之一。z 曲线方法参数的多少取决于用多少个参数来描述一条三维空间曲 线。国外一组研究人员只用3 个参数来描述z 曲线,进行人类基因识别,并取得 8 第一章绪论 了可喜的结果【3 7 】。 1 4 2 细菌基因组水平基因转移研究 细菌的水平基因转移被认为是其进化的普遍方式。细菌通过获得外来基因使 之能更好地适应环境甚至产生新的物种。基因组岛( g e n o m i ci s l a n d ) 通常包含 许多通过水平转移获得的基因。按其功能不同可分为致病岛、代谢岛、抗抗生素 岛等。某一微生物基因组通过水平转移获得之基因组岛,通常与该生物原有基因 组有不同的g + c 含量、密码子使用与蛋白质氨基酸组成,这就构成了识别基因 组岛的基础。然而实际情况却要复杂得多,因为水平转移来的基因组岛的g + c 含量可能与宿主基因组的g + c 含量相当接近,基于窗口的g + c 含量计算方法由 于分辨率低,对这种情况是无能为力的。而基于z 曲线理论的( 卜c 含量计算的 无窗口方法由于拥有高分辨率( 其精度可达单核苷酸) ,所以对任何情况都适用。 用累积g c 轮廓图成功地识别出许多基因组岛。例如,蜡状芽孢杆菌( b a c i l l u s c e r e u s ) 与炭疽杆菌( b a c i l l u sa n t h r a c i s ) 是关系很近的两种细菌,其基因组皆已 完成测序。通过比较这两个基因组的累积g c 轮廓图,从蜡状芽孢杆菌基因组中 成功地识别出3 个基因组岛【29 1 。研究表明,累积g c 轮廓图方法不仅适用于基因 组岛的识别,还可识别单个水平转移的基因。据认为,这一新方法将成为研究微 生物基因组水平转移基因的重要的生物信息学工具和标准方法之一1 3 剐。 1 4 3 古细菌基因组复制起始位点的识别 生物进化的三界理论已经普遍被接受,其中古细菌兼具细菌和真核生物的特 点。细菌基因组通常只有单复制起始点,而真核生物基因组普遍具有多复制起始 点。因此,古细菌基因组复制起始位点的研究引起了普遍的关注。识别细菌与古 细菌复制起始点的通用生物信息学方法是g c s k e w 浏3 9 】。但是g c s k e w 法是利 用d n a 游动法从给定基因组序列产生的一种二维曲线,它仅是三维的z 曲线的 一个特殊情况【4 0 1 。因此,凡是能用g c s k e w 法的地方,z 曲线也能用。反之,z 曲线能解决的,g c s k e w 法未必能解决。古细菌基因组复制起始位点的识别就是 一些例子。用z 曲线方法可以识别了梅氏甲烷八叠球菌( m e t h a n o s a r c i n am a z e i ) 基因组的复制起始位点,预测它位于1 5 6 4 6 5 7b p 与15 5 6 2 4 1b p 之间1 4 1 ,而用 g c s k e w 方法无效。詹氏甲烷球菌( m a t h a n o c o c c u sj a n n a s c h i i ) 是第一个完成测 第一章绪论 序计划的古细菌,自1 9 9 6 年序列公布以来,用了各种理论与实验方法,包括 g c s k e w 方法,均不能预测出其复制起始位点。而用z 曲线方法确定了其复制 起始位剧4 2 1 。用z 曲线方法还可以研究盐杆菌( h a l o b a c t e r i u m ) n r c 1 株的基 因组,并预测该基因组具有双复制起始位点而且确定了它们的准确位置【4 3 1 。 由 于古细菌中参与复制的基因非常接近真核生物,人们很早就一直推测古细菌有多 复制起始位点,但在该文【4 3 j 发表时,所有鉴别出的古细菌复制起始位点全部是单 一的。所以该论文关于双复制起始位点的预测就非常引人注目。论文发表以后不 久,其中的一个复制起始位点的预测就得到实验的证实,实验结果与用z 曲线方 法得到的预测结果准确地吻合j 。由此可见,z 曲线方法是识别细菌与古细菌基 因组复制起始位点的强有力的工具。综述文章【45 i ,系统地介绍了用z 曲线方法 预测古细菌基因组复制起始位点的原理和方法,并对1 9 个己知古细菌基因组复 制起始位点的预测和实验验证情况进行了总结【4 川。 1 4 4 高g + c 含量细菌和古细菌基因组结构研究 基因组之g + c 含量是决定其组织结构的重要参数。研究发现 3 4 , 4 6 ,g + c 含 量在约5 6 时是细菌与古细菌基因组结构的一个转折点。g + c 含量大于此值的 微生物基因组中o r f 高度重叠。通常,描述o r f 之z 曲线的参数组成一个高维 空间。结果,高g + c 含量的细菌与古细菌基因组的o r f 在此高维空间形成一个 “6 花瓣”结构【4 0 i 。天兰色链霉菌( s t r e p t o m y c e sc o e b c o l o ra 3 ( 2 ) ) 、绿脓杆菌 ( p s e u d o m o n a sa e r u g i n o s a ) 和盐杆菌( h a l o b a c t e r i u m ) n r c 1 株( 古细菌) 都 呈现同样的现象,而低g + c 含量( 小于5 6 ) 的基因组则没有此种现象。进一 步的研究发现,高g + c 含量的细菌与古细菌基因组都采用十分相似的密码子使 用表,而不管其种、属甚至界是何等的不同m 。例如,新月柄杆菌( c a u l o b a c t e r c r e s c e n t u s ) 、耐放射微球菌( d e i n o c o c c u sr a d i o d u r a n sr i ) 、盐杆菌n r c 1 株( 古 细菌) 、结核分枝杆菌( m y c o b a c t e r i u mt u b e r c u l o s 括) 、苜葛根瘤菌( s i n o r h i z o b i u m m e l i l o t i ) 、绿脓杆菌和m e s o r h i z o b i u ml o t i 基因组均属于高g + c 含量的,它们具 有十分相似的密码子使用表,而且它们具有共同的基因识别参数【47 1 。此外, a e r o p y r u mp e r n i xk 1 是一种耐高温的嗜热泉生古细菌,g + c 含量为5 6 3 ,刚 好位于过渡区。它的原注释的o r f s 在z 曲线参数所形成的9 维空间中聚集成3 个集团,其中有两个集团对应伪正预测。因此,可以用简单的方法来重新识别该 基因组的基因。用k m e a n s 聚类方法非常准确地识别出1 6 1 0 个基因,远少于原 第一章绪论 注释的2 6 9 4 个和n c b i 工作人员在r e f s e q 中注释的l8 4 1 个基因,他们的共同 缺点都是包含较多的伪正预测1 “i 。 l - 4 5 比较基因组学与分子进化研究 d n a 序列的z 曲线理论是基于对4 种核苷酸化学结构以及形成双螺旋时之 对称性提出来的。它不是任何d n a 一游动”,但几乎所有d n a 游动都是z 曲线的 特殊情况。z 曲线是迄今为止所提出的唯一的d n a 序列的一、一对应表示,也 就是说:对于任一给定的d n a 序列,有唯一的一条z 曲线与之对应;反之,给 定一条z 曲线,它所代表的d n a 序列可以唯一地导出涸此,z 曲线携带了d n a 序列的全部信息。对两个基因组或染色体序列的比较,可以通过对它们所对应的 z 曲线的比较来进行。 例如:虽然c o l i 的k 1 2 株和0 1 5 7 :h 1 7 株的长度不同,分别为46 和55 m b 。 但是他们的三维z 曲线表现出相应的模式( 图卜2 ) ,表明他们有较近的亲缘关 系。 “唑! ! ! h 7 一 。r j 万f f 叮一:= ? i ? 2 一j 寸孓、j 拶| ,沁、 灞? “溺r 图卜2 c o h 的k - 1 2 株和0 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论