(生物化学与分子生物学专业论文)原始蛋白结构与功能的生物信息学研究.pdf_第1页
(生物化学与分子生物学专业论文)原始蛋白结构与功能的生物信息学研究.pdf_第2页
(生物化学与分子生物学专业论文)原始蛋白结构与功能的生物信息学研究.pdf_第3页
(生物化学与分子生物学专业论文)原始蛋白结构与功能的生物信息学研究.pdf_第4页
(生物化学与分子生物学专业论文)原始蛋白结构与功能的生物信息学研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东理t 人学硕l j 学位论文摘要 摘要 生命起源是现代自然科学要解决的三大核心问题之一。2 0 世纪5 0 年代初,m i l l e r 成功模拟了原始地球环境下的氨基酸产生,引领大家揭开了现代生命起源研究的新篇 章。半个多世纪以来,科学家们在生命起源方面进行了大量研究,对氨基酸、密码子 等的起源初步形成了统一的认识,但是对于蛋白质起源的研究却相对进展缓慢。这是 因为研究原始蛋白的结构与功能是很困难的。但是近几年来,基因组学、结构基因组 学等各种“组学( o m i c s ) ”的快速发展为蛋白质结构进化历史提供了新的研究途径。 这些新兴学科为我们提供了大量关于蛋白质结构与功能的信息,由此可以初步推断原 始蛋白的结构与功能特征。 蛋白质的某些性质( 或元素) ,包括折叠类型( f o l d ) 、酶的催化位点、辅酶、辅 因子以及部分短肽片段等,在进化过程中是非常保守的。它们可以作为“分子化石 ( m o l e c u l a rf o s s i l s ) ”,用来推测原始蛋白的结构与功能。但是,对于原始蛋白的结 构与功能特征我们很难用实验去证实,因此,我们需要用不同的方法、标准以及不同 的实验数据对其进行进一步的验证。 本论文从新的蛋白数据集和新定义的分子化石酶的催化位点出发,推测了原 始蛋白的结构与功能特征。首先,通过选取酵母( y e a s t ) 蛋白质组中最古老的一组蛋 白,综合运用现有的生物信息数据库s g d 、s c o p 、p d b 等,对这一组蛋白进行结构 统计分析,发现这些蛋白的折叠类型在d o m a i n 和f i a m i l v 空间中的分布服从“p o w e r - l a w 规律( 幂率分布) ”;其次,发现这一组蛋白中使用最普遍的折叠类型( f o l d s ) 分别 为:p 1 0 0 pc o n t a i n i n gn u c l e o s i d et r i p h o s p h a t eh y d r o l a s e s ( c 3 7 ) 、t i mb e t a a l p h a - b a 玳1 ( c 1 ) 、n a d ( p ) - b i n d i n gi b s s m a l l l l - f o l dd o m a i n s ( c 2 ) 、f e r r e d o x i n 1 i k e ( d 58 ) 、r i b o n u c l e a s e h 1 i k em o t i f ( c 5 5 ) 和f l a v o d o x i n 1 i k e ( c 2 3 ) ,这与此前c a e t a n o a n o l l 6 s 等人的研究结论 非常一致;最后,发现最原始的蛋白功能都与一些基本的代谢有关,如嘌呤代谢、嘧 啶代谢以及卟啉叶绿素代谢等。此外,我们还发现,大部分原始蛋白都需要结合a t p 等辅因子来发挥f 常功能。通过利用m a n e t 数据库和文献信息,通过比较酶的起源 顺序,分析了主要代谢途径的进化方式,本论文还初步检验了h o r o 晰t z 假说的合理 性。 关键词:生命起源;原始蛋白;分子化石;代谢进化;h o r o 嘶t z - r e t r o 铲a d e a b s t r a c t 1 h eo r i g i no fl i f ei so n eo ft h et h r e em o s ti l n p o l l a n tb a s i c a ls c i e n c eq u e s t i o n s s i n c e m i l l e r se x p e 血n e n t sd e p e n d e do nr e d u c i n gg a s e st l a tm a yb ep r e s e n to nt l l ep r i m o r d i a l e 狐hi nl9 5 3 ,t h er e s e a r c ho ft h el i f eo r i g i nh a de m e r e dan e w e r a t h eo r i g i no f 锄i n oa c i da n dg e n e t i cc o d eh a ss t u d i e db e t t e ri nt h ep a s td e c a d e s ,b u t 、v e k n o wl i t t l ea b o u tt h ep r i m i t i v ep r o t e i n ,b e c a u s ei ti sv e 9d i 衢c u l tt oe x p l o r em es t r u c t u r e s a n d 如n c t i o n so ft h ev e ua n c i e mp r o t e i n s h o 、v e v e r ,f 瓠td e v e l o p m e n to ft h eg e n o m i c sa n d s t m c t g e n o m i c sa n ds oo nh a v es u p p l yu sm u c hi n f 6 n n a t i o n so np r o t e i ns t m c t u r e sa n d 如n c t i o n s ,w h i c hc a nb et a k e nt os t u d yt h ee v o l u t i o no ft h ep r o t e i ns t m c t u r e s s o m e e l e m e n t so fp r o t e i n s ,s u c ha sa r c h “e c t u r e s ( f o l d s ) ,c a 协l y t i cs i t eo fe n z ) ,m e s ,c o e n z y m e s , c o f a c t o r s ,a n ds h o r ts e q u e n c e sa n ds oo n ,i sv e r ) ,c o n s e e dd 埘n ge v o l u t i o nt h a tc a l ls e e a sm o l e c u l a rf o s s i l st oh e l pi n f e rm ec h a r a c t e r so fp r i m i t i v ep r o t e i n so ns t m c t u r e sa i l d f h n c t i o n s 1 1 1 ep r e l i m i n a 巧s u c c e s so ft h i ss t r a t e g yh a sb e e n 、) l ,i t n e s s e di nt h ep a s tf e wy e a r s w ep r o p o s ean e ws t r a t e 窒| yt h a tw eu s ei l e wd a t as e t 距dn e wd e f i n e dm o l e c u l a r f o s s i j - t h ea m i n oa c i dc o m p o s i t i o no fc a t a l y t i c s i t e so fe l l z y m e s _ _ t oi m - e r l e c h a r a c t e r so fv e r ya n c i e mp r o t e i n w eu s em eo l d e s ta g e 铲o u po fy e a s tp r o t e i n s ,a n ds e a r c h f o rr e l a t i n gb i o i n f o 肌a t i c sd a t a b a s e s ,s u c ha ss g d ,s c o p ,p d ba i l ds oo n w ef i i l dt 1 1 a t v a r i o u sm 0 1 e c u l a rf o s s i l sa n dd i 缳j r e n tp r o t e i nd a t a s e t sl e a dt os i m i l a rc o n c l u s i o n so nt h e f e a t l 】r e so fv e 珂a n c i e n tp r o t e i n s :i ) t h ea r c h i t e c t u r e so fv e 巧a n c i e n tp r o t e i n sb e l o n gt ot h e f o l l o w i n gf o l d s :p 1 0 0 pc o n t a i n i n g n u c l e o s i d e t r i p h o s p h a t eh y d r 0 1 a s e s ( c 3 7 ) ,t i m b e t a a l p h a - b a 盯e l ( c 1 ) ,n a d ( p ) - b i n d i n gi b s s m 锄一f o l dd o m a i n s ( c 2 ) ,f e r r e d o x i n _ l i k e 仙5 8 ) ,f l a v o d o x i n ,l i k e ( c 2 3 ) a n d 硒b o n u c l e a s eh 1 i k em o t i f ( c 5 5 ) ;i i ) t h e 舢1 c t i o n so f v e r ya n c i e n tp r o t e i n sa r er e l a t e dt ot h em e 伽) o l i s m so fp u r i n e ,p y r i m i d i n e ,p o 叩h y r i n , c h l o r o p h y l la n dc a r b o h y i i r a t e s ;i i i ) ac e r t a i np a r to fv e 巧a n c i e n tp r o t e i n sn e e dc o t - a c t o r s ( s u c ha sa t p ,n a d h o rn a d p h ) t ow o r kn o n l l a l l y m o r e o v e r ,、ec o m p a r e dt h et i m eo r d e ro fe n z y m e s 印p e 眦m c ea n da n a l y z e dt h e e v o l u t i o np 甜e m so ft h ep r i m a r ym e 切b o l i cp a 廿1 w a yb ys e a r c h i n gm a n e td a t a b a s e ,a n d f o u n dm a tt h ed i s t r i b u t i o no ft h eo l d e s te n z y m e si nt h em e t a b o l i cp a t h 、v a y sc a i ls h e dl i g h t o nt h er a t i o n a l i 付o ft h eh o r o 谢t z r e t r o g r a d ee v o l u t i o nm o d e l k e y w o r d s :m eo r i g i n o fl i f e ; p r i r n j t i v ep r o t e i n ; m o l e c u l a rf o s s i l ;t h ee v o l u t i o no f m e t a b o l i s m ;h o r o w i t z - r e t r o g r a d e i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得山东理工大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生繇粞欠錾 时间:砌j i l 年石月乒日 关于论文使用授权的说明 本人完全了解山东理工大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件和磁盘,允许论文被查阅和借阅;学校可以用不同方式在 不同媒体上发表、传播学位论文的全部或部分内容,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名: 导师签名: 时间:加以年舌月细 时间:乙孵6 月垆日 山东理r 丁人学硕l 二学位论文第一章生命起源研究概述 第一章生命起源研究概述 “生命是如何起源的”是现代自然科学要解决的三大核心问题之一,也是人们关 注和争论的焦点。2 0 0 5 年7 月s c i e n c e 评选出的1 2 5 个重要科学问题中,生命起源占 据了重要位置。 早在几千年前的远古时期,人类就十分关注地球上的生命起源问题。从古至今, 人们对于生命起源问题提出了诸多假说,如“神创论”,认为生命是由超物质力量的神 所创造,或者是一种超越物质的先验所决定的。这是人类认识自然能力很低的情况下 产生出来的一种原始的观念;“无生源论”认为生命是自然而然地发生的;“生源论”则 认为生命由亲代和孢子产生,即,生命不可能自然而然地产生。“宇生论”认为地球生 命来源于其他的星球或宇宙。现代,通过大量科学实验以及对古老化石的研究,人们 对生命起源的问题有了更深入地研究。目前,广大学者普遍接受并认同韵是“化学进 化学说【1 1 。 “化学进化学说 认为:地球形成早期,原始大气层主要是由含量丰富的甲烷 ( c h 4 ) 、氨( n h 3 ) 、氢( h 2 ) 等气体组成,属强还原性大气环境;而太阳紫外线辐 射强烈,闪电、宇宙射线等提供了各种形式的能量。在这种条件下,这些气体合成了 大量氨基酸、嘌呤、嘧啶等低分子有机物质。这些有机物质降落到池塘、湖泊和海水 里,经过水的蒸发浓缩或冰冻冷缩,各种氨基酸聚合成了蛋白质,嘌呤、嘧啶等碱基与 脱氧核糖、磷酸结合形成了脱氧核糖核酸。蛋白质与脱氧核糖核酸或核糖核酸结合形 成了有生命活力的单细胞,单细胞分裂成多细胞。地球上的生命于是就这样出现了。 一般认为,化学进化可分为4 个阶段: 1 无机分子( c h 4 、n h 3 、h 2 0 、c o 、c 0 2 、n o ) 的生成; 2 生物小分子( 氨基酸、嘌呤、嘧啶、糖、单核苷酸、a r p 等高能化合物、脂类 等) 的合成; 3 生物大分子( 多聚核苷酸、蛋白质) 的合成; 4 原始细胞的出现。 山东理t 人学侦1 j 学位论文第一章生命起源研究概述 1 1 氨基酸的起源 一 斟m p 图1 1m m e r 的放电实验装置 ( 摘自n l eo r i g i no f l i f ea 1 1 de v o l u t i o no f c e u s ,f i g u r e2 2 7 ) 生命起源的化学进化学说首先在1 9 5 3 年得到了美国学者u r e y 和他的学生m i l l e r 的实验证实【2 】,如图1 1 所示。m i l l e r 用该套密闭实验装置模拟原始地球环境( c h 4 , n h 3 ,h 2 ,h 2 0 ) ,连续进行火花放电7 天,结果得到了2 0 种小分子有机化合物,其 中有1 1 种氨基酸。这1 1 种氨基酸中,有4 种氨基酸甘氨酸( g l y ) 、丙氨酸( a 1 a ) 、 天门冬氨酸( a s p ) 和谷氨酸( g l u ) ,是天然蛋白质中所含有的。m i l l e r 的实验试图 向人们证明,生命起源的第一步从无机物到有机物在原始地球环境条件下完 全能够实现。 尽管很多科学家们对于u r e v 和m i l l e r 的模拟实验提出了越来越多的支持证据, 但对于地球上最早的生命是否是由原始大气层放电合成的氨基酸等有机分子进入水 中聚合演化而形成的,仍然是有争议的【蛐j 。有的科学家认为,早期地球上的任何c h 4 、 n h 3 和h 2 s 都会迅速被紫外线辐射所分解,释放出的h 2 多数也会逃逸到太空中。但 是,科学家们的近期研究证实,m i l l e r 实验中使用的这些还原性气体在原始地球大气 中确实存在e 7 1 。而且,后来还有科学家通过实验证实,即使在中性混合气体( c 0 2 , n 2 和h 2 0 ) 或者近中性混合气体( c o ,n 2 和h 2 0 ) 条件下,也能够产生大量的氨基 酸小分子,如g 1 y ,a l a ,s e r ,v - a l ,a s p 和g l u 【业刮j 。 但是,以上研究结果都有一个相似的地方,那就是,尽管他们用高能质子放射不 同的混合气体都产生了氨基酸,但是这些氨基酸都是热稳定性较高不易发生分解变化 的小分子氨基酸。纪洪芳【8 】等人通过计算2 0 种氨基酸和8 7 9 3 个相关异构体分子的自 由能发现,大部分氨基酸( 尤其是小分子氨基酸) 的分子自由能水平线都集中在底端。 如图1 2 所示。 2 山东理1 二人学硕 :学位论文 第一章生命起源研究概述 gaspvtclin dkq 嚣m hfr yw 图1 2 氨基酸分子自由能( 红色) ( 摘自h f j ie t a l ,j m 0 1 s 仃u c t ,2 0 0 5 ) 从图上我们可以看出,与大分子氨基酸( h i s ,p h e ,a r g ,t y r 和唧) 相比,小 分子氨基酸( g l y ,a l a ,s e r ,p m ,、嘲,t 1 1 r ,a s p 和g l u ) 的自由能都比较低( 图 1 2 ) 。根据物理化学“能量最低”原理,如果分子越接近热动力学平衡状态,则分子自 由能能量越低,分子相对丰度越高。因此,从该计算结果可以推断,这些低自由能的 小分子氨基酸在生命起源之前的原始环境中应该是大量存在的。这一推断与“m i l l e r 汤”及默奇森陨石( m u r c h i s o nm e t e o r i t e ) 上大量小分子氨基酸( g 1 y ,a l a ,s e r ,p r o , v a l ,a s p 和g l u ) 的发现p j 保持了较好的一致性。 而后来的遗传密码共进化理论,将氨基酸进化过程分为两个阶段,所对应产生的 氨基酸分别为第一相、第二相氨基酸1 2 6 j 。我们将在后文中详细叙述。 1 2 砌蛆世界 最初的生命是在原始地球环境条件下,由非生命物质,在极其漫长的时间里,经 过四个阶段的化学进化过程,一步一步演变而成的。 氨基酸和核苷酸是动植物体内普遍存在、最重要的两种生物小分子。它们是建造 生命大厦的砖块和基石。但是生物小分子过于简单,并不具备原始生命的基本特征和 功能活性,只有当它们演变成更为复杂的生物大分子之后,才能导致生命的诞生。众 所周知,蛋白质的生物合成要有核酸作模板,而核酸的生物合成要有酶蛋白来催化。 于是,在生命起源的化学进化过程_ 生物大分子的合成”阶段,科学家们对“先有 蛋白质还是先有核酸”这个问题展开了深入研究。 山东理丁人学倾i :学位论文第一章生命起源研,概述 圣地亚哥大学s a l k 研究所的l e 0 r g e l ,英国阜家医学会的f c r i c k 和伊利诺斯大 学微生物学系的c r w r o e s e 研究发现,在合成蛋白质时d n a 首先转录成了i 矾a ,然 后再由r n a 翻译成蛋白质,因而,很有可能r n a 的起源早于d n a 和蛋白质。他们 认为,i a 和d n a 之间的结构相似性可以解释为:或许是r n a 先进化了,然后d n a 才随之进化;在相当长的一段时间里,首先是i a 来催化生命反应,渐渐的少量蛋 白质参与催化作用;在这一进化过程中,蛋白质不断改进和完善,最终完全参与并取 代i a 的催化作用而成为现今的酶蛋白。 到了8 0 年代初期,美国科罗拉多大学伯尔德分校的t r c e c h 【旧l l 】和耶鲁大学的 s a l t m a l l ( 他们二人共享了1 9 8 9 年的诺贝尔化学奖) 分别发现,有的i a 具有能够 使自身断裂,然后把分开的各部分再次拼接起来的酶催化作用( 催化性i a , 曲o z y m e ) 。这种r n a 分子集携带遗传信息和催化活性于一体,使许多人相信,在生 命起源过程中是先有核酸而不是先有蛋白质。美国诺贝尔化学奖获得者、哈佛大学生 物学家w g i l b e r t 于19 8 6 年在n a t u r e 上撰文,首次提出了i a 世界_ i 斟a 、r l d ” 一词【l2 。w g i l b e r t 认为,第一批生物体由能做简单自我复制的r n a 分子组成。随着 i a 的进化,它们“学会”了合成蛋白质和脂类,前者可以帮助加快复制,后者可以 形成生物膜。最后这种i 矾a 生物体产生了d n a ,终于形成了一个更为可靠的遗传系 统【13 1 。 1 9 9 2 年,美国加州大学分子生物学家n o l l e r 及其同事的研究进一步发现表吲h 】, 曲o z 严e 能够单独催化氨基酸间肽键的形成;同时c e c h 实验室也发现,氨基酸与t i 州a 间键的形成和断裂是由曲。巧m e 单独催化完成的【”j 。这些结果为i 埘a 学说提供了强 有力的证据。“r n a 世界”的观点特别突出了催化性i a 的承先启后作用,认为这是 生命起源过程中的关键阶段。 在生命起源的问题上,r n a 学说已经被越来越多的人认可。然而,该学说的最 大问题在于从来没有任何直接的证据表明i a 生命形式是切实存在的。有反对者怀 疑是否有过这样的“i 矾a 世界”。他们提出这样的疑问:i 矾a 是怎样产生的? r n a 在 最佳的实验室条件下都难以合成,更不用说在生命出现前的环境了。而且,现在的催 化性r n a ,催化效率一般都很低,因此,认为提出“i 矾a 世界”概念的根据是不充分的。 但无论如何,出r n a 学说引发的i a 催化性的研究,导致了一系列r n a 新内容的 发现;这些研究所取得的成果,使人们重新认识到了r n a 的重要性。r n a 许多鲜为 人知的事实,使许多生物学中的定律及其中心法则受到挑战,使生物学中许多重大问 题的研究重新成为热点。 1 3 密码子产生 密码子起源是生命起源的核心问题。 2 0 世纪6 0 年代中期,人们破译出编码蛋白质的遗传密码是由a ( a d e n i n e ) 、g ( g u a l l i n e ) 、c ( c y t o s i n e ) 、u ( u r a c i l ) 个碱基组成的6 4 个三联体密码子【1 6 _ 1 7 1 。 4 山东理1 二人学坝i :学位论文 第一章生命起源研究概述 遗传密码宣告全部破译,这在生物学史上是一件具有纪念意义的事情。但是对于 “遗传密码究竟是如何起源的”这个问题,被人们视为生物学研究上的一个挑战。 m o n o d 【l 列将其称之为“密码子起源之谜”。 就在密码子宣告完全破译之后,立即出现了两个对立的理论。1 9 6 6 年w b e s e 【1 9 】 提出立体化学相互作用( s t e r i ci n t e r a c t i o n ) 论,认为遗传密码子起源于三聚体与氨基 酸的直接配对;1 9 6 8 年c r i c k 【2 0 j 提出偶然事件冻结论( f r o z e na c c i d e n t ) ,认为密码子 与氨基酸对应关系的出现,纯粹是一种偶然现象,而后在进化过程中被固定下来。但 是这两个理论都没有给“密码子起源”做出一个系统的解释,于是人们不断提出一些新 的理论【2 1 。2 5 j ,其中影响最大的是w _ o n gj 于1 9 7 5 年提出的遗传密码共进化理论( g e n e t i c c o d ec o e v o l u t i o n a d rt h e o 巧) 弛,该理论经过3 0 多年的发展和检验,已经得到了大多 数人的认可1 2 州。 该理论认为,生命起源之前的前生物合成( p r e b i o t i cs ”t h e s i s ) 并不能产生全部 的2 0 种氨基酸,参与构成原始蛋白的只是很少的一部分氨基酸,而另外一部分氨基酸 必须是在后来的共进化过程中由前体氨基酸经过生物合成途径获得的。最先合成的氨 基酸都占据了很多相似( 相差一个碱基) 的遗传密码子。但是,后来由于新酶蛋白、 非酶催化剂及辅因子的出现,使得原有的这些氨基酸发生化学变化从而产生出新的氨 基酸。在这个过程中,前体氨基酸退让出自己的一些密码子给产物氨基酸,而产物氨 基酸也尽可能的去抢占那些距离前体氨基酸较近且编码前体氨基酸不是非常稳定的 密码子归自己所有。从而这些氨基酸之间便形成了一种“前体产物 ( p r e c u r s o r _ p r o d u c t ) ”的对应关系。 在模拟自然界生命起源以前的生物合成实验中我们发现了氨基酸的产生【2 1 ,后来 在默奇森陨石( m u r c l l i s o nm e t e o r i t e ) 上我们发现了氨基酸的存在【2 ”,这都说明氨基 酸的前生物合成途径是合理的。但是仅仅依赖于原始大气合成并不能够产生全部的2 0 种氨基酸【2 8 - 3 0 1 。因此,共进化理论提出了氨基酸的三种来源途径3 1 】:( 1 ) 一部分氨基 酸来自于前生物合成途径,为第一相氨基酸;( 2 ) 另一部分氨基酸来自于后期的生物合 成途径,为第二相氨基酸;( 3 ) 还有极少数的氨基酸没有经过直接的密码子编译而是通 过翻译后修饰参与蛋白质构成,为第三相氨基酸。 表1 - 1 第一相氨基酸与第二相氨基酸的比较 ( 摘自w o n gj b i o e s s a y s ,2 0 0 5 ,2 7 :4 1 7 ) g i ya b 钰r 船pe v 墨lh u p 沁t i i rp 瞻b r 知g 嘲lt 糖矗摹转g 蝻l 黔c 弦哺越 p h a s eo f 钝l n 4 11j11112222222222 l r m d 删科舟目喇矿+ + + + + + + + + o ooooooon拜 8 第一相氨基酸一第二相氨基酸的密码子参见 3l 】,p r o 和卟r 被认为是边缘第一相氨基酸,p h e 、 t y r 和c y s 是边缘第二相氨基酸。 6 高能质子放射合成的氨基酸 3 2 3 3 】用+ 标记,没有合成的氨基酸用0 标记。在放射合成反应体系 山东理t 人学硕i j 学位论文第一章生命起源研究概述 中没有硫元素,因此,该对比不适用于c y s 和m e t 。 前面也已经提到,科学家们用高能质子放射三组不同的还原性混合气体,结果产 生的绝大部分产物是第一相氨基酸,很少或者几乎没有第二相氨基酸3 2 瑚】。这与共进 化理论对氨基酸的第一相第二相的分割得到了完美的吻合( 表1 1 ) 。 总之,遗传密码共进化理论认为氨基酸的生物合成( 锄i n oa c i db i o s ”t h e s i s ) 是 密码子形成的主要因素。与3 0 年多年前相比,现在该理论已经得到了更多更广泛的支 持【2 6 1 。 1 4 蛋白质的起源 尽管我们对氨基酸、密码子等的起源进行了比较深入细致的研究,并初步形成了 统一的认识,但是我们对于蛋白质起源的研究却相对进展缓慢,这是因为研究原始蛋 白的结构与功能是很困难的。一来,没有原始蛋白的化石遗迹可供参考,二来,蛋白 质前生物合成需要很长的周期,很难在实验室进行模拟。但是近几年来,基因组学、 结构基因组学等各种“组学( o m i c s ) 的快速发展为蛋白质结构进化历史提供了新 的研究途径。他们的发展为我们提供了大量关于蛋白质结构与功能的信息,由此可以 初步推断原始蛋白的结构与功能特征。 众所周知,蛋白质的某些性质( 或元素) ,包括折叠类型( f 0 1 d ) 、酶的催化位点、 辅酶、辅因子以及部分短肽片段等,是非常保守的【3 4 刁引。它们可以作为“分子化石 ( m 0 1 e c u l a rf o s s i l s ) ,用来推测原始蛋白的结构与功能。这种研究方法已经在过去 的几年内得到科学界的认同。 蛋白质的最小组成单位是d o m a i n 。d o m a i n ,是蛋白分子中比较紧凑的结构部分, 它具有特定的结构、功能以及独立的进化史7 1 ,而且是被用来进行蛋白质结构分类的 基本依据【3 8 。纠。蛋白d o m a i n s 所包含的蛋白质折叠结构类型是确定的【4 0 】。通常序列相 似的蛋白质具有相似的结构,而自然界中的结构是相当保守的4 2 】,这为我们研究蛋 白质结构进化提供了线索。 t r i f o n o v 等人通过搜索比较1 3 1 个原核蛋白质组中的公共氨基酸序列发现,有些 序列在蛋白质组中是很保守的,而且短肽序列的起源顺序早晚和保守程度之间存在一 定的对应关系【4 3 喇】。这些发现有力地表明,最广泛分布的序列起源于一个共同的祖先, 并且,序列越保守,其所对应的模序结构也就越古老。很有意思的是,在5 0 个最保 守的序列( 八肽) 模序中,其中有2 2 个是存在于c 3 7f o l d 结构域田讲j 。d e a i l e 及其 同事选取并分析了1 5 7 个完成基因组测序的物种( 包括1 7 个古生菌,1 3 0 个细菌, 1 0 个真核细胞生物) 基因组中蛋白质f o l d 出现的频率( 分别统计了每个基因组中单 个f o l d 的拷贝数,每个f o l d 所发生的家族数目和每个f o l d 所出现的基因组的数目) , 发现叫d 是最古老的蛋白c i a s s 类型【4 5 4 6 j ,对氨基酸合酶的结构统计数据也证明了这个 观点【4 7 1 。 6 山东理t 人学坝l :学位论义第一章生命起源硼 ,z 概述 通过对一个特定的f o l d 或者f o l d 类群在不同基因组中出现的频率进行分析, g e r s t e i n 等人构建了全基因组进化树【4 引。c a e 协1 0 等人对蛋白质f o l d s 的进行全面考查 和了解之后提出了一种新方法,用来研究蛋白质的多样性并重建了更为普遍的系统进 化树来描述蛋白质f o l d 结构的进化【4 9 5 1j 。他们的这个方法有两个基本的前提假设:( 1 ) 蛋白质结构远比序列要保守,并且携带了足够多的进化信息;( 2 ) 蛋白质f o l d 在自然 界中存在越普遍说明他越古老。根据全局范围的f o l d 分布数据重建的系统进化树显示 了蛋白质f 0 1 d s 比较清晰的进化模式。其中b 出现在进化树最底端,随后依次分别 为0 l 邯,a 1 1 0 【,a l l b ,s m a l l ,m u l t i d o m a i n 类型【4 圳。如图1 3 所示。 图1 3 原始f o l d s 系统进化( a ) 和蛋白结构等级分类( b ) ( 摘自c a e t a n o a n o l l 考s ,g e n o m er e s ,2 0 0 3 ,1 3 :1 5 7 0 ) c a e t a i l o a n o l l 6 s 等人通过对蛋白质f o l d 进行大规模的系统发生学分析发现:( 1 ) 最古老蛋白的结构都属于以下f o i d 类型( 从早到晚) :p 1 0 0 pc o n t a i n i n gn u c l e o t i d e t r i p h o s p h a t eh y d r 0 1 a s e s ( c 3 7 ) ,d n a ,i i n a - b i n d i n g3 - h e l i c a lb u n d l e ( a 4 ) ,t i mp 仅一b a r r e l ( c 1 ) ,n a d ( p ) b i n d i n g r o s s m a n n f - o l dd o m a i n s ( c 2 ) , f e r r e d o x i n 1 i k e ( d 5 8 ) , f l a v o d o x i n 1 i k e ( c 2 3 ) a n d 黜b o n u c l e a s eh 1 i k em o t i f ( c 5 5 ) 【4 9 。5 1 】:( 2 ) 早期蛋白的功能都 与嘌呤( p u r i n e ) 、嘧i 定( p y r i m i d i n e ) 、卟啉( p o 印h y r i n ) 、叶绿素( c h l o r o p h y l l ) 及糖 ( c a r b o h y d r a t e s ) 代谢等过程相关俐。 1 5 课题的提出 综上所述,我们可以发现,以前用来探索古老蛋白特征的研究方法是基于以下两 点:( 1 ) 使用大规模的基因组作为初始数据集;( 2 ) 使用蛋白质结构或者保守的短肽序 列作为分子化石。但是,对于原始蛋白的特征研究结果我们很难用实验去证实,因此, 我们需要用不同的方法、标准以及不同的实验数据对其进行进一步的验证。 山东理丁人学硕1 :学位论文第一章生命起源研概述 根据前人的研究结论,原始蛋白多数是具有催化功能的酶蛋白,而且,在蛋白质 结构比序列保守的前提下,参与构成酶蛋白催化活性中心的氨基酸位点组成应该更具 有保守性1 3 5 。3 制。因此,我们试图定义另外一个分子化石酶的催化位点来验证 前人的研究结论。 根据遗传密码共进化理论【2 6 】,早期的蛋白主要由自然产生的小氨基酸组成的,而 那些大的氨基酸是在后来的进化过程中通过生物合成得到的。这个理论为我们利用分 子化石的氨基酸组成来鉴定后起源蛋白提供了一个框架参考,那就是,如果一个酶蛋 白使用后起源的氨基酸( 如h i s ,p h e ,c y s ,m e t ,研和唧5 3 5 4 】) 来构成催化位点, 那么这个蛋白很可能就是后来才出现的。c a e t a n o a n o l l 6 s 等人研究发现原始酶蛋白的 催化位点大约9 0 是由早起源氨基酸组成【5 2 】。为此,本文中我们试图以新的蛋白数据 组和新定义的分子化石为核心内容,来推测原始蛋白的特征。我们很期待这个新的研 究方法所得到的结论是否与前人的研究结果一致。而且,我们对原始蛋白结构与功能 的研究,也有助于我们进一步探索原始生命体的代谢起源问题。 8 山东理t 人学硕i j 学位论文第- 二章原始蛋白结构的生物信息学研究 第二章原始蛋白结构的生物信息学研究 本章中,我们以新的蛋白数据组为研究内容,综合运用各种生物信息数据库( 如 s g d ,s c o p 等) 来推测原始蛋白的结构特征。 2 1 研究对象酵母蛋白组中最古老的一组蛋白 由于酵母是一个单细胞生物,生存于广泛的外界环境中,其蛋白序列的多样性被 认为受环境影响比较大。于是,w e n h s i u l l gl i 【5 5 j 将酵母蛋白质组选定为研究对象, 用来研究蛋白质功能、连通性及其编码基因倍增数之间的关系,并根据他们与其他物 种中同源蛋白质的亲缘关系远近,将酵母蛋白质组按年老程度分成了五组,编号为 i v 。所有的酵母蛋白质序列( sc g 陀v 括幻pp r o t e i i ls e q u e n c e s ) 来自于s g d ( 丛p ;出丛凸! 逝y 璺i 堡! g 曼塾q 迅曼:q 型) 。 女口i 羽2 1 。 蟮 图2 1 酵母蛋白质组被分为五个年龄群 ( 摘自“w e n h s i u n g ,m 0 1b i o le v 0 1 ,2 0 0 6 ,2 3 :3 0 - 3 9 ) 由于我们研究的是原始蛋白的结构,因此,我们将第一组蛋白选定为我们的研究 对象。其中第一组蛋白是与真细菌( e u b a c t e r i a ) 同源的,共有1 8 0 6 个蛋白。 9 芋誊甍墨is b再蕾莹争 孓口嚣羲to 譬嚣 柞毽畦黟i爵净ni!委 、o窭略砷轴急毒影 譬iclos臀。霉 ,f 等t s 屯一聱#重一c誊 是毋h菘簪 嚣当嚣张dn譬譬 山东理t 人学坝i :学位论文第二章原始蛋 j 结构的生物信息学研究 2 2 研究方法及路线 2 2 1 数据采集 我们所采集的蛋白信息主要取自几个相关的生物信息数据库。 s g d ( s a c c h a r o m y c e sg e n o m ed a t a b a s e ) 数据库1 5 6 j ,由从属于美国国立卫生研究 院( n a t i o m l i n s t i t u t e so fh e a l t h ,n i h )的国立人类基因组研究所( n a t i o n a lh u l n a l l g e n o m er e s e a r c hi n s t i t u t e ) 创建而成,设于在斯坦福大学医学院遗传学系,由s g d 项目组负责更新和维护。该数据库包含了啤酒酵母( 勋c c 办口阳彬弦耵c p 心v 括砌p ) 的全 部基因信息。 s c o p ( s t n l c t u r a lc l a s s i f i c a t i o no f p r o t e i n sd a t a b a s e ) 数据库酬是一个依据结构进 化等级进行分类的数据库。它包含了现今已测结构的所有蛋白的全面详细的描述信 息。s c o p 数据库的基本分类单位是蛋白d o m a i n 。这些d o m a i l l 被人为的分成以下四 个进化层级:f a m i l i e s ,s u p e r i l i e s ,f o l d s ,c l a s s e s 。如图2 2 所示: 2 2 2 研究路线 图2 2s c o p 蛋白质结构层次图 我们首先从s g d 数据库下载了相关蛋白的氨基酸序列阳,然后链接至s c o p , 查找蛋白质结构信息,找出这些蛋白对应的d o m a i n 类型,包括他们所在的 s u p e m 咖i l i e s 和f 0 1 d s 组成。其中后两者的信息也可以通过p d b 数据库【5 8 】获取结构信 息。步骤如下: 1 0 山东理工人学硕士学位论文 第二章原始蛋白结构的生物信息学研究 第一步:输入检索号,即s g d 序列号“o i 乇f n a m e ”,例如“y l i 也8 4 c ”。 镑移- 帅,忡一m 叫 文件f 9 i 鑫董蕾( 廿- l 蠛是f 出工“d督筋哇 w 口口口 c # _ mc h t “奄瞳孵? 渤- 蛋工置” 卜s 姻r c h o p “o n s 卢抽n 自ds a f c hr o l ;t e ms e 3 m f r t x t 科e o t 小s 9 a f c hs g 0w e b # a g , g k b a ( j j n eh “n f e ,s 口a c hl i t 4 f 鳅i l f r a n dn 0 f e 卜e i i jl t 幅o u ”e s g 截l m q 靳j n e ds f e ”1 a f 0 黼;- m e i i o m o l f 嗽y ( 1 0 m i a r i s o n x p d bh o 1 1 q i u ( 1 0p r 0 en0 0 n a ,n s ? j 0 i 0 1 0 m 0 o n a 1 1 an :o r p s g d 、1 5as a e m l f i cd a t a b a s e “f h em o e c u b 1 0 l o 毋a n d 口e ne f l c so fi h ey e as i s a c c a , m so e 俜w s 培ew n i c hi sc o m m o n 咛k n o w na sb a k e f 。so rb u d d i n g y e 8s t n e wa n dn o t e w o r t h y s g dc u r a t i o nn e w s g e n ( ) n l e ! ;r m f b h o f n e w 毋a p e r sa d d e dt os 6 0n sw e e k v e wg e n o m ew i d ea n a i v 翻s0 a p e f si ns g d d o8i l t e r a t t | f es e a f c h t a b i eo rg e n es t i m 玎l a r vp a f a g f a p h s n e wo n e sh 1 9 h “g h t e dy e i i o v f u n c t i o n e x o r 群s i o n 。 s e q u e n c ea n da n n o t a t i o nu p d a t e s - 协艚 7 ,2 8 :篡:慧。曼

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论