(计算机系统结构专业论文)蛋白质空间结构预测系统的研究和实现.pdf_第1页
(计算机系统结构专业论文)蛋白质空间结构预测系统的研究和实现.pdf_第2页
(计算机系统结构专业论文)蛋白质空间结构预测系统的研究和实现.pdf_第3页
(计算机系统结构专业论文)蛋白质空间结构预测系统的研究和实现.pdf_第4页
(计算机系统结构专业论文)蛋白质空间结构预测系统的研究和实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 蛋白质空问结构的预测和分析有着非常重要的生物学意义。随着生物信息学 技术的高速发展,蛋白质序列数据库的数据积累的速度越来越快,与此同时,蛋 白质结构的测定远远落后于蛋白质序列的增长,己知序列的蛋白质数量和己测定 结构的蛋白质数量的差距将会越来越大。尽管蛋白质结构测定技术有了较为显著 的进展,但是,通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高。 因此,开发应用于蛋白质结构预测的工具是一项非常迫切的任务。 本文所述的蛋白质空间结构预测系统是一个综合运用工作流的信息集成技术 和蛋白质空间结构预测技术的系统。本文就系统中涉及到的背景技术和方法,主 要是蛋白质空间结构预测过程中用到的各种生物信息学技术和方法进行了研究和 讨论,在此基础上提出了基于同源建模方法进行蛋白质空间结构预测的设计方案, 并给出了基于工作流信息集成的具体实现。系统通过j a v a 程序、s h e l l 脚本实现各 生物信息学工具间的数据格式转换,最终在w e b 页面上呈现结果和用户所需的信 息。 基于同源建模的蛋白质空间结构预测通常包含基本的三个步骤:目标序列的 同源性搜索、多序列比对、以已知结构为模板建立模型。本系统在此基础上进行 了扩展,加入了结果模型的评价、与已知结构的蛋白质进行结构比对两个环节, 让系统更贴近于应用。文章叙述了各步骤的功能作用及所使用的工具与方法,并 给出基于工作流信息集成的具体设计和实现,最后通过对系统一个具体实例的测 试证明了系统设计的合理性和实现的可行性。 关键词蛋白质结构预测,工作流,同源建模 华南理工大学工学硕士学位论文 a b s t r a c t p r o t e i ns t r u c t u r ep r e d i c t i o nm e a n sm u c hi nb i o l o g y w i t ht h er a p i dd e v e l o p m e n to f b i o i n f o r m a t i c s ,t h es p e e dt h a tt h ed a t aa c c u m u l a t ei np r o t e i ns e q u e n c ed a t a b a s ei s b e c o m i n gf a s t e ra n df a s t e r m e a n w h i l e ,t h es p e e dt od e t e r m i n ep r o t e i ns t r u c t u r eh a s b e e nl e f tb e h i n d o u ta n da w a y t h u st h ed i f f e r e n c eb e t w e e nt h ea m o u n to fk n o w n p r o t e i ns e q u e n c ea n d t h a to fk n o w n p r o t e i n s t r u c t u r eb e c o m e s b i g g e r a n d b i g g e r t e c h n i q u et od e t e r m i n ep r o t e i ns t r u c t u r e i s p r o g r e s s i n gr a p i d l y ,h o w e v e r , t h e p r o c e s so fp r o t e i ns t r u c t u r ed e t e r m i n a t i o ni nl a bi ss t i l lv e r yc o m p l i c a t e da n di tc o s t s m u c h t h e r e f o r e ,i t sa nu r g e n tt a s kt od e v e l o pt o o l sa p p l i e dt op r o t e i ns t r u c t u r e p r e d i c t i o n t h ep r o t e i ns t r u c t u r e p r e d i c t i o ns y s t e m t a k e st h ea d v a n t a g e so fw o r k f l o w i n f o r m a t i o ni n t e g r a t i o nt e c h n i q u e sa n dp r o t e i ns t r u c t u r ep r e d i c t i o nt e c h n i q u e s t h e a r t i c l ed i s c u s st h er e l a t e dt e c h n i q u e sa n dm e t h o d s ,e s p e c i a l l yt h a ti np r o t e i ns t r u c t u r e p r e d i c t i o n ,t op r o p o s ead e s i g nb a s e do nh o m o l o g ym o d e l i n ga n dp r e s e n tas p e c i f i e d i m p l e m e n t a t i o nb a s e do nw o r k f l o wi n f o r m a t i o ni n t e g r a t i o n t h es y s t e mi m p l e m e n t s d a t af o r m a tc o n v e r s i o na m o n gt h eb i o i n f o r m a t i c st o o l sw i t hj a v ap r o g r a m ,s h e l l s c r i p t s ,t h e np r e s e n tt h er e s u l t sa n di n f o r m a t i o n so nt h ew e b p a g e s h o m o l o g ym o d e l i n g i n c l u d e st h r e e s t e p s :t a r g e ts e q u e n c eh o m o l o g o u s s e a r c h i n g ,m u l t i p l es e q u e n c e sa l i g n m e n t ,s t r u c t u r e c a l c u l a t i o na n d m o d e l i n g t h e s y s t e mm a k e sa ne x t e n s i o nb ya d d i n gm o d e le v a l u a t i o na n ds t r u c t u r a la l i g n m e n t ,w h a t m a k e si tm o r ea p p l i c a b l e t h ea r t i c l ei n t r o d u c e st h ef u n c t i o n sa n dm e t h o d si ne a c h s t e p ,t h e np r e s e n t st h ed e s i g na n di m p l e m e n t a t i o nb a s e do nw o r k f l o w i n f o r m a t i o n i n t e g r a t i o n ,a n df i n a l l yp r o v eb o t h t h er a t i o n a l i t yo ft h e s y s t e md e s i g n a n dt h e f e a s i b i l i t yo fi t si m p l e m e n t a t i o nt h r o u g hat e s to nt h ei n s t a n c eo ft h es y s t e m k e y w o r d s p r o t e i ns t r u c t u r ep r e d i c t i o n ,w o r k f l o w , h o m o l o g ym o d e l i n g 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究 所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出 重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到 本声明的法律后果由本人承担。 作者签名:前茹答幺 日期:山哕年g 月上日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上相应方框内打“ ,”) 作者签名:谣痂璐 导师签名: 秽 文 1 日期:o 。岁年6 月2 目 日期:。岁年g 月2 日 第一章引言 第一章引言 1 1 什么是蛋白质空间结构预测及其意义 基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表( a ,t ( u ) , c ,g ) 的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的 工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的 识别和传递等。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译, 将原来四字符的d n a 序列,根据三联密码规则翻译成2 0 字符的蛋白质氨基酸序 列。从数学上讲,蛋白质结构预测的问题是寻找一种从蛋白质的氨基酸线性序列 到蛋白质所有原子三维坐标的映射。典型的蛋白质含有几百个氨基酸、上千个原 子,而大蛋白质( 如载脂蛋白) 的氨基酸个数超过4 5 0 0 。所有可能的序列到结构 的映射数随蛋白质氨基酸残基个数呈指数增长,是天文数字。然而幸运的是,自 然界实际存在的蛋白质是有限的,并且存在着大量的同源序列可能的结构类型 也不多,序列到结构的关系有一定的规律可循。因此,蛋白质结构预测是可能的。 随着大规模全基因组测序计划在全世界范围的广泛开展,产生了大量d n a 的 序列信息,目前已经获得几十种生物的全基因组序列,将来会有更多的全基因组 序列产生。然而,基因组测序只是了解生命奥秘的一个开端,要真正理解这些信 息的关键还在于理解基因的产物一蛋白质是如何调控生命有机体的。换言之,人 类将步入一个以破译、解读、开发基因组功能为主要研究内容的新时代,即后基 因组时代( p o s t g e n o m i ce r a ) j 或功能基因组时代( f u n c t i o n a lg e n o m ee r a ) 1 2 1 。在 后基因组时代,蛋白质结构预测是一项重要任务,因为结构是功能的基础,蛋白 质三维结构的解析是功能基因组的必要有机部分,掌握蛋白质的结构信息对于研 究蛋白质的功能及作用机制具有重要意义。研究蛋白质结构,有助于了解蛋白质 的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质( 或其它分子) 之问的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。 对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指 导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者 结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可 靠的依据,同时为新的药物分子设计提供合理韵靶分子结构。 虽然分子生物学的快速发展,大大加快了蛋白质结构的测定速度,但是蛋白 质结构的测定远远落后于其氨基酸测定的速度口j 。在p d b ( p r o t e i nd a t ab a n k ) 1 4 】 华南理上大学工学硕士学位论文 数据库里大约有2 5 ,0 0 0 条蛋白质结构的记录,而在t r e m b l 5 1 和g e n p e p t l 6 蛋白 质序列数据库罩却有大概2 ,8 0 0 ,0 0 0 条记录。为了缩小结构与己知序列之间的 差距,发展蛋白质结构的预测方法势在必行,根据蛋白质的氨基酸序列预测其三 维空间结构己成为人们关注的热点。 1 2 国内外背景 信息学的商业价值十分最著。国外很多火学,研究机构,软件公司甚至政府 机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的 软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩 短药物开发周期,抢注基因专利,获取更大利润。我困如不加大资余投入力度, 将来可能会花更多的钱去购买别人的软件,使用专利基因或购买新的药物。所幸, 我国也开始重视这一学科:南、北方人类基因组中心的相继建成,北大生物城的 破土动工等,标志着我国对生物信息学的重视。我们有理由相信,我国的生物信 息学在2 l 世纪会有巨大的飞跃。 目前在国外有已经有一些公开且免费的的蛋白质空间结构预测服务,可以从 w e b 上获得,比较出名的有c p h m o d e l s1 7 1 ,s w i s s - m o d e l j ,s d s c l ,e s y p r e d 3 d 9 1 ,3 d j i g s a w 1 0 l ,r o b e t t a ,p r e d i c t p r o t e i ns e r v e r t 2 1 ,p a r m o d e l t t 3 l 等。 s w i s s m o d e l 是瑞士生物信息研究所的一项预测蛋白质三级结构的服务, 它利用同源建模的方法实现对一段未知序列的三级结构的预测。该服务刨建于 1 9 9 3 年,开创了自动建模的先河,并且它是讫今为止应用最广泛的免费服务之一。 s w i s s m o d e l 服务器是以用户输入信息的最小化为目的设计的,即在最简单的情况 下,用户仅提供一条目标蛋白的氨基酸序列。由于比较建模程序可以具有不同的 复杂性,用户输入一些额外信息对建模程序的运行有时是有必要的,比如,选择 不同的模板或者调整目标模板序列比对。 f ir s ta p p r o a c hm o d e ( 简捷模式) : 这种模式提供一个简捷的用户界面, 该服务主要有以下三种方式。 用户只需要输入一条氨基酸序列,服务 器就会自动选择合适的模板。或者,用户也可以自己指定模板( 最多4 个) ,这些 模板可以来自e x p d b 模板数据库( 也可以是用户上传的含坐标参数的模扳文件) 。 如果一个模板与提交的目标序列相似度大于2 5 ,建模程序就会自动开始运行。但 是,模板的可靠性会随着模板与目标序列之间的相似度的降低而降低,如果相似 度不到5 0 往往就需要用手工来调整序列比对。这种模式只能进行大于2 5 个残基 的单链蛋白三维结构预测。 a 1i g n m e n ti n t e r f a c e ( 比对界面) : 这种模式要求用户提供两条已经比对好的序列,并指定哪一条是嗣标序列, 第一章引言 哪一条是模板序列( 模板序列应该对应于e x p d l 3 模板数据库中一条已经知道其空 间结构的蛋白序列) 。服务器会依据用户提供的信息进行建模预测。 p r oi e c tm o d e ( 工程模式) : 手工操作建模过程。该模式需要用户首先构建个d e e p v i e w 工程文件,这个 工程文件包括模板的结构信息和目标序列与模板序列间的比对信息。这种模式让 用户可以控制许多参数,例如模板的选择、比对中的缺口位置等。此外,这个模 式也可以用于“f i r s ta p p r o a c hm o d e 简捷模式”输出结果的进一步加工完善。 c p h m o d e l s 是采用同源建模来预测蛋白质三级结构的,是一种以预测距离为 基础的t h r e a d i n g 方法。同时该服务器运用了神经网络算法和序表( p r o f i l e ) 一序 表比对,提高了结果的准确度。神经网络算法等同于能预测两个残基相互关系的 若干窗口,用来预测独立的测试蛋白中的距离是否大于或小于给定的距离标准: 序表的含义是某一序列对数据库搜索后产生的序表是一个新的比对计分矩阵,该 矩阵可以被粗略的看作是一个新序列,新序列含有了更多蛋白家族的信息,用新 序列进行的搜索将更加有效,更有针对性地找到家族内的匹配序列。 e s y p r e d 3 d 是一个自动的蛋白质三级结构预测服务程序,它的序列比对策略 采用性能不断增长的新神经网络算法,对几个序列比对程序的结果迸行综合,衡 量和筛选后获得比对序列。最后三级结构的构建应用建模包m o d e l l e r 。可选择 应用的比对算法有三种n e u r a ln e ta n dn e ws c r e e n i n g ( 神经网络和新筛选) ,n e u r a l n e t ( 神经网络) 和f r e q u e n c yt a b l e ( 频数表) 。e s y p r e d 3 d 在目标一模板比对这一 步做出的结果较好,且在预测序列与模板序列相似度差时有较好的模型预测效果。 3 d j i g s a w 是以已知结构域的类比为基础预测蛋白质三级结构的服务器。此 服务器有两种操作方式:自动方式和互动方式。 自动方式:3 d j l g s a w 首先将目标蛋白分离成多个结构域,然后对各个结构 域分别寻找最便易匹配( 数量较少,匹配准确的) 的结构域模板,然后对目标蛋 白的各结构域及其结构域模板分别预测二级结构,再根据数据库中模扳的已知二 级结构,进行修正,以此为骨架为目标蛋白建模,三维坐标文件以纯文本的邮件 直接返回给用户。 互动方式:3 d j i g s a w 将目标蛋白分离成多个结构域,然后对应每个结构域 返回多个结构域模板到信箱中,对每个结构域用户自己选择模板,服务器再对结 构域与每个选择的模板分别预测二级结构,再根据数据库中模板的己知二级结构, 进行修诈,以此作为骨架为目标蛋白建模,三维坐标文件以纯文本的邮件再返回 给用户。 首先分析目标序列可能存在的结构域,然后查询结构域数据库( 结构域数据 库是从p f a m 、p d b 和s c o p 中选择提取的) 寻找结构域匹配,而非整条目标序 列与模板序列匹配;使用二级结构信息改进目标序列与模板序列的比对方式是 华南理工大学工学硕十学位论文 3 d - j g s a w 蛋白结构预测的特征。3 d j i g s a w 在各种蛋白结构预测评估中都有很 好的排名。 总结以上的蛋白质结构预测服务器,它们通常具有以下不足: l 、 通过在w e b 页面上或者e m a i l 提交需要预测结构的序列后,需要等待一段 时间,服务器将结果以附件的形式或者把结果的u r l 发送到你的电子邮箱 罩,通过打开链接去查看结果。 2 、 预测的流程没有很好地衔接起来,过程也相对不完整,如没有进行结构比对, 没有很好的与应用相结合。 相比起国外的众多蛋白质空问结构预测服务器,国内在这方面的发展相对比 较缓慢目前基本上没有任何同类型的服务器。因此非常有必要构建自己的蛋白 质空间结构预测服务器。 1 3 本论文的工作 本课题的来源是国家自然科学基金( 9 0 4 1 2 0 1 5 ) ,自主开发具有知识产权的生 物信息学分析工具:新的蛋白质空间结构预测模拟分析软件包。本文提出了基于 工作流信息集成的蛋白质空间结构预测系统的设计方案,并成功将其实现。实现 的蛋白质空间结构预测系统是一个全交互式的系统,除了能对用户提供基于工作 流的蛋白质空间结构预测服务,还提供了让用户上传文件进行模型评价和结构比 对两样单独的服务。 在论文阶段,我主要完成的工作包括: 调查研究实现蛋白质空间结构预测系统不同方案的可行性。 调查研究蛋白质空间结构预测的基本概念、方法和过程,以及此过程中需要 用到的生物信息学工具、生物信息数据库的相关信息,建立起蛋白质空间结 构预测系统的框架,设计其相关流程。 利用j a v a j s p 等相关w e b 开发技术,以统一的方式实现系统中了各个生物 信息学工具与w e b 页面的交互。 在l i n u x 下实现系统,利用s h e l l 脚本将在后台运行的各个生物信息学工具的 命令动作封装起来,方便调用。 研究预测过程中各个生物信息学工具的运作和数据格式的转换,用j a v a 程序 对它们的数据进行处理,实现它们之间的衔接。 对系统进行测试,验证系统的可用性、设计的合理性和实现的可行性。证明 其蛋白质空间结构预测过程、结果是有意义的。 第一章引言 1 4 本论文的结构 本论文分为六个部分: 一第一章:引言 首先阐述了什么是蛋白质空间结构预测及其意义所在,然后介绍了国内外的 蛋白质空间结构预测服务器的研究状况,最后说明本论文所做的工作以及本论文 的结构。 _ 第二章:理论背景和相关技术 本章详细讨论了是蛋白质空间结构预测的一般方法,从而选取一个可靠的、 可行的方案,并在里面穿插介绍了此方案中用到的各个生物信息学工具,最后简 单介绍了实现系统的相关技术。 _ 第三章:蛋白质空间结构预测系统的设计 描述了蛋白质空间结构预测系统的总体架构,其中主要详细地介绍了蛋白质 空间结构预测工作流的概要设计。 第四章;蛋白质空间结构预测系统的实现 详细描述了蛋白质空间结构预测系统中各部分的具体实现,其中重点在蛋白 质空间结构预测工作流,分模块详细地描述了其实现。 - 第五章:蛋白质空间结构预测系统的应用实例 给出蛋白质空间结构预测系统的一个应用实例,通过在其上的测试, 兑明了 本文所述的蛋白质空间结构预测系统的设计的含理性和实现的可行性。 一结论 总结了本文所做的工作,指出系统可从哪些方面进行完善和改进。 华南理工大学工学硕士学位论文 第二章理论基础和相关技术 2 1 蛋白质空间结构预测 蛋白质空间结构预测的一般流程如下: 圈2 - 1 蛋白质结构预测一般流程 f ig u r a2 - 1t h eg e n e r a ip r o c e s so fp r o t e ins tr u c t u r eb r e d i c t io n 目前对于蛋白结构的预测,可以通过两类主要的方法,一种是基于已知结构, 通过序列的类比或序列结构关联的方法来实现。该类方法对已知结构的蛋白质进 行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白 质直接从氨基酸序列预测结构。映射模型可以是定性的,也可以是定量的。这是 进行蛋白质结构预测较为成功的一类方法。 另一种则是在没有已知可参照结构的情况下,直接通过序列计算来得出结构 的直接预测法。该类方法是通过理论计算( 如分子力学、分子动力学计算) 进行 结构预测。该类方法假设折叠后的蛋白质取能量最低的构象。从原则上来说,我 们可以根据物理、化学原理,通过计算来进行结构预测。但是在实际中,这种方 法往往不合适。主要有几个原因,一是自然的蛋白质结构和未折叠的蛋白质结构, 第二章理论基础和相关技术 两者之间的能量差非常小( 1 k c a l m o l 数量级) ,二是蛋白质可能的构象空间庞大, 针对蛋白质折叠的计算量非常大。另外,计算模型中力场参数的不准确性也是一 个问题。 2 1 1 基于已知结构模型的建立 对于已有参考结构的目的序列,通常可以采取比较模建( c o m p a r a t i v e m o d e l i n g ) 和折叠识别( f o l dr e c o g n i t i o n ) 1 4 1 两种方法来建立模型。 2 1 1 1 比较模建 也称同源模建( h o m o l o g o u sm o d e l i n g ) ,是目前较为成熟的一种蛋白质结构 预测技术【l 5 3j 。一般认为,序列相似的同源蛋白质具有相似的空间结构和功能,所 以利用结构己知的同源蛋白质可以建立目标蛋白质的结构模型,然后用理论计算 方法进行优化。其基本过程包括六部分【i6 j :目标序列与模板序列的匹配;根据同 源蛋白质的多重序列匹配结果,确定同源蛋白质的结构保守区( s c r s ) 以及相应 的框架结构;目标蛋白质结构保守区的主链模建:目标蛋白质结构变异区( s v r s ) 的主链模建:侧链的安装和优化:对模建结构进行优化和评估。序列匹配对建立 精确的结构模型起蓉关键作用。一般地,序列同源性越差,匹配的准确程度越低 建立的模型精度也越差;序列同源性低于3 0 的蛋白质难以得到理想的结构模型。 传统的序列分析软件有f a s t a 、b l a s t ( b a s i cl o c a la l i g n m e n ts e a r c ht 0 0 1 ) 【l ”。近些年在多重序列比较方面发展了一些优秀软件,如p s i b l a s t ( p o s i t i o ns p e c i f i ci t e r a t e db l a s t ) 1 ”i 、h m m s ( h i d d e nm a r k o vm o d e l s ) l j 等。值得注意的是,结构变异区的模建和侧链的安装是比较模建方法中较难的部 分。 下面介绍比较建模的一般步骤及其原理,然后简单介绍所用的方法与工具。 为方便,我们将上述过程中的第三、第四、第五部分合并成一个环节,成为三维 建模。除此之外,我们还引入结构比对步骤,通过对蛋白质的进行结构比对,将 有助于我们发现蛋白质的一些重要信息。 比较建模的流程如下: 华南理工大学_ l = 学硕士学位论文 蓉 卜淄酾蜷薅j 图2 - 2 比较建模流程 f i g u r e2 - 2 t h ec o m p a r a t j v em o d e iii n gp r o c e s s 21 1 1 ,序列同源性搜索 对蛋白质数据库p d b 分析可以得到这样的结论:任何一对蛋白质,如果两者 的序列等同部分超过3 0 ( 序列比对长度大于8 0 ) ,则它们具有相似的三维结构, 即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠片层区域的一些细节部分 有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸序列 有5 0 相同,那么约有9 0 的瑾碳原子的位置偏差不超过3a 。这是同源模型化 方法在结构预测方面成功的保证。 序列同源性搜索是要通过搜索蛋白质结构数据库,根据一定的算法或者评分 标准,找出和目标序列同源的已知结构的蛋白质,然后以该蛋白质的结构为模板, 为未知结构的蛋白质建立结构模型。它是蛋白质三维结构的同源建模中重要的一 步将直接影响最终预测出来的三维结构的质量。 我们所说的蛋白质序列一般是指蛋白质的一级序列即氨基酸序列,它是大写 占 第二章理论基础和相关技术 字母按照一定规则的排列组合,每个大写字母代表一种氨基酸。各字符对应的氨 基酸或者意思如下表: 表2 - 1 蛋白质序列中的字符及其意义对照表 字符 描述字符描述 aa l a n i n ep p r o l i n e b a s p a r t a t eo ra s p a r a g i n eqg l u t a m i n e c c v s t t n er a r 9 1 n l n e d a s p a r t a t e ss e n n e e g l u t a m a t e t t h r e o n i n e f p h e n y l a l a n i n e u s e i e n o c y s t e i n e g g l y c i n e v v a l i n e hh i s t i d i n ew t r y p t o p h a n ii s o l e u e i n eyt y r o s i n e k l y s i n e z g l u t a m a t eo rg l u t a m i n e li e u c i n ex a n y mm e t h i o n i n et r a n s l a t i o ns t o p n a s p a r a g m e g a po fi n d e t e r m i n a t el e n g t h 目前比较常用的序列分析工具主要还是b l a s t 。b l a s t 是一套在蛋白质数据 库或d n a 数据库中进行相似性比较的分析工具。b l a s t 程序能迅速与公开数据 库进行相似性序列比较。b l a s t 结果中的得分是对一种对相似性的计说明。 b l a s t 对一条或多条序列( 可以是任何形式的序列) 在一个或多个核酸或蛋白序 列库中进行比对。b l a s t 还能发现具有缺口的能比对上的序列。b l a s t 是基于 a l t s c h u l 等人在j m 0 1 b i o l 上发表的方法( j m o l 。b i 0 1 2 1 5 :4 0 3 4 1 0 ( 1 9 9 0 ) ) ,在序 列数据库中对查询序列进行同源性比对工作。从最初的b l a s t 发展到现在n c b i 提供的b l a s t 2 0 ,已将有缺口的比对序列也考虑在内了。b l a s t 可处理任何数 量的序列,包括蛋白序列和核酸序列;也可选择多个数据库但数据库必须是同一 类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数 据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是 蛋白序列到蛋白库中作查询,反之亦然。 l 、b l a s t p 是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一 地同每条所查序列作一对一的序列比对。 2 、b l a s t x 是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列 华南理工大学工学硕士学位论文 ( 一条核酸序列会被翻译成可能的六条蛋白) ,再对每一条作一对一的蛋白序 列比对。 3 、b l a s t n 是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同 所查序列作一对一地核酸序列比对。 4 、t b l a s t n 是蛋白序列到核酸库中的一种查询。与b l a s t x 相反,它是将库中 的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5 、t b l a s t x 是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和 所查的核酸序列都翻译成蛋白( 每条核酸序列会产生6 条可能的蛋白序列) , 这样每次比对会产生3 6 种比对阵列。 而在b l a s t 的改进之上,出现了p s i b l a s t 和g a p p e db l a s t 等方法。 p s i b l a s t 和g a p p e db l a s t 相比一般的b l a s t 具有更灵敏的搜索能力,尤其对 于一些弱同源的序列有较好的效果。因此我们选择了它作为系统的序列同源性搜 索组件。 搜索同源序列的数据库可用p d b a a 或者n r 。p d b a a 本身是个文本文件,它记 录了所有p d b 记录的入口,是由f a s t a 文件组成的冗余数据库。与此相对,n r 则是非冗余的。 p d b a a 记录了数以万计的p d b 记录入口,它的每一条记录都是f a s t a 格式, 以“ ”字符开头,第一行记录了此p d b 记录的相关信息,主要是p d b 的所引号、 链名及其描述,第二行开始则是其对应序列,如下图所示: g ii b ? 6 t x ) 6i p 曲i1 a t ii ac l 韬t t n 自,r n t i t h r a m b i ni i i 觚i “) ( s g n c h r o 匕r o nr a d i a t i o n ) v e d ,c t 州p 哪p 、 p h c i y 瀚t e b s 巨a ( i p 鞠t 慊刚- 归s i ( h s h f 甜舻y 口h l 舳5 l ( h 嘲州i f l s p l s i s t 自f 自 m i ( l c 州t l t a l 哐v f k f 廿t i s 瞰f s 自q i 孵f 眯i 删y 锹刚k s s e | v 蚋恫f g d i ( s 工t f n e t y 日d i s e w y k l o p l 艏髓e 娲同t i 啦s 嫩t g r f f w z 删 * _ f r 垤v l 州f i y f k 乩燃s i ( f s p e 孵徘e l f y 黼d 骶s c s v l m m y 难s k f r y r r ,簸s t 虬e l p f k 6 加i t h v l i l p i ( l e k t l 献讵讴l t p d h l q e w l d e l t e t l l w f 矸r i e d s f s v k e q l q i m g l e i l f s p e k s r l p g i v a e g r s d l y v s d 昕h ( * l e 帆e g s 舶鹇t v i s i 自豫s l r v t f 陋 i p f l v l i r e v 能町i i f 瞧r v 阱| p c v d g i1 5 7 6 0 0 7 i p d b l l a t ti bc h a i nb ,m 七i 匕h r 帅b i ni “( 觎i i i ) ( s 邕n c h r o t r o nr a d i a t i o n ) k p r d i p v p p l c i y 酷s 0 k i p g m 限r v 嘲涨阱肝甜阼y q h l 叼粼h 制洲i f l s p l s i s t 盯刚t k l 6 阢州t l t q l h e v f 羽昨i s e | ( t s d 口i 旰f f 觚慊l y 眯s s e l v 帆f g d i ( s i t f 哐t y q s e w y g a k l 口p l i f k c 4 1 能口 s r l t i 哪壮蜊i ( t 噼h d v i p p 口艇惟f t v l 礼州t i y f k 盛嫩瞰f 擎引t 默豇f y k 期藏瓤s v i 悱蓝瓣r y r r v a e s t q v l e l f f k g i ) i ) i t m v l i l p k l e k t l a k v e c e l t p i ) m l q e 谜_ d e l t e t l l v v h m p r f r i e i s f s v k e q l q i ) m g l e d l f s p 日c 铜p 缸v 能g 鹎d l 丫v s d 删( 日f l e i ,h e e g s e 黼隅t 锻s i q 勰g 屿撤w f k 脚崭刚l i 蓖恫h t i i f h g r v a n p c v d 围2 3p d b a a 数据库图示 fg u r e2 - 3 t h ep d b a ad a t a b a s e 2 1 1 1 2 多序列比对 多序列比对( m u l t i p l es e q u e n c ea l i g n m e n t ) 在分子生物学中是一个基本方法, 用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级 结构与三缴结构,确定p c r ( p o l y m e r a c ec h a i nr e a c t i o n ) 引物,以及在分子进化 第二章理论基础和相关技术 分析方面均有很大帮助。因此,它也是整个蛋白质结构预测过程中重要的一步。 多序列比对通常是紧接着在序列的同源性搜索之后,将搜索出来的同源序列 与目标序列比对,使目标序列的氨基酸残基与已知蛋白质的残基匹配,从中发现 有用的隐含的生物学信息,同时为下一步的结构建模做好准备。通过多序列比对, 发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区 域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核 心,然后再按照上述方法构建目标蛋白质的结构模型。对于具有6 0 等同部分的 序列,用上述方法建立的三维模型非常准确。若序列的等同部分超过6 0 ,则预 测结果将接近于实验得到的测试结果。一般,如果序列的等同部分大于3 0 ,则 可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时问, 主要是由于构建目标蛋白质的侧链的数据库搜索过程耗时较多。如果序列的等同 部分小于3 0 或更少,那么预测结果的准确性如何昵? 随着目标序列和模板的相 似度降低,比对这两个蛋白质序列所需插入的环区增多。为环区建立精确的三维 模型意味着解决结构预测的基本问题。然而,即使序列等同部分下降到2 5 。3 0 , 同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始 模型可以进行优化,以得到较好的结果。 目前比较常用的工具是c l u s t a lw 弘,它是一种基于渐进比对( p r o g r e s s i v e a l i g n m e n t ) 概念的方法。c l u s t a ! w 算法是一个最广泛使用的多序列比对程序,在 任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到 一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较, 计算得到一个距离矩阵,反映了每对序列的关系,于是,基于邻近加入方法,这 个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近 的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比 对下一个加入的比对,依次类推。 2 1 1 1 3 兰维建模 经过序列比对之后,建立蛋白质的空间结构模型通常包含以下步骤: l 、建立骨架。将模板结构的坐标拷贝到目标u ,仅拷贝匹配残基的坐标。在一般 情况下,通过这一步建立目标蛋白质u 的骨架。 2 、构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残 基坐标,但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。 侧链坐标的预测通常采用已知结构的经验数据,如r o t a m e r s 数据库的经验结 构数据。r o t a m e r s 含有所有已知结构蛋白质中的侧链取向,按下述过程来使用 r o t a m e r :从数据库中提取r o t a m e r 分布信息,取一定长度的氨基酸片段( 对 华南理_ t 大学t 学硕士学位论文 于螺旋和折叠取7 个残基,其它取5 个残基) :在u 的骨架上平移等长的片段,从 r o t a m e r 库中找出那些中心氨基酸与平移片段中心相同的片段,并且两者的局 部骨架要求尽可能相同,在此基础上从数据库中取局部结构数据。 3 、构建目标蛋白质的环区。在序列比对中,可能加入空位,这些区域常常对应于 二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方 法,从已知结构的蛋白质中寻找一个最优的坏区,拷贝其结构数据。如果找不到 相应的环区,则需要用其它方法。 目前比较常用的用于同源建模的工具有m o d e l l e r t 2 1 , 2 2 , 2 3 ,它除了能够完成建 模的工作,还集成了序列同源性搜索、多序列比对等功能。 用m o d e l l e r 进行多序列比对和三维建模操作需要准备以下五个基本输入文 件:包括目标序列文件、比对信息文件、已知蛋白质结构文件、多序列比对脚本 ( 并非一股的s h e l l 脚本,而是用于m o d e l l e r 输入的脚本m a l i g n t o p ) 、三维建模 脚本( g e t m o d e l t o p ) 。t o p 是用于写m o d e l l e r 脚本的语言。 表2 - 2m o d e iie r 所需输入文件及其作用描述 t a b i e2 - 2in p u tf ii e sf o rm o d e iie ra n dt h e ird o s e r ip t i o n 文件名 描述 目标序列文件记录目标序列信息 比对信息文件记录目标序列和已知序列基本信息,用于多序 列比对 己知蛋白质结构文件已知序列结构文件,一般已根据链名进行截取 多序列比对脚本( m a l i g n t o p ) m o d e l l e r 的脚本,用于调用m o d e l l e r 中的例 程进行多序列比对 二维建模脚本( g e t - m o d e l t o p ) m o d e l l e r 的脚本,用丁调用m o d e l l e r 中的例 程进行建模 目标序列文件、比对信息文件、多序列比对脚本、三维建模脚本作为m o d e l l e r 的输入,都是需要有特定的格式的文件。 以f 是目标序列文件的一个例子: p l “u v k m y s e q u e n c e :l u v x : 1 : 2 0 2 :f e r r e d o x i n :p e 口t o c o c c u sa e r o g e n e s :一1 0 0 :一1 0 0 m l p p g t a t l l t l l l a a g s l g q k p q r p r r p a s p i s t i q p k a n f d a q q f a g t w l l n 心 g s a c r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论