(计算机应用技术专业论文)蛋白质对接的研究.pdf_第1页
(计算机应用技术专业论文)蛋白质对接的研究.pdf_第2页
(计算机应用技术专业论文)蛋白质对接的研究.pdf_第3页
(计算机应用技术专业论文)蛋白质对接的研究.pdf_第4页
(计算机应用技术专业论文)蛋白质对接的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔演i ? 释人7 硕十等侮论文 摘要 随着“后基凶组时代 的到来,蛋白质分子对接成为蛋白质组学主要的 研究方向。蛋白质分子对接是两个或多个蛋白质分子通过几何匹配和能量匹 配相互识别的过程,要求两个分子要充分接近并采取合适的取向以使二者在 必要的部位相互契合,发生相互作用,继而通过适当的构象调整,得到一个 稳定的复合物构象,在药物设计中有十分重要的意义。而生物实验测定蛋白 质复合物相对困难,所以,用计算机预测分子问的结合模式倍受关注。 本文包括三个部分。首先,从蛋白质数据库中提取两个蛋白质,称分子 量较大的为受体,分子量较小的为配体,受体分子和配体分子的名称分别为 5 c h a 和2 0 v o ,同时定义配体分子和受体分子的数据模型和存储结构;然 后,利用几何互补的原则给出了基于网格匹配的对接算法,该算法要求首先 将受体和配体植入网格中,再进行全空间进行搜索,寻找对接位置;最后, 搜索将得到的大量对接位置,本文将所有位置信息整理、过滤和打分,并以 数字形式表现出来。 关键词:蛋白质分子对接;几何互补;受体:配体 哈尔滨t 秤人学硕十学位论文 a b s t r a c t c o m i n ga l o n gw i t ht h ep o s t g e n o m ee r a ,p r o t e i n m o l e c u l a rd o c k i n g b e c o m e st h em a i nr e s e a r c hd i r e c t i o no fp r o t e o m i c s p r o t e i nm o l e c u l ed o c k i n gi s t h ep r o c e s si nw h i c ht w oo rm a n yp r o t e i nm e m b e r sd i s t i n g u i s hm u t u a l l yt h r o u g h t h eg e o m e t r i cm a t c ha n dt h ee n e r g ym a t c h t h et w om o l e c u l e sm u s tb ec l o s et o e a c ho t h e rs u f f i c i e n t l ys ot h a tt h e yc a nc o m b i n ea n da f f e c tt ot h eo t h e r t h e nw e c a nr e c e i v eas t a b l ec o m p o u n dt h r o u g ht h ec o n f o r m a t i o na d ju s t m e n t p r o t e i n m o l e c u l ed o c k i n gi sv e r ys i g n i f i c a n ti nt h em e d i c i n ed e s i g n g i v e nt h ed i f f i c u l t i e s i ne x p e r i m e n t a l l yd e t e r m i n i n gt h es t r u c t u r e so fp r o t e i nc o m p l e x e s ,t h ed o c k i n g m e t h o dt oc o m p u t a t i o n a l l yp r e d i c tp o t e n t i a lb i n d i n gm o d e si sc u r r e n t l yo fg r e a t i n t e r e s t t h i sp a p e ri n c l u d e st h r e es e c t i o n s f i r s t ,t h i s p a p e re x t r a c t st w ok i n d so f p r o t e i n sf r o mt h ep r o t e i nd a t a b a s e t h ep r o t e i n sw i t hl a r g e rm o l e c u l a rw e i g h ta r e c a l l e dr e c e p t o rw h i c hn a m ei s5 c h a t h eo n e sw i t hs m a l l e rm o l e c u l a rw e i g h ta r e c a l l e dl i g a n d ,w h i c hn a m ei s 2 0 v o s e c o n d ,t h ed a t am o d e l sa n ds t o r a g e s t r u c t u r e so fr e c e p t o ra n dl i g a n da r ed e f i n e di n t h i s p a p e r t h e n ,t h ed o c k i n g a l g o r it h mb a s e do ng r i dm a t c h i n gi sp r e s e n t e d ,w h i c h u s e st h e g e o m e t r y c o m p l e m e n t a r yp r i n c i p l e t h ea l g o r i t h me m b e d st h er e c e p t o r sa n dl i g a n d si n t ot h e g r i d sa n di ts e a r c ht h et o t a ls p a c et of i n dt h ec o n t a c tp o s i t i o n s a tl a s t ,t h i sp a p e r g e t sal o to fp o s i t i o n s ,w h i c hi ss o r t e do u t ,f i l t e r e d ,g i v e nam a r k ,a n ds h o w e di n d i g i t a lf o r m k e y w o r d s :p r o t e i nm o l e c u l a rd o c k i n g ;g e o m e t r yc o m p l e m e n t a r i t y ;r e c e p t o r ; l i g a n d 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用己在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体已经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :鬃勰钙 日期:7 网7年弓月f 1 日 。 7 哈尔滨工程大学 学位论文授权使用声明 本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可口在授予学位1 2 个月后 口解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :励钙导师( 签字) :弓k 誓 日期:妒? 年乡月f 弓日力蜘7 年3 月;日 f 。 哈尔滨j :稃人学硕十学何论文 第1 章绪论 1 1 蛋白质对接研究的背景、意义 随着“后基因组时代”( p o s t g e n o m ee r a ) 的到来,基因组学( f u n c t i o n a l g e n o m i c s ) 和蛋白质组学( p r o t e o m i c ) 成为主要的研究方向。前者的研究范围 包括基因多态性和单核苷酸多念性,基因转录和m r n a 的翻译表达,基因功 能,基因组比较与生物进化以及基因结构和遗传语言等;后者是研究m r n a 翻译后修饰,蛋白质的表达谱,蛋白质结构,蛋白质相互作用和蛋白质胞内 移位等。因为大多数基因的最终产物是相应的蛋白质,因此要认识基因的功 能,必然要研究基囚所表达的蛋白质。蛋白质的功能往往体现在与其他蛋白 质或核酸的相互作用之中。细胞各种重要的生理过程,都是以蛋白质问相互 作用为纽带而进行的。 生物体是由细胞组成的多层次的复杂的系统,生物功能的主要实现者是 蛋白质,而蛋白质又有自身特有的活动规律,所以仅仅从细胞的角度来研究 生命现象是不够的【2 】。蛋白质问相互作用存在于机体每个细胞的生命活动过 程中,生物学中的许多现象,如基因的复制、转录、翻译和遗传密码的分析 与破译以及细胞周期调控、信号转导、免疫反应和中间代谓j 等,均受蛋白质 问相互作用的调控。有些蛋白质由多个亚单位组成,它们之问的相互作用就 显得吏为重要。有些蛋白质结合紧密,而有些蛋白质只有短暂的相互作用。 然向不论哪种情况,它们均控制着大量的细胞活动事件,譬如:细胞的增殖、 分化和凋亡。 蛋白质i 日j 的相互作用可改变细胞内蛋白质的动力学特征( 如底物结合特 征、催化活性等1 ,也可产生新的结合位点,改变蛋白质与配体作用的特异性, 还可使其它蛋白质失活或复活以调控基因表达。因此,只有使蛋白质问相互 作用顺利进行,细胞正常的生命活动才有保障。 分子对接是指两个或多个分子通过几何匹配和能量匹配相互识别的过 程,在药物设计中有十分重要的意义。药物分子在产生药效的过程中,要求 两个分子要充分接近并采取合适的取向以使二者在必要的部位相互契合,发 哈尔滨i + w 人孑:硕十号:俜论文 生相互作用,继而通过适当的构象调整,得到一个稳定的复合物构象。通过 分子对接确定复合物中两个分子正确的相对位置和取向,研究两个分子的构 象特别是形成复合物过程的变化是确定药物作用机制,设计新药的基础。 分子对接计算把配体分子放在受体活性位点的位置,然后按照几何互补、 能量互补以及化学环境互补的原则来评价配体和受体相互作用的好坏,并找 出两个分子之j 、日j 最佳的结合模式。 计算机模拟蛋白质对接是研究蛋白质相互作用的有效的手段,通过对蛋 白质配体和受体的对接研究提高蛋白质复合物的预测能力,为生物实验工作 提供有益的理论指导。 1 2 分子对接方法的关键步骤 一般情况下,分子对接方法可以分为三个阶段。首先,将受体和配体分 子处理为刚体( 有些算法可能对分子表面进行了软化处理) ,搜索平动和转动 六维空间,同时利用简单的分子表面几何互补性打分,初步排除一些不合理 结构;然后,用精细的能量打分对结构作进一步的评价并排序;最后,对排 序较靠前的结构进行能量优化,允许氨基酸侧链和骨架的运动。另外,如果 在分子对接自仃能够获得任何关于结合位点的信息,那么可以在尽可能早的阶 段利用它来缩小构象搜索的范围,提高结构的成功预测率。下面分别就这三 个阶段作简要: 1 2 1 全空间搜索 在不知道受体和配体分子任何结合位点信息的情况下模拟分子问的识 别,首先就是要进行全空间的搜索。考虑到搜索的时间问题,目前仅有少数 一些程序能够作到这一点,如对接程序p p d ,h e x ,b i g g e r 、几个基于遗传算 法的程序和在快速傅立叶变换( f a s tf o u r i e rt r a n s f o r m ,f f t ) 算法基础上建立 起来的一些对接程序。 由于f f t 算法的实用性和高效性,它已被广泛地应用于分子对接方法中。 在这样的对接算法中,受体和配体分子被投影到n x n n 的三维空间网格中 只要分子间的相互作用能( 打分函数) 可表示为只g ,的形式( 其中p ,和q ,分 2 哈尔滨f :样人学硕十何论文 别为受体和配体分子某种特性的离散函数) ,那么就可以利用f f t 算法加快对 它们的计算速度,将算法的复杂性由o 降低为n i nn 3 ( i n 为对数) 。 k a t c h a l s k i k a t z i r 等首次将f f t 用于分子对接方法中,随后产生了一系列基 于该方法的分子对接程序,如f t d o c k ,3 d d o c k ,g r a m m ,z o c k 和d o t 。 r i t c h i e 和k e r m p 在其对接程序h e x 中,利用球极傅立叶相关技术来加 速构象搜索。该方法将受体和配体分子表面和静电场按球谐函数展丌,利用 展丌系数的傅立叶相关性来简化分子表面几何互补性和静电相互作用能的计 算。 随后,p a l m a 等又提出了一个新的方法来完成全局搜索。在其对接程序 b i g g e r 中,受体和配体分子被投影到三维空间网格中,根据格子所处的位 置( 表面还足内部) 赋以整数值0 或1 ,然后利用快速点乘的规贝j j d h 速采样。 另外,还可采用遗传算法进行构象搜索,t a y l o r 和g a r d i n e r 所发展的对 接方法就属于这一类。g a r d i n e r 采用溶剂可接近表面来描述蛋白质分子,标 有法线矢量、曲率和氢键特性,以表面几何匹配性来挑选近天然构象。t a y l o r 则采用分子势能作为适应性函数来淘汰或保留对接构象。 1 2 2 打分排序 经过第一阶段的构象搜索和初步打分后,一般会得到几百或几千个对接 结构。为了进一步缩小预测结构的范围,必须用更加精细、可靠的打分函数 重新评价这些结构,近可能地将近天然构象排在较靠前的位置。 打分函数的目的是在一个合理的时间内对大量的对接结构作出评价,将 近天然结构排在比较靠前的位置。尽管一些打分函数对某些例子能作到这一 点,但是对大部分的复合物,打分排在前面的常常是错误结构,寻找有效可行 的办法从对接结构中可靠地区分出近天然构象仍然是一个急需解决的问题。 目d 订存在的打分方法大致可以分为两类。一类是基于知识的打分函数, 如残基一残基接触能模型和原子一原子接触能模型,这些模型都是从大量非 同源蛋白质复合物中获得的统计性结果。其中,残基一残基接触能模型是 n o r e l 等人对抗原一抗体类复合物界面深入研究的结果,专门用于抗原与抗体 相互作用与识别的研究。另一类是基于分子势能的打分函数,如分子间的静 哈尔滨f :稃人学硕十号,1 寺论文 m e 电相互作用能、氢键相互作用能、去水化自由能和范德华相互作用能。n o r e l , p a l m a 和c a m a c h o 均采用了这类方法。在有些对接算法中,搜索和打分同时 进行,打分构成了结构采样的一部分,通常称这种分子对接方法为整合算法。 例如,在以遗传算法为搜索算法的对接程序中就需要使用这种整合算法,它 采用适应性打分函数作为选择压力来挑选构象。另外一些对接算法采取在构 象搜索结束之后再进行打分,这是一种分离算法。在这种算法中,往往在搜 索和打分之间会有一步过滤筛选,或者叫初步打分。当前,大部分对接方法 采用这种两步打分的模式,使用简单的打分快速扫描对接结构以初步获得 “好”的构象,随后再用更加精细的标准对有限的构象作进一步的评价。 一般来说,打分函数评价对接结构的好与坏,或者是基于几何互补性, 或者是基于简单的分子势能函数,或者是基于分子自由能,或者是它们的组 合。 几何互补性在复合物形成中所起到的重要作用自分子对接研究丌始就不 断地被人们所证实。大部分复合物的三维结构显示,受体与配体分子的界面 具有紧密的几何互补性。以几何互补性为标准打分函数对复合态分子对接效 果较好,而用在自由态分子对接中则不太理想,这一点是可以理解的。后来, 有些对接算法允许分子具有一定程度的柔性,并在打分函数中考虑了分子柔 性对几何互补性的影响,从而改善了自由念分子对接的结果。由于几何互补 性计算比较快速,因此它常常作为初级过滤来减少对接结构的数目。 简单的分子势能函数,在很多情况下,不能对近天然和错误结合模式作 出很好的区分,并且简单的分子势能函数也必须基于分子的几何位置。 基于分子自由能方法,自由能的准确计算是十分关键的,但往往由于计 算时间的要求和目日仃算法本身的局限性,这一目的很难达到。目前计算自由 能的方法,一些是基于溶剂可接近表面积,一些是基于溶剂化壳层体积,还 有是基于原子接触数和玻尔半径。 1 2 3 结构优化 结构优化在蛋白质与小分子的对接模拟中尤为重要。在这一阶段,至少 要将氨基酸残基侧链的柔性,或连同主链的柔性一同考虑。要选择一个恰当 4 哈尔滨丁张人学硕十学能论文 的分子力场,1 i 必明确考虑溶剂分子,口j 将其产生的效果以平均力势的形式 在结构优化中予以考虑。 如何对侧链进行优化的问题,一直没有得到很好的解决。目前,常用的 方法是利用侧链旋转异构体库来简化并限制侧链构象的搜索。即便如此,可 能的侧链旋转异构体组合的数字也是相当巨大的,仍然无法用穷竭搜索的方 法来处理。近年来,人们对这种方法作了改进,首先,排除侧链旋转异构体 库中不可能的构象,然后用基于树形的快速启发式算法( h e u r i s t i ca l g o r i t h m ) 对剩余的构象进行处理。该方法己被用于一些蛋白质与小分子的对接程序中, 如f l e x e 和d o c k 4 0 。人们f 在尝试将它用于蛋白质一蛋白质分子的对接。最 近,v a j d a 研究小组又提出了一种能量平滑算法,主要用于对范德华能量项 的优化处理。在其所研究的例子中,对距天然结构均方根偏差为1 0a 的对接 结构,经能量优化后,减小到2a ,这一精度对结构预测来说已经相当准确 了。 到目前为止,分子对接方法还不能成功地处理复合物形成中较大的构象 变化,如蛋白质分子域间类似于铰链的运动。对这一问题的处理方法在网 h t t p :c a p r i e b i a c u k 上有描述,但只是对蛋白质与小分子的复合物体系进行了 测试。 1 3 研究现状 1 3 1 国外研究现状 国际上非常重视计算机模拟蛋白质分子对接的发展,美国、欧洲和同本 当今领先,有专业的大机构维护相关的数据库,且相关网站较多,提供相关新 闻、数据库服务及软件服务,也介绍自己的研究成果【3 j 。但总体看来,内容 全面但位置分散,分析结果也要专业人士解读。 从专业机构的角度讲,欧美发达国家保持领先。手工搜集的蛋白质结构 数据库早在2 0 世纪6 0 年代就在美国丌始建立。美国洛斯阿拉莫斯国家实验 室的核酸序列库g e n b a n k ,现在由1 9 8 8 年成立的国家生物技术信息中心 ( n a t i o n a lc e n t e rf o rb i o t e c h n o l o g yi n f o r m a t i o nn c b i ) 管理维护。欧洲分子 生物实验室的e m b l 数据库1 9 8 2 年开始服务,随后又建立了欧洲分子生物 5 哈尔滨t 秤火学硕十学 移论文 i i 学例( e u r o p e a nm o l e c u l a rb i o l o g yn e t w o r ke m b n e t ) 。e m b l 数据库19 9 4 年改由英国剑桥的欧洲信息研究所( e u r o p e a nb i o i n f o r m a t i c si n s t i t u t ee b i ) 管 理。闩本1 9 8 4 年着手建立国家级的核酸数据库d d b j ( d n ad a t ab a n ko f j a p a n ) ,1 9 8 7 年j 下式服务。目前绝大部分核酸和蛋白质数据由美国、欧洲和 同本三家产生,他们共同组成了d d b j e m b l g e n b a n l ( 国际核酸序列数据库, 每天交换数据,同步更新【5 l 。其他国家如德国、法国、加拿大等在分享网络 资源的同时,也建立了自己的信息中心,为本国服务。 从专业出版业来讲,19 7 0 出现( ( c o m p u t e rm e t h o d sa n dp r o g r a m si n b i o m e n d i c i n e ) ) 是最早的研究生物信息学算法及理论的期刊。19 8 5 年4 月出 现生物信息学的第一种专业期刊( ( c o m p u t e ra p p l i c a t i o ni nt h eb i o s c i e n c e s ) ) , 之后各类期f l j 大量涌现,如( ( b i o i n f o r m a t i c s ) ) 、( ( a c t ab i o t h e o r e t i c a ) ) 、 ( ( b i o i n f o r m a t i c st e c h n o l o g y & s y s t e m s ) ) 、b i o i n f o r i i ln e w s l e t t e r ) ) 、( ( j o u r n a l o f c o m p u t a t i o n a lb i o l o g y ) ) 和( ( b r i e f i n g s i n b i o i n f o r m a t i c s ) ) 等。 目前对接算法种类很多,常见如蛋白质小分子对接的有d o c k 和 a u t o d o c k ,蛋白质蛋白质对接的有f t d o c k 、3 d d o c k 和z d o c k 等等。这 些算法各有特色,总结如下: 1 d o c k 算法 d o c k 是k u n t z 实验室发展的分子对接程序,是目前应用最为广泛的蛋 白质与小分子对接程序之一。它能自动地模拟配体分子在受体活性位点的作 用情况,并把理论预测最佳的方式记录下来。而且该方法能够对配体的三维 结构数据进行自动搜索,因此被广泛应用于基于受体结构的数据库搜索药物 设计中,并取得了巨大的成功。用d o c k 进行药物设计以及数据库的搜索基 本上可以分为下面三个步骤: ( 1 ) 配体和受体分子相互作用位点的确定; ( 2 ) 评分系统的生成: ( 3 ) d o c k 计算及d o c k 结果的处理与分析s j 。 活性位点的确定和表达是d o c k 最重要的特点之一。活性位点特征的确 定对于d o c k 研究是非常重要的,因为配体分子和受体分子相互作用过程的 模拟主要就是参考表面位点的几何特征进行的。在d o c k 中,活性位点的确 定通过s p h g e n 程序来完成。d o c k 软件包中s p h g e n 程序生成受体表面所有 6 喻尔滨- r 科人学硕十。等于f 7 :论文 的凹陷的负像,并对这些负像进行聚类分析。下图1 1 显示了在活性口袋中 相瓦叠合的多个负像,黑色小球代表受体原子。在d o c k 程序中,表面点采 用r i c h a r d s 提出的模型。在这些表面点的基础上,采用s p h g e n 程序生成了负 像,它实际上由一些与分子表面点相切的圆球叠加而成。 在生成负像的基础上,就可以进行配体分子与活性口袋之l 、习j 的匹配。在 这罩,配体也采用一组球集来表示,和负像不同的是,配体所用的球集是表 示配体所占的空间区域。如果一个配体分子能和活性口袋形成比较好的匹配, 图1 1 活性口袋中的多个负像 那么配体的球集一定能和活性口袋中的负像形成好的叠和。配体分子和负像 之f u j 的匹配原则是基于配体和受体分子之间球集内坐标的比较。 按照匹配原则得到了配体和受体分子之间的匹配情况后,就要通过合理 的打分函数来选择最优的结果。d o c k 提供了多种打分函数来评价配体和受 体分子之| 、日j 的结合情况,包括原子接触打分以及能量打分。d o c k 提供了简 单的评价表面匹配的打分函数。这个打分函数为配体和受体分子之间的接触 重原子数的简单加和。d o c k 把配体和受体分子之f b j 的非键相互作用能作为 能量匹配的打分。 用d o c k 进行分子对接时,配体分子可以是柔性的。对于柔性的分子, 其键长和键角保持不变,但二面角是可以发生变化的。在d o c k 中,柔性分 子的构象变化通过下面的操作实现;首先是刚性片段的确定,然后是构象搜 7 哈尔滨f :稃人学硕十学位论文 索。构象搜索采用两种方法:一种是优先搜索( a n c h o r f i r s ts e a r c h ) ,第二种方 法是同时搜索( s i m u l t a n e o u ss e a r c h ) 。 2 a u t o d o c k 算法 o l s o n 等人充分考虑了配体的柔性,设计了将柔性配体对接到受体分子上 的a u t o d o c k 程序。该程序可用于预测小分子配体与生物大分子的相互作用。 最新的版本为a u t o d o c k 3 0 5 。a u t o d o c k 采用模拟退火和遗传算法来寻找受体 和配体分子最佳的结合位置,用半经验的自由能计算方法来评价受体和配体 分子之问的匹配情况。 在a u t o d o c k 中,配体和受体分子之| 白j 的结合能力采用能量匹配来评价。 在1 0 和2 0 版本中,能量匹配打分采用简单的基于a m b e r 力场和非键相互 作用能。非键相互作用来自于三部分的贡献:范德华相互作用,氢键相互作 用,以及静电相互作用。 在最早的a u t o d o c k 版本中,作者采用了模拟退火来优化配体和受体之间 的结合f ,t 。在3 0 版本中,m o r r i s 等发展了一种改良的遗传算法,即拉马克遗 传算法( l g ao 测试结果表明,l g a 比传统的遗传算法和模拟退火具有更高 的效率。在l g a 方法中,作者把遗传算法和局部搜索( 1 0 c a ls e a r c h ) 结合在一 起,遗传算法用于全局搜索,而局部搜索用能量优化。在a u t o d o c k 中,局部 搜索方法是自适应的,它可以根据当前的能量调节步长大小。这样改进后的 a u t o d o c k 3 0 包含了两大优点:大的搜索空间和强有力的能量评估。 a u t o d o c k 3 0 是解决柔性配体与刚性蛋白质对接的比较好的方法。 3 f td o c k 算法 f td o c k 的思想最早是由k a t c h a l s k i k a t z i r 在1 9 9 2 年提出的。该方法首 次将快速傅立叶变换应用于分子对接算法中,大大地加快了配体和受体分子 表面和静电互补性的计算,使分子对接的全空间搜索成为可能。 f td o c k 程序分三步进行。首先将受体和配体分子投影到三维空| 日j 网格 中,盒子的边长要达到配体和受体分子最大长度之和;然后对受体和配体分 子的几何及静电信息进行离散化,表示成格点位置的函数:最后利用快速傅 立叶变换加速平动和转动空间的全局搜索【8 】。考虑到分子转动后需要进行从 新离散化,所以为了减少程序运行的时l 、日j ,在分子对接中,固定较大的分子( 通 常是受体) 不动,而使较小的分子( 配体) 发生转动和平动。 8 哈尔滨i j 稃入学硕十号:位论文 最仞的f t d o c k 方法仪使用j t a x i 互补性打分。受体和配体分子的儿何性 描述可由其原子坐标获得。将它们投影到n n x n 的三维空问网格中。 下面,我们就快速傅立叶变换加速对接空f 、日j 采样作一点说明。与普通算 法的复杂性6 相比,采用快速傅立叶变换后,算法的复杂性减小为 n 3 l n ( n3 ) 。这对于一个对接结构的几何互补性打分似乎在计算时白j 上并没有 减少很多,但是考虑旋转自由度后,运算时间的减少是相当可观的。假设旋 转自由度的采样间隔是1 5 4 ,那么就会产生3 6 0 3 6 0 3 6 0 1 5 个方位,其中 有6 3 8 9 个是不相同的,可以想象6 3 8 9 个6 的运算和6 3 8 9 个n 3l n ( n 3 ) 的运 算所耗机时的差距是非常大的。而且随着分子中原子数目的增加,n 的取值 会越来越大,这个差距也会更加变大。 以上只是对f t d o c k1 0 版本的说明,1 9 9 7 年s t e r n b e r g 领导的小组对 f t d o c k l 0 进行了改进,发展了f t d o c k 2 0 版本。改进后的方法考虑了受体 和配体分子表面几何互补性和静电互补性的打分,将受体与配体分子问静电 相瓦作用能表示为受体分子在周围格点产生的静电势与配体原子所带电荷的 相火性。静电互补性的引入在一定程度上提高了f t o c k 对复合物结合模式成 功预测的能力。 总之,f t d o c k 方法的特点是不需要任何结合位点的信息,可以进行全 空l h j 的搜索,计算速度快,而且对分子大小的依赖性弱。 4 3 d d o c k 算法 3 d d o c k 是s t e r n b e r g 研究小组在f t d o c k 基础上发展起来的蛋白质对接 方法。该方法以f t d o c k 作为第一步来获得复合物的结合模式,之后与结构 优化程序和更加精细的打分函数相结合,并利用结合位点信息过滤来完成复 合物结构的预测。整个对接过程分四步进行: ( 1 ) 利用f t d o c k 2 0 程序对结合模式进行全空问搜索; ( 2 ) 对侯选构象用经验的残基成对势打分排序,此过程由程序即r p s c o r e 完成; ( 3 ) 用结合位点的信息对筛选排在f j 】面的构象进行筛选,由程序f i l t e r 完 成; ( 4 ) 用程序m u l t i d o c k 对结构进行能量优化,排除两分子界面上侧链的交 叠【9 】o 9 哈尔滨f f f 人7 :硕十学位论文 中i 日j 两步是町以互相交换的,而且根据实际情况的需要,第三步结构筛 选可以进行多次。 r p s c o r e 扣分程序中利用了基于知识的残基一残基成对势。,f i l t e r 是一个 简单的筛选程序,可以根据复合物界面信息保留具有一定特征的结构。这一 信息可以使受体和配体分子的某两条链或两个残基或一条链与一个残基限制 在一定的距离范围内。m u t i d o c k 程序利用氨基酸残基旋转异构体库对筛选得 到的结构进行界面优化,优化中考虑了静电和范德华相互作用。 总之,3 d d o c k 方法有两大特点:一是程序运行较灵活,可以根据具体 情况调整各步骤运行的先后;二是复合物界面信息可以作为构象筛选条件快 速地将不合理的结构排除。 5 z d o c k 算法 z d o c k 是w e n g 研究小组丌发的蛋白质对接程序【9 】,是目前预测成功率 较高的方法之一。该程序主要用于对接的初始阶段,目的在于,在不知道任 何结合位点信息并且没有任何人为干预的情况下,在打分排在前面的近2 0 0 0 个结构中获得尽可能多的近天然构象。至于后续的结构优化和精细的能量打 分则由其它程序处理完成。 z d o c k 也是在快速傅立叶变换基础上建立起来的,可以进行全局搜索。 对接中,不仅考虑了受体和配体分子表面的几何互补性,而且还考虑了去水 化自由能和静电相互作用能的贡献。z d o c k 属于软对接算法,在较大程度 上考虑了受体和配体分子结合过程中发生的构象变化。 z d o c k 中几何互补性和静电相互作用能的打分与f t d o c k 类似,这罩不 作过多说明,只对去水化自由能的计算作适当的描述。z d o c k 中对去水化 自由能的计算是基于原子接触能模型( a t o m i cc o n t a c te n e r g y ,a c e ) 。传统的 原子接触能模型将蛋白质原子分为1 8 种类型,复合物的去水化自由能为受体 和配体分子中4 1 1 7 e6a 以内的所有原子对的原子接触能之和。在z d o c k 中, 为了加速计算,对原子接触能模型进行了修正。修改后的模型仍然将原子分 为18 种类型,只是一种原子与所有其它原子都具有相同的接触能,而不再象 传统的原子接触能模型中有l8 种数值。去水化自由能打分中,在三维n n n 的网格空间中,用复数形式的离散函数来描述受体和配体分子的去水化 特性。 1 0 哈尔滨一f :科人学硕十学位论文 1 3 2 国内研究现状 国内对蛋白质相互作用方面的研究起步较晚,但也越来越重视,很多领 域取得了成绩 j o l 。北京大学和上海生命科学研究院分别于1 9 9 7 年和2 0 0 0 年 成立了生物信息中心,但还不能提供生物学数据集成和生物信息搜索引擎方 面的服务,生物科技的数据库数量还很少,许多科研单位在生物信息的检索、 查询和分析都依赖于国外的公共资源。算法方面,北京工业大学王存新教授 所指导的内容较多,但应用方面还没有成熟的系统,大多在理论和实验层面。 可见总体上,国内外差距较大。 国内蛋白质对接的相关算法总结如下: 李春华的双重过滤技术,该技术以分子表面几何互补性和界面残基成对 偏好性为依据筛选合理对接结构。基本思想是根据复合物分子的溶剂可接近 面积将自i 1 0 0 0 个构象从大到小排序,然后对后面的每一个结构,比较它与当 前动态列表中的最后一个结构的接近面积,若小于则扔掉,若大于则不直接 保存,而是要继续比较它们的界面残基成对偏好性。只有那些既具有较好的 几何互补性,又具有更加有利的界面残基成对偏好性的结构才被保存下来, 并按界面面积的大小插入到动态列表中。 于永辉的包含静电能、去水化自由能以及范德华能打分函数的研究。发 现包含静电能、去水化自由能以及范德华能的打分函数相对于其他打分函数 评价天然构想的能力更强。 1 3 3 存在问题 分子对接的目的是找到配体分子和受体分子间的最佳结合模式,所以要 面对的问题是1 ,如何找到最佳的结合位置;2 如何确定对接分子问的结合强 度。 如何找到最佳的结合位置牵涉到优化的问题。配体分子和受体分子都是 可以自由转动和平动的,同时两个分子自身的构象也存在变化,因此它们之 间可能的结合方式是非常复杂的,所以简单的搜索方法是不够的,要引入其 他高效的优化方法。 如何确定对接分子问的结合强度涉及到配体分子和受体分子间结合能力 哈尔滨i :样人学硕 :学侮论文 的坝测,牵涉到结合自由能的计算,结合自由能包括以下三个方面: 1 气念下的受体分子和配体分子对接过程的自由能变化,约为对接过程 中的焓变; 2 受体分子、底物分予以及复合物分子的溶剂化自由能; 3 对接过程中的熵变。 在这几项中,气态下分子对接过程的焓变可以通过分子力学的方法简单 求算:但准确币i 快速的求算去溶剂化结合能还存在一定的问题;熵变的计算 则是最大的问题,它的计算需要耗费大量时间,而在实际的蛋白质分子对接 过程中,研究人员总是希望能快速筛选成千上万的分子,所以目前采用的是 较为简单的自由能评价方法,还不能完全解决结合强度问题。 1 4 本文的研究内容和所做的工作 通过对各类蛋白质对接软件深入的研究,以及对相关文献的阅读,该课 题实现了一个能够在普通计算机上运行、运算时| 白j 控制在3 分钟左右并且操 作简便的系统。课题的研究工作主要包括以下几个方面: ( 1 ) 蛋白质分子模型的设计 对蛋白质对接程序的实验数据的数据结构进行了规划设计,确立了以网 格为基础的整体框架。 ( 2 ) 对接算法的设计 对接算法以受体分子为中心,配体分子围绕受体分子进行全空间搜索, 寻找结合位点。 ( 3 ) 过滤和打分算法设计 过滤算法能够将寻找到的大量的结合位点进行过滤取优,找到最优的结 合位点范围。打分算法能够对过滤后的结果评定打分。 以上设计方案都经过实验验证,实验数据来自蛋白质结构数据库,配体 分子和受体分子分别为2 0 v 0 和5 c h a 。 1 5 论文的结构安排 第1 章是论文的绪论部分,介绍了该研究课题的背景、意义以及国内外 1 2 哈尔滨f :群人学硕十学何论文 相关的研究现状,给出主要研究内容,提出该课题的重点难点,给出了本论 文的主要工作内容。 第2 章归纳了本课题的相关理论及特点。 第3 章研究了蛋白质的三维结构,给出了配体和受体的数据模型。 第4 章对蛋白质的对接算法进行具体研究,给出了搜索算法、过滤算法 和打分算法,并展示对接结果。 结论部分对论文工作进行了总结和概括,为进一步研究提出合理建议。 哈尔滨t 稃人学硕十学何论文 第2 章蛋白质对接方法的理论研究 蛋白质分子由氨基酸组成,一般有成百上千个原子,原子之间存在着各 种力的作用,如静电力、氢键产生的力、范德华力等等,由此产生了于分子 阳j 关系相关的各种学科,如分子热力学、分子动力学等。我们的目的是在各 学科的基础上,运用一些智能算法研究分子对接相关问题,下面足分子对接 相关的理论概括。 2 1 分子对接的理论基础 所谓分子对接就是己知两个分子的三维结构,考察它们之间是否可以结 合,并预测复合物的结合模式。分子对接最早起源于1 0 0 年前e f i s h e r 的“锁 和钥匙模型”。e 。f i s h e r 认为,“锁和钥匙”互补识别的首要条件是它们在 空间形状上要互相匹配。当然分子对接比“锁和钥匙”模型复杂得多。首先 锁和钥匙是刚性的,而受体和配体分子则是柔性的,其结构是可以发生变化 的,受体和配体在对接过程中互相适应对方,从而达到更完美的匹配。分子 对接和“锁和钥匙”模型的另一个不同之处是分子对接不仅要满足空间形状 的匹配,还要满足能量的匹配。受体和配体能否结合以及结合的强度最终是 由形成复合物过程的结合自由能变化决定的。 互补性( c o m p l e m e n t 越t y ) 和预组织( p r e o r g a n i z a t i o n ) 是决定分子对接过程 的两个重要原则,前者决定识别过程的选择性,后者决定识别过程的键合能 力。当然互补性包括空间结构的互补性和电学性质的互补性。受体与配体分 子在识别之前将受体中容纳配体的环境组织得愈好,其溶剂化能力愈低,则 它们的识别效果愈佳,形成的复合物愈稳定,这就是分子识别的预组织原则。 综上所述,分子结合时须遵循以下互补匹配规则: ( 1 1 几何形状互补匹配,原子紧密结合,使其具有较大的接触面积; f 2 ) 静电相互作用互补匹配,正负电荷相对应; ( 3 ) 复合物界面包含尽可能多的氢键,盐桥; ( 4 ) 疏水相互作用互补匹配; 1 4 哈尔滨l :稗人学硕十学何论文 ( 5 ) 尽量避免在界面上出现没有成对的极性基幽。 2 2 分子对接方法的分类 分子对接方法根据不同的简化程度大致可以分为三类:刚性对接、半柔性 对接以及柔性对接。 ( 1 ) 刚性对接 刚性对接指在对接过程中,研究体系的构象不发生变化,其中比较有代 表性的就是w o d a k 和j a n i n 发展的分子对接算法。刚性对接适合考察比较大 的体系,比如蛋白质与蛋白质以及蛋白质与核酸之自j 的对接,它计算较为粗 略,原理也相对简单。 ( 2 ) 半柔性对接 半柔性对接指在对接过程中,研究体系尤其是配体的构象允许在一定范 围内变化,其中比较有代表性的方法有k u n t z 等人发展的d o c k 以及o l s o n 等丌发的a u t o d o c k 。半柔性对接方法适合于处理小分子和大分子之问的对 接。在对接的过程中,小分子的构象一般是可以变化的,但大分子比如靶酶 则足刚性的。由于小分子相对较小,因此在一定程度考察柔性的基础上,还 可以保持较高的计算效率。在药物设计,尤其在基于分子对接的数据库搜索 中,一般采用半柔性的分子对接方法。 ( 3 ) 柔性对接 柔性对接指在对接过程中,研究体系的构象基本是可以自由变化的,其 中比较有代表性的方法有a c c e l r y s 公司发展的基于分子力学和分子动力学的 分子对接方法。柔性对接方法一般用于精确考察分子之i 自j 的识别情况。由于 在计算过程中体系的构象是可以变化的,因此柔性对接需要消耗较长的计算 时| 白j 。 2 3 分子间结合机制 深入理解分子间的结合过程有助于发展强有力的对接算法。蛋白质分子 问的结合机制高度依赖于具体研究的体系。例如,对那些发生快速结合的复 合物体系,其结合强烈地依赖于溶液离子浓度的变化。通过分析复合物结合 呤尔滨l :稃入学硕十学位沦文 自由能曲面,得到如下结论:复合物中受体与配体分子快速结合过程主要是 由长程静电力所驱动的,因而其结合对溶液离子浓度具有很强的依赖性:分 子间发生缓慢结合的过程则不受或受到很小的长程力控制,而主要是疏水效 应在发挥作用,这种效应对溶液离子浓度的依赖性较长程静电力弱得多。这 一点对分子对接方法的研究是非常重要的。 实验告诉我们,对那些主要由疏水效应控制结合的蛋白质复合物结构的 预测足比较容易的。在这样的复合物中,蛋白质分子表面的几何互补性常常 是一个很好的结构评价指标,对这类复合物的结构预测,只考虑其表面几何 互补打分也是可以的。然而对那些分子结合过程中主要受长程静电力驱动的 蛋白质复合物体系,它们的结构预测就比较困难,其中部分原因是由赖氨酸 和精氨酸的侧链造成的。 在受体和配体分子的x r a y 结构测定中,赖氨酸和精氨酸侧链位置的确 定常常是十分不准确的,这将人为地导致分子自由念和结合态构象之间潜在 的差异,因此自由态分子对接中,这些关键带电侧链位置的错误很可能造成 结构预测的失败。 另外,分子结合中关键位置上侧链的作用也是不能低估的,一两个错误 的侧链足以使受体和配体分子间失去原有的结合能力。k i m u r a 等人已经证 明,只有在溶液中蛋白质分子一些关键侧链以恰当构象存在的条件下与其底 物结合时,化学亲和性才会将两分子共同稳定在结合区域处。由于在蛋白质 分子x r a y 结构中,某些氨基酸残基或其侧链的位置是十分不准确的,所以 这就需要分子对接算法能够在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论