蛋白质结构分析与预测_第1页
蛋白质结构分析与预测_第2页
蛋白质结构分析与预测_第3页
蛋白质结构分析与预测_第4页
蛋白质结构分析与预测_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息基础Basics in Bioinformatics第7章 蛋白质结构分析与预测生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室2内容提要引言 蛋白质蛋白质结构预测蛋白质二级结构预测蛋白质三维空间结构预测/blog/article/AlphaFol d-Using-AI-for-scientific-discovery生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室3回顾: 两种信息载体DNA分子蛋白质分子生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室4蛋白质

2、的构成蛋白质是由氨基酸用肽键相连接起来的线性聚合 物蛋白质是平均长度为200个左右的氨基酸大的蛋白质可以达到上千个氨基酸生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室5蛋白质的重要性蛋白质决定的细胞的形状与结构细胞中蛋白质的重量占细胞干重的一半以上蛋白质是分子识别及催化作用的主要主体,执行生物体内 各种重要工作生物反应的催化营养物质的运输生长和分化的控制生物信号的识别与传递序列决定结构,结构决定功能生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室6蛋白质的空间结构构成蛋白质的氨基酸序列 的长度不同、排列不同和

3、 空间结构不同一级结构蛋白质中相邻的氨基酸通过 肽键形成一条伸展的链二级结构肽链上的氨基酸残基形成局 部的二级结构比如螺旋是氨基酸的单链 螺旋,而片层则由序列片 段“织”形成平面片状结构空间结构各种二级结构组合形成完整 的折叠结构生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室7内容提要引言 蛋白质蛋白质结构预测蛋白质二级结构预测蛋白质三维空间结构预测生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室8生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室9为什么研究蛋白质的结

4、构?基因是生命的蓝图;蛋白质是生命的机器, 执行生 物体内各种重要工作基因序列决定蛋白质的氨基酸序列氨基酸序列的特定空间结构赋予蛋白质相应的活 性和相应的生物学功能了解蛋白质的空间结构,有助于认识蛋白质的功能, 有助于认识蛋白质如何执行其功能从氨基酸序列到蛋白质空间结构的对应关系,称为“第二遗传密码”,也叫做折叠密码破解折叠密码是21世纪的生物信息学的重要课题生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室10蛋白质结构的测定实验方法X-射线晶体衍射核磁共振电镜技术解析一个蛋白质结构在20世纪60年代可以获得诺贝尔奖;在70年代可以成为轰动世界的新闻;

5、在80年代可以申请到教授职位;在90年代可以获得博士学位;在21世纪可以发表C/N/S论文;COVID-2019蛋白质结构预测问题序列 结构 功能“第二遗传密码”,也叫做折叠密码基本观点:蛋白质的结构由氨基酸序列所决定蛋白质的空间结构决定蛋白质的生物学功能.-Gly-Ala-Glu-Phe-Ala-Glu-Phe-Gly-Ala-Glu.分子的性质和功能生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室12蛋白质结构预测问题的可行性自然界中实际存在的蛋白质种类是有限的,可能 的结构类型并不多结构的数目并未随蛋白质氨基残基的个数呈现指数增长存在大量同源序列

6、,序列到结构的关系有一定规 律可循相似的序列具有相似的结构.-Gly-Ala-Glu-Phe-Ala- Glu-Phe-Glu-Phe-.(.)生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室13蛋白质结构预测问题的数学本质寻找一种从蛋白质的氨基酸线性序列到蛋白质所 有原子三维坐标的一种映射.-Gly-Ala-Glu-Phe-Ala-Glu-Phe-Glu-Phe-. 生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室14生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室1

7、5结构预测的基本方法统计分析方法对已知结构的蛋白质进行统计分析,建立氨基酸序列 到蛋白质结构的映射模型,进而对未知结构的氨基酸 序列根据映射模型直接从序列预测结构经验参数法相似片断法同源方法理论分析方法假设蛋白质分子取能量最低的空间结构,根据物理化 学原理,通过理论计算(如分子力学/分子动力学)进行 对氨基酸序列结构预测从头计算法生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室16内容提要引言 蛋白质蛋白质结构预测蛋白质二级结构预测蛋白质三维空间结构预测蛋白质二级结构的预测问题举例: 氨基酸序列:QLMGERIRARRKKLK2级结构:CTHHHHHH

8、HHHHHHTH代表螺旋, T代表转角,C代表无规卷曲生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室17生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室18二级结构预测基本依据:每一段相邻氨基酸残基具有形成一定二级结构的倾向问题的本质是模式分类问题蛋白质二级结构的构成具有比较强的统计规律所有蛋白质中约85%的氨基酸残基处于三种基本二级 结构状态之一螺旋、折叠和 t转角二级结构预测的目标:判断每一段中心的残基是否处于二级结构的三态之一三态:螺旋、折叠、t 转角(或其它状态)二级结构预测的基本思路相似序列对应着相

9、似的结构QLMGERIRARRKKLKQLMGAERIRARRKKLK结构?生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室19螺旋训 练 样 本模 型 学 习预测.-Gly-Ala-Glu-Phe-.二级结构预测的基本过程生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室20生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室21二级结构的基本统计观察蛋白质二级结构的组成的统计规律三种基本二级结构平均占氨基酸残基的85%各种二级结构不均匀地分布在蛋白质中血红蛋白和肌红蛋白含

10、有大量的螺旋铁氧蛋白则不含或者仅含很少的螺旋免疫球蛋白二级结构以折叠为主生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室22氨基酸在二级结构出现的规律每种氨基酸出现在各种二级结构中倾向或 频率是不同的比如: Glu主要出现在螺旋中, Asp和Gly主要 分布在转角中, Pro也常出现在转角中,但是绝 不会出现在螺旋中可根据每种氨基酸残基形成二级结构的倾向性 或者统计规律进行二级结构预测生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室23二级结构预测可利用的信息单个氨基酸残基统计分析从数据集中提取各种残基形成特定

11、二级结构的倾向, 以此作为预测依据基于氨基酸片断的统计分析统计对象氨基酸片断,片断体现了中心残基所处的环 境以残基在特定环境中形成的特定二级结构的倾向作为 预测依据蛋白质序列的长程信息和进化信息二级结构的形成一定程度上受到长程残基的影响蛋白质家族具有特异的残基替换模式存在进化保守区域,该区域变化则会导致蛋白质结构 的改变生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室241. 经验参数法根据不同氨基酸形成特定二级结构的倾向 进行结构预测 通过对已知结构的蛋白质(如蛋白质结构数据库PDB、蛋白质二级结构数据库DSSP中的蛋白 质)进行统计分析,可发现各种

12、氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结 构预测的规则生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室25基于单个氨基酸残基统计分析举例:Glu主要出现在螺旋中,Asp和Gly主要出现在转角中,Pro不 会出现在螺旋中肽链 Ala-Glu-Leu-Met:形成螺旋肽链Pro-Gly-Tye-Asp-Ser不会形成螺旋Pi : 1 即该残基倾向于构成结构i, 1即倾向于构成其它结构基本原理:每种氨基酸残基出现在各种二级结构中的倾向或频率 不同,通过统计分析可以获得每个残基出现于特定二 级结构中的倾向性因子,利用这些倾向性因子预测二 级结构

13、倾向性因子: Pi Ai /Ti , i , ,t,c.Ai : 残基A中出现在结构态i的比例Ti : 所有被统计的残基位于二级结构态i的比例26常见氨基酸的二级结构倾向性因子生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室预测二级结构的经验规则基本思想:在序列中寻找符合某规则的二级结构的成核位 点和终止位点基本步骤: 扫描输入的氨基酸序列,利用一组规则发现可 能成为特定二级结构成核区域的短序列,然后 对于成核区域进行扩展,不断扩大成核区域, 直到倾向性因子小于1.0为止螺旋规则折叠规则转角规则重叠规则延伸成核区延伸生物信息基础 - Basics in

14、 Bioinformatics模式识别与智能系统实验室27螺旋的预测规则基本步骤: 沿着蛋白质序列寻找-螺旋核在相邻6个残基中,如果至少有4个残基倾向于 形成螺旋, 即有4个残基的;则认为是- 螺旋核从螺旋核向两端延伸,直至四肽片段的螺旋倾向 性因子的平均值P1.03,则预测为螺旋延伸成核区延伸生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室28折叠的预测规则基本步骤: 沿着蛋白质序列寻找折叠核在相邻6个残基中,如果至少有4个残基倾向于 形成折叠;即有4个残基的 , 则认为是 折叠核延伸成核区延伸生物信息基础 - Basics in Bioinform

15、atics模式识别与智能系统实验室29生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室30t转角的预测规则t 转角的模型为四肽5f j1 f j2 f j3 f j4 7.510f j1, f j2 , f j3 , f j4 :转角参数,表示每种残基出现在转角第1、2、3、4位的频率 4肽片段Pt的平均值大于1,并且Pt的均值同时大于P的均值以及P 的均值,则可以预测这样连续的4个残 基形成转角生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室31重叠区域的预测规则对于螺旋和折叠的重叠区域,按Pa和P 的相对大

16、小进行预测若Pa大于P,则预测为螺旋;反之,预测为折叠2. 相似片断法基本原理: 最近邻方法相似序列具有相似的结构,将相似序列或序列的片 断所对应的二级结构作为预测结果;在预测中心残 基的二级结构时,以残基在特定环境形成特定二级 结构的倾向作为预测依据基本统计信息: 基于氨基酸片段的统计分析统计的对象是氨基酸片段,片段体现了中心残基所 处的上下文环境片段的长度通常为1121氨基酸片断生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室32相似片断法的实现步骤基本步骤: 训练阶段通过窗口扫描已知结构的训练序列,形成大量短片 断,即训练片断记录这些片断中心氨基

17、酸残基的二级结构预测阶段利用同样大小的窗口扫描待测序列u,在每个窗口位 置下的序列片断与上述训练片断比较,找出最相似 的k个训练片断 比如 k=20,50取出现频率最高的训练片断的二级结构作为待测片 断二级结构的预测氨基酸片断生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室33生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室343. 同源分析法基本思路:将待预测的片段与数据库中已知二级结构的片段进行 相似性比较利用打分矩阵计算出相似性得分根据相似性得分以及数据库中的构象态,构建出待预 测片段的二级结构适用情况:

18、该方法对数据库中同源序列的存在非常敏感若数据库中有相似性大于30%的序列,则预测准确率 可大幅上升生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室35假设已知二级结构的氨基 酸片段T=STNGIYWT的二级结构为CHHHHHTH代表螺旋,T代表转角,C代表无规卷曲待预测二级结构的氨基酸 片段U=ATSGVFL序列比对:T = S T N G I Y W U = A T S G V F L直接将T的构象态赋予U生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室36利用进化信息预测二级结构蛋白质家族具有特异的残基替换

19、模式蛋白质序列中存在进化保守区域,该区域变化 则会导致蛋白质结构的改变基本步骤:1. 形成同源序列的多重对比排列2. 将得到的多重比对的统计结果送到一个神经 网络中计算例 1:蛋白质二级结构预测基于序列特征 + 神经网络生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室37例2:蛋白质二级结构预测基于序列特征+谱(profile)特征卷积+递归神经网络生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室38生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室39经验参数法 和 相

20、似片断法: 只利用了局部信息对三态预测的准确率都小于70%对折叠预测的准确率仅为2848%同源法运用长程信息和蛋白质序列的进化信息准确度有比较大的提高二级结构预测方法的比较生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室40内容提要引言蛋白质蛋白质结构预测蛋白质二级结构预测蛋白质三维空间结构预测 同源模型法 (60%, 30%) 线索化方法 (25%)从头预测法生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室411. 同源模型法基本思想:通过同源序列分析预测蛋白质的空间结构或空间结构 单元基本原理:具有相似序列

21、的蛋白质倾向于折叠成相似的空间结构每一个自然蛋白质具有一个特定的结构,不同的序列会采用同 一个基本折叠一对自然进化的蛋白质,如果它们的序列具有2530%的等同 部分或更多,则可以假设这两个蛋白质折叠成相似的空间结构如果一个未知结构的蛋白质序列与一个已知结构的蛋白质序列 具有足够的序列相似性,那么可以根据相似性原理给未知结构 的蛋白质构造一个近似的三维模型如果目标蛋白质序列的某一部分与已知结构的蛋白质的某一结 构域区域相似,则可以认为目标蛋白质具有相同的结构域或者 功能区域同源模型法的基本步骤基本过程: 对于一个未知结构的蛋白质序列U,找到一个已知结构 的同源蛋白质,以该蛋白质的结构为模板,为未

22、知结 构的蛋白质建立结构模型设待预测三维结构的目标蛋白质序列为U,同源 模型化方法建立结构模型分6个步骤: 1. 搜索结构模型的模板(T)2. 序列比对3. 建立骨架4. 构建目标蛋白质的侧链5. 构建目标蛋白质的环区6. 优化模型U T生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室42生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室43三维空间结构预测结果若有60%等同的序列,则所建立的三维模型非 常准确若序列的等同部分超过60%,则预测结果将接 近于实验得到的测试结果如果序列的等同部分大于30%,则可以期

23、望得 到比较好的预测结果同源模型法生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室442. 线索化方法提出动机:很多蛋白质具有相似的空间结构,但其序列等同部分 小于25%,即远程同源;对于这类蛋白质,难以通过 序列比对找出它们之间的关系,需要设计新方法线索化(Threading)方法, 也叫折叠识别(Fold Recognition)技术线索化是建立序列-结构比对(Sequence-Structure Alignment)过程:为目标序列U寻找合适的序列模板,这些模板蛋白质序 列与目标序列U是远程同源序列,未必具有显著的序列 相似性基本思想和步骤主要思

24、想:利用氨基酸的结构倾向(比如形成二级结构的倾向/疏水 性/极性等)评价一个序列所对应的结构是否能够适配到 一个给定的结构环境中线索化方法有5个步骤:1. 建立核心折叠数据库2. 确定适合序列-结构比对的三维折叠信息表示方法3. 定义序列-结构匹配函数,对匹配程度打分4. 建立序列-结构比对策略5. 给出评价序列-结构比对显著性的方法生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室45生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室463. 从头预测法提出动机: 如果没有已知结构的同源蛋白质、也没有已知结构的

25、远程同源蛋白质,则同源模型化方法和线索化方法均 不再适用需要一种仅仅根据氨基酸序列本身来预测其结构的方 法从头预测法(Ab initio method)基本原理: 假设蛋白质分子取能量最低的空间结构根据物理/化学原理,通过基于分子力学/分子动力学的 理论计算所完成的蛋白质结构预测考虑疏水作用/氢键/二硫桥/静电作用/范德华力/溶剂作用等生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室47从头预测法基本步骤: 1. 确定蛋白质几何结构的表示方法2. 定义一个可能空间结构的能量函数3. 设计有效的结构空间搜索方法能量函数的定义和结构空间搜索方法是从 头预测

26、方法的关键生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室48三种方法的比较同源模型法需要得到一个好的序列比对目标蛋白质序列与模板等同部分超过60%, 则完全可 以找到正确的比对;如果相似程度只有20%-25%,则 很难找到正确的比对;如果相似度低于20%,无法应 用同源模型化方法同源模型法是预测结果最可靠的方法线索化方法需要找到远程同源蛋白如果能够找到同一家族的远程同源蛋白质,则可以获 得比较好的预测结果;如果找到的模板属于不同的家 族,则预测准确性难以保证从头预测方法需要准确的能量函数和快速搜索策略通常难以产生准确的预测结构生物信息基础 - Basics in Bioinformatics模式识别与智能系统实验室49预测结果的评价基本方法:取结构已知的蛋白质,对这些蛋白质进行模拟 结构预测,将预测结构与真实结构进行比较, 分析两者之间的差距建立公共

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论