结构生物信息学6三级结构预测_第1页
结构生物信息学6三级结构预测_第2页
结构生物信息学6三级结构预测_第3页
结构生物信息学6三级结构预测_第4页
结构生物信息学6三级结构预测_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

结构生物信息学蛋白质三级结构预测张法中国科学院计算技术研究所2013-3-31Outline背景简介蛋白质结构预测算法常用软件介绍蛋白质三级结构序列结构功能蛋白质结构的意义:蛋白质所具有的功能取决于蛋白质的空间结构。蛋白质分子的生物学功能是蛋白质的天然构象具有的属性或所表现的性质,因此研究蛋白质分子的空间结构和生物学功能的关系在分子生物学中占据突出的地位蛋白质结构的应用:背景简介1.预测蛋白质的功能3.蛋白质-蛋白质的相互作用5.结构域边界2.底物结合位点4.药物设计6.指导定点突变

确定蛋白质结构的方法确定蛋白质结构的方法核磁共振X射线晶体衍射结构预测冷冻电镜小分子量蛋白蛋白质复合体小分子量蛋白膜蛋白和超大分子复合体背景简介X-射线晶体衍射技术背景简介测定衍射斑点位置和强度衍射相角分子的构象电子密度图X-射线晶体衍射技术优点:测定结果可靠;速度快;不受样品大小限制,无论多大的蛋白,或者复合体,(蛋白质、RNA、DNA、小分子等等),只要能够结晶就能够得到其原子结构。缺点:必须进行结晶;很多蛋白质很难(甚至无法)结晶;晶体中的蛋白质分子构象是静态的,无法测定不稳定的过渡态的构象。背景简介核磁共振技术测定蛋白质结构预测背景简介核磁共振技术测定蛋白质结构背景简介优点:能研究溶液中的蛋白质结构;能提供大量有关动态的信息;测定结果与X射线技术非常接近。缺点:只能测定较小的蛋白质结构;很难获得蛋白质分子完整的三维结构。蛋白质结构预测的意义问题:寻找从氨基酸序列到蛋白质所有原子三维坐标的一种映射理论方面:蛋白质折叠的机制应用方面:了解蛋白质分子的结构实验测定方法的局限性蛋白质结构测定和序列测定严重脱节蛋白质序列与PDB中已测定的结构数量相差2个数量级蛋白质结构的试验测定费时费力,成功率非常有限大量的蛋白质结构不能通过实验方法测得背景简介蛋白质结构预测的依据实验结果证明:蛋白质的结构由蛋白质序列所决定。背景简介自然界实际存在的蛋白质是有限的,并且存在着大量的同源序列,可能的结构类型也不多,序列到结构的关系有一定的规律可循。结构保守性>>序列保守性PDB中结构数量在增加,但是蛋白质的结构类型(Fold)的数量几乎没有增加。(~1200)Anfinsen原理:蛋白质链会以自由能最低的方式形成三维结构。(1972年诺贝尔化学奖)蛋白质三维结构的表示法欧式空间原子坐标Coordinates(x,y,z)Cα

坐标确定后backbone的自由度很小侧链排放有一定的自由度距离矩阵坐标距离矩阵,距离矩阵坐标镜像问题,丢失了手性相邻的Cα

距离为3.8A左右(特例:cis-proline2.8A)k*L个Cα-Cα距离便可恢复出L个Cα的坐标背景简介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8蛋白质三维结构的表示法角空间扭转角(Torsionangle)phi-angle(φ):N-Cαbondpsi-angle(ψ):Cα-Cbond键长背景简介1234103.86.08.123.803.85.936.03.803.848.15.93.8012346.08.15.93.83.83.83.8欧式空间的表示法可以与角空间的表示法互相转换蛋白质的折叠过程背景简介朝自由能E最低的构造折叠,形成稳定的氢键,静电以及范德华相互作用,产生二级结构螺旋平行/反平行蛋白质结构分类数据库SequenceDB:NRUniprotpFam分类序列相似性Sequencealignment背景简介蛋白质结构分类背景简介数据库SequenceDB:NRUniprotpFam分类序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自动全自动分类几何信息进化信息层次聚类结构相似性structurealignment2/3的结构分类是重合的FSSP蛋白质结构分类背景简介数据库SequenceDB:NRUniprotpFam分类序列相似性SequencealignmentStructureDBScopPDBProteinDataBankCATH人工人工+自动全自动分类几何信息进化信息层次聚类结构相似性structurealignment2/3的结构分类是重合的FSSPSeq-StrualignmentStructureprediction蛋白质结构分类背景简介数据库:PDB/Class/Fold/Architecture/Domain/Motif/Superfamily/Family分类:Class:二级结构分类(all,all,+,/,etc)Fold(architecture):二级结构的形状走向(barrel,sandwich,etc)

domain:结构中有功能的部分比如binding,cleaving,spanningsitesmotif:小的或者特定的二级结构比如一个--loopFamily:考虑拓扑结构+实验的或者生物特性Superfamily:在family基础上,还考虑进化关系Allα

Allβ

α+β

α/βPDBID:2FOXCLASS:/FOLD:Flavodoxin-likesandwichSuperfamily:FlavoproteinsFAMILY:Flavodoxin-relatedSandwichTIMbarrelProteinDataBankOutline背景简介蛋白质结构预测算法常用软件介绍蛋白质结构预测的主要方法理论分析方法预测算法该类方法假设蛋白质分子天然构象处于热力学最稳定,能量最低状态。从原则上来说,我们可以根据物理、化学原理,通过计算来进行结构预测。考虑蛋白质分子中所有原子间的相互作用以及蛋白质分子与溶剂之间的相互作用,通过理论计算(如分子力学、分子动力学)蛋白质分子的能量最小状态。实际不可行:自然的蛋白质结构和未折叠的蛋白质结构,两者之间的能量差非常小蛋白质可能的构象空间庞大,针对蛋白质折叠的计算量非常大计算模型中力场参数的不准确性也是一个问题蛋白质结构预测的主要方法统计分析方法对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而对未知结构的蛋白质根据映射模型直接从氨基酸序列预测结构。经验性方法:根据一定序列形成一定结构的倾向进行结构预测结构规律提取方法从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规则,指导建立未知结构的蛋白质的模型。

同源模型化方法通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋-转角-螺旋结构、DNA结合区域等)。预测算法Template-free从头计算Ab

Initio,Denovo

在Ramachandranplot指导下旋转,,搜索自由能最低如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。如果序列相似性>75%,则可以得到较高精度的预测结构。缺点是只能处理和模板库中蛋白质序列相似性较高的情况。蛋白质结构预测的主要方法预测算法Template-based同源建模Homology

Modeling

序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低Template-freeTemplate-based同源建模Homology

Modeling

序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低从头计算Ab

Initio,Denovo

在Ramachandranplot指导下旋转,,搜索自由能最低从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板;将未知序列与模板进行匹配,通过计算打分函数值判断匹配程度,其中打分最高的被认为是最可能采取的折叠结构。蛋白质结构预测的主要方法预测算法Template-free从头计算Ab

Initio,Denovo

在Ramachandranplot指导下旋转,,搜索自由能最低依据是热力学理论,即求蛋白质三维结构稳定的状态,也就是能量最小的状态;由于巨大的计算量,这种方法并不实用。蛋白质结构预测的主要方法预测算法Template-based同源建模Homology

Modeling

序列足够相似,属同源蛋白,则整体结构会很相似折叠识别FoldRecognitionThreading识别与目标序列有关的结构片段组合片段,搜索自由能最低蛋白质结构预测流程预测算法蛋白质同源模建算法主要思想:预测算法对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型基本依据:任何一对蛋白质,如果序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。蛋白质同源模建算法同源建模(Homologymodeling):预测算法又称比较建模(comparativemodeling);基本假设是蛋白质分子结构具有某种规则性,其可能三维结构的基本形态种类有限,各个形态是由几种特定的氨基酸序列所构成;利用已知的蛋白质三维结构(可能由NMR或X-ray确定的结构)为模板,模拟出未知结构蛋白质序列的空间结构;一般来说,当未知结构蛋白质序列(targetprotein)和模板(template)间的相似性越高,所仿真出来的结构正确性、可信度也就越高。蛋白质同源模建算法的步骤同源建模方法6个步骤:预测算法搜索结构模板:选择参考的蛋白质分子(Template,T)序列比对:将目标分子(Target)和参考分子的氨基酸序列比对,寻找序列相同区域建立骨架:建立目标分子核心部份的分子骨架构建目标蛋白质的侧链:产生各结构守恒区域之间松散分子链的结构目标分子结构修正微调:构建目标蛋白质的环区结果验证:三维分子结构的检验和证实UT蛋白质同源模建算法的步骤预测算法同源模建(1):结构模板的选择第一步:结构模板的选择预测算法选择和目标蛋白质分子相关的参考蛋白质分子目标分子和参考分子间序列相似的程度参考蛋白质分子已知结构的准确性

预测结果准确率:预测算法对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。若有一个以上的参考蛋白分子有已知结构,并且和参考分子的序列相似程度>25%时,一般而言可用同源性仿真方法得到目标分子的合理模型。若没有精确结构的蛋白质分子供参考,或序列相似程度<25%时,该方法建立蛋白质分子模型成功的机会就不高,此时需利用其它实验数据的协助。同源模建(1):结构模板的选择蛋白质同源模建算法预测算法蛋白质同源模建算法预测算法同源模建(1):结构模板的选择第一步:结构模板的选择预测算法一未知结构的蛋白(U),如果找到一个已知结构的远程同源蛋白(T),可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个远程同源模型化方法要解决三个问题:检测远程同源蛋白质(T);U和T的序列必须被正确地对比排列;修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。同源模建(2):蛋白质序列比对第二步:目标-模板蛋白质序列比对预测算法同源建模程序中最关键的步骤;对齐两蛋白质序列,即决定目标蛋白序列中对应于模板蛋白骨干及松散分子链的各个段落,对产生正确三维结构有关键性的影响;相似性>50%时,很容易将两序列对齐;相似性<50%时,需额外的数据才能得到可靠的对齐,困难之处在于确认序列中适当的基准点基准点必须存在于蛋白质序列之中,并在结构和功能都具有重要性,这些基准点提供两蛋白质分子正确的结构对应关系同源模建(2):蛋白质序列比对第二步:目标-模板蛋白质序列比对预测算法寻找基准点的方法:多序列比对,将目标蛋白与模板及同一系统内其它蛋白质序列进行多序列,以各分子序列对应相同序列段落做为基准点同源模建(2):蛋白质序列比对第二步:目标-模板蛋白质序列比对预测算法寻找基准点的方法:多重模板,使用Cα的距离矩阵,完成与参考蛋白质的结构重叠只有在turn及loop的区域内才可进行插入、删除和更换疏水性的氨基酸应限制在蛋白质分子核心部份的分子骨干上同源模建(3):构建骨架第三步:目标蛋白结构骨干的确定预测算法利用模板蛋白核心部份分子骨干的结构为基础,将氨基酸换成目标分子对应位置的氨基酸。刚体装配法:选取与目标蛋白质序列相似度最高的片段作为目标结构;加权平均法:即采用一种合适的加权方案,用构成基架的同源结构族的平均结构作为目标结构修改后可再利用能量函数来调整各碱基的位置。同源模建(4):构建侧链第四步:目标蛋白侧链结构的生成预测算法基于构象库的方法:在结构数据库中搜寻具有相同氨基酸序列的片段,直接借用其坐标数据;确定目标蛋白的保守区域同源模建(4):构建侧链第四步:目标蛋白侧链结构的生成预测算法基于构象库的方法:在结构数据库中搜寻具有相同氨基酸序列的片段,直接借用其坐标数据;搜寻相似的loop区域同源模建(4):构建侧链第四步:目标蛋白侧链结构的生成预测算法能量计算方法:计算全局能量最低时的原子坐标第一阶段,先忽略氨基酸的侧链部份,在分子骨架的构形空间内做能量最小化计算,找到合理的分子骨架构型;第二阶段中将侧链部份结构考虑进来,以能量最小化的方式计算各支链部分的分子构形。同源模建(5):结构修正第五步:目标蛋白结构的修正预测算法Loop区域的构建,可能得到数个合理的分子构形,需要考虑各分子构形的组合,再进行整体的结构调整和修正;如果loop区域的结构来自数据库,需要利用分子运动学方法来修改分子结构,确定能量最低的分子构形同源模建(6):结果验证第六步:目标蛋白质分子结构的验证预测算法同该蛋白质已知的实验数据做一致性的比较来评估,例如溶剂分子的可接触性,氨基酸堆积密度、厌水性或带电荷或极性氨基酸的位置,分子静电位场分布和溶解自由能等等实验测量值。另外用分子运动学方法来探测是否所得到的分子构形是停留在稳定的能量最小的区域或是停留在很浅的局部能量最小区域。同源模建(6):结果验证预测算法优化模型–利用能量优化方法Discover同源模建(6):结果验证预测算法利用Profiles3D-检验蛋白质结构的合理性

绿色的是合理的结构;红色的是不合理的结构蛋白质同源模建算法的步骤预测算法同源模建算法的缺陷可供作模板的蛋白质结构有限目标-模板蛋白序列比对精度的限制,特别是同源性很低时侧链部分预测的错误没有模板区域的预测还行进一步完善能量函数还需进一步完善,并提高计算效率蛋白质理化性质(如溶剂效应等)方面仍有待努力预测算法同源模建算法的改进预测算法蛋白质折叠识别算法主要思想:预测算法把一个蛋白质序列以“最优”的方式放置到一个蛋白质结构模板上;衡量这个模板的合适程度。基本依据:虽然蛋白质数量在急剧增加,但是蛋白质的结构的折叠类型(Fold)的数量几乎没有增加。蛋白质的结构比序列更加保守,通过比较蛋白质的空间结构,可以发现蛋白质的结构共性,发现属于同一家族蛋白质的保守结构;蛋白质结构相似并不意味着蛋白质序列一定相似;具有相似空间结构的蛋白质序列相似程度可能小于25%蛋白质折叠识别算法预测算法1ecd1mdb实例:结构相似,但是序列不相似蛋白质折叠识别算法从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板;将未知序列与模板进行匹配,通过计算打分函数值判断匹配程度,其中打分最高的被认为是最可能采取的折叠结构。预测算法穿线法(Threading)穿线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配,并评估序列折叠成那种结构的合适度。穿线法最适用于折叠(fold)的识别,而不是模型的建立。用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。蛋白质折叠识别算法-threadingThreading算法的基本步骤:预测算法已知三维折叠结构的数据库;一种适合于进行序列-结构比对的三维折叠信息的表示方法;一个序列-结构匹配函数,对匹配程度进行打分;用平均势函数(MeanForceField),选择最佳的匹配方式建立最优线索的策略,或者是进行序列-结构比对的策略;一种评价序列-结构比对显著性的方法。U序列与数据库核心折叠比对取最佳核心折叠U结构模型蛋白质折叠识别算法-threadingThreading算法的基本步骤:预测算法蛋白质折叠识别算法-threadingThreading算法的基本步骤:预测算法GLIMAYKLILAMNGKLLGEA结构模板:一次threading结果:MTYKLIL

NGKTKGEGLIMAYKLILAMNGKLLGEAMTYKLILNGKTKGE查询序列:模板集:YKLILNG……KTKGETTTLNGKTK……GETTTEANGKTKGE……TTTEAVDAVDAATA……EKVFQYA蛋白质结构从头计算法在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,只能采用从头预测方法,即(直接)仅仅根据序列本身来预测其结构。大致由如下3部分构成:蛋白质几何的表示方法由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理。势函数方法通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数构象空间搜索技术预测算法Outline背景简介蛋白质结构预测算法常用软件介绍蛋白质同源建模--Modeller预测算法由RockefellerUniversity的Dr.AndrejSali开发需要一个或多个已知结构的同源蛋白作为参考蛋白/modeller/蛋白质同源建模--Modeller预测算法蛋白质同源建模--Modeller预测算法Modeller的步骤:SearchingforstructuresrelatedtoQuerySelectingatemplateAligningQuerywiththetemplateModelbuildingModelevaluation蛋白质同源建模--Modeller预测算法Modeller的步骤:SearchingforstructuresrelatedtoQuery蛋白质同源建模--Modeller预测算法Modeller的步骤:SearchingforstructuresrelatedtoQuerybuild_profile.py蛋白质同源建模--Modeller预测算法Modeller的步骤:SearchingforstructuresrelatedtoQuery mod9.11build_profile.py产生三个文件 build_profile.ali build_profile.log build_profile.prf蛋白质同源建模--Modeller预测算法build_profile.prf蛋白质同源建模--Modeller预测算法build_profile.prf蛋白质同源建模--Modeller预测算法Modeller的步骤:2.Selectingatemplatecompare.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论