蛋白质结构与功能预测_第1页
蛋白质结构与功能预测_第2页
蛋白质结构与功能预测_第3页
蛋白质结构与功能预测_第4页
蛋白质结构与功能预测_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

关于蛋白质结构与功能预测第一页,共七十八页,2022年,8月28日实习一基因组数据注释和功能分析实习二核苷酸序列分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习实习课程内容基因组学转录物组学蛋白质组学系统生物学第二页,共七十八页,2022年,8月28日2DNAsequenceProteinsequenceProteinstructureProteinfunction第三页,共七十八页,2022年,8月28日3蛋白质序列分析蛋白质一级序列蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质序列分析主要内容第四页,共七十八页,2022年,8月28日蛋白质结构预测过程ORF翻译实验数据蛋白质序列蛋白质理化性质和一级结构数据库搜索结构域匹配已知结构的同源蛋白?三维结构模型可用的折叠模型?同源建模有二级结构预测无串线法有从头预测无第五页,共七十八页,2022年,8月28日5ExPASy(ExpertProteinAnalysisSystem)Tools(/tools/)第六页,共七十八页,2022年,8月28日6一、蛋白质理化性质分析使用工具:Protparam二、跨膜区分析使用工具:Tmpred三、二级结构分析使用工具:PredictProteinServer四、结构域分析使用工具:InterProScan五、蛋白质三级结构分析使用工具:SWISS-MODEL/SWISS-PdbViewer数据:C:\ZCNI\shixi4\protein.txt课程安排第七页,共七十八页,2022年,8月28日7一、蛋白质基本理化性质分析

蛋白质理化性质是蛋白质研究的基础蛋白质的基本性质:相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……

实验方法:相对分子质量的测定、等电点实验、沉降实验缺点:费时、耗资基于实验经验值的计算机分析方法第八页,共七十八页,2022年,8月28日工具网站备注AACompldent/tools/aacomp/利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白ComputepI/Mw/tools/pi_tool.html计算蛋白质序列的等电点和分子量ProtParam/tools/protparam.html对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMass/tools/peptide-mass.html计算相应肽段的pI和分子量SAPShttp://www.isrec.isb-sib.ch/software/SAPS_form.html利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具第九页,共七十八页,2022年,8月28日AACompIdent

PeptideMass第十页,共七十八页,2022年,8月28日10Protparam基于蛋白质序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考Expasy开发的针对蛋白质基本理化性质的分析:Protparam

工具计算以下物理化学性质:相对分子质量氨基酸组成等电点(PI)消光系数半衰期不稳定系数总平均亲水性……第十一页,共七十八页,2022年,8月28日主要选项/参数如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBLAC号(accessionnumber)如果分析新序列:直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBLAC号打开protein.txt,将蛋白质序列粘贴在搜索框中第十二页,共七十八页,2022年,8月28日12输入Swiss-Prot/TrEMBLAC号—分不同的功能域肽段输出结果功能域用户自定义区段第十三页,共七十八页,2022年,8月28日13返回结果氨基酸数目相对分子质量理论pI值氨基酸组成正/负电荷残基数第十四页,共七十八页,2022年,8月28日14消光系数半衰期原子组成分子式总原子数第十五页,共七十八页,2022年,8月28日15不稳定系数脂肪系数总平均亲水性<40stable>40unstable第十六页,共七十八页,2022年,8月28日16练习一:Protparam数据:C:\ZCNI\shixi4\protein.txt第十七页,共七十八页,2022年,8月28日17(a)-TypeImembraneprotein(b)-TypeIImembraneprotein(c)-Multipasstransmembraneproteins(d)-Lipidchain-anchoredmembraneproteins(e)-GPI-anchoredmembraneproteins二、蛋白质跨膜区分析第十八页,共七十八页,2022年,8月28日α螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成亲水残基往往出现在疏水残基之间,对功能有重要的作用基于亲/疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量蛋白质跨膜区特性第十九页,共七十八页,2022年,8月28日跨膜蛋白序列“边界”原则

-LandoltMarticorenaetal.,1993

胞外末端-Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸)胞外-内分界区域-Trp(色氨酸)跨膜区-Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸)胞内-外分界区域-Tyr(络氨酸)、Trp(色氨酸)和Phe(苯丙氨酸)胞内末端-Lys(赖氨酸)和Arg(精氨酸)第二十页,共七十八页,2022年,8月28日20常用蛋白质跨膜区域分析工具工具网站备注DAShttp://www.sbc.su.se/~miklos/DAS/用DenseAlignmentSurface(DAS)算法来预测无同源家族的蛋白跨膜区HMMTOPhttp://www.enzim.hu/hmmtop/由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUIhttp://bp.nuap.nagoya-u.ac.jp/sosui/由Nagoya大学开发一个具有图形显示跨膜区的程序TMAPhttp://bioinfo.limbo.ifm.liu.se/tmap/基于多序列比对来预测跨膜区的程序TMHMMhttp://www.cbs.dtu.dk/services/TMHMM-2.0基于HMM方法的蛋白质跨膜区预测工具TMpred/software/TMPRED_form.html基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPredhttp://bioweb.pasteur.fr/seqanal/interfaces/toppred.html是一个位于法国的蛋白质拓扑结构预测程序第二十一页,共七十八页,2022年,8月28日TMpredTMpred工具:依靠跨膜蛋白数据库Tmbase预测跨膜区和跨膜方向第二十二页,共七十八页,2022年,8月28日22主要参数/选项序列在线提交形式:直接贴入蛋白序列填写SwissProt/TrEMBL/EMBL/EST的ID或AC输出格式最短和最长的跨膜螺旋疏水区长度输入序列名(可选)选择序列的格式贴入protein.txt蛋白质序列第二十三页,共七十八页,2022年,8月28日23输出结果包含四个部分可能的跨膜螺旋区相关性列表可能的跨膜螺旋区相关性列表位置分值片段中点位置第二十四页,共七十八页,2022年,8月28日24

跨膜拓扑模型及图示建议的跨膜拓扑模型每一位置计算分值最优拓扑结构第二十五页,共七十八页,2022年,8月28日25TMHMM第二十六页,共七十八页,2022年,8月28日26第二十七页,共七十八页,2022年,8月28日27练习二:TMpred数据:C:\ZCNI\shixi4\protein.txt第二十八页,共七十八页,2022年,8月28日28三、蛋白质二级结构预测

基本的二级结构α螺旋,β折叠,β转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件

分析方法:基于统计和机器学习方法进行预测Chou-Fasman算法GOR算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法(knowledgebasedmethod)混合方法(hybridsystemmethod)第二十九页,共七十八页,2022年,8月28日工具网站备注BCMSearchLauncher/包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点HNNhttp://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html基于神经网络的分析工具,含序列到结构过程和结构到结构处理Jpredpbio.dundee.ac.uk/~www-jpred/submit.html基于Jnet神经网络的分析程序,并采用PSI-BLAST来构建序列Profile进行预测,对于序列较短、结构单一的蛋白预测较好nnPredict/~nomi/nnpredict.html预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋NNSSPhttp://bioweb.pasteur.fr/seqanal/interfaces/nnssp-simple.html基于双层前反馈神经网络为算法,还考虑到蛋白质结构分类信息PREDATORhttp://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html预测时考虑了氨基酸残基间的氢键蛋白质二级结构分析工具第三十页,共七十八页,2022年,8月28日工具网站备注PredictProtein/提供多项蛋白质性质分析,并有较好准确性Profhttp://www.aber.ac.uk/~phiwww/prof/基于多重序列比对预测工具PSIpredhttp://bioinf.cs.ucl.ac.uk/psipred/psiform.html提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具SOPMAhttp://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html可以比较各种分析方法得到的结果,也可输出

“一致性结果”SSPREDhttp://coot.embl.de/~fmilpetz/SSPRED/sspred.html基于数据库搜索相似蛋白并构建多重序列比对蛋白质二级结构分析工具第三十一页,共七十八页,2022年,8月28日第三十二页,共七十八页,2022年,8月28日32PredictProteinPredictProtein可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息该方法的平均准确率超过72%,最佳残基预测准确率达90%以上。因此,被视为蛋白质二级结构预测的标准第三十三页,共七十八页,2022年,8月28日33PredictProtein提交界面可展开选项第三十四页,共七十八页,2022年,8月28日35PredictProtein提交界面详解提交邮件地址(必填)蛋白名称(可选)分析方法第三十五页,共七十八页,2022年,8月28日1D序列预测PROFsec(默认)基于轮廓(profile)的神经网络算法预测蛋白质二级结构PROFacc(默认)基于轮廓(profile)的神经网络算法预测残基溶剂可及性PHDhtm(默认)基于多序列比对预测跨膜区位置和拓扑结构ASP(默认)识别二级结构中构型变化的氨基酸COILS(默认)识别卷曲螺旋PROFtmb识别革兰氏阴性菌膜Beta桶蛋白结构序列基序识别ProSite(默认)搜索序列中保守基序SEG(默认)过滤序列中低复杂区域PredictNLS(默认)基于实验数据预测序列核定位区域二硫键识别DISULFIND(默认)识别序列中二硫键位置折叠子识别AGAPE基于折叠结构识别远源蛋白序列残基接触预测PROFcon预测单链中原子残基接触性结构域预测ProDom(默认)基于序列同源性来预测蛋白质结构域CHOP预测蛋白质结构域结构表面识别ConSeq预测蛋白质表面结构功能关键区域分析方法程序详解第三十六页,共七十八页,2022年,8月28日3637跨膜螺旋预测(PHDhtm)高级选项Ambivalent序列识别(ASP)高级选项CHOP结构域分析工具高级选项第三十七页,共七十八页,2022年,8月28日38比对内容从SWISS-PROT数据库返回BLAST搜索结果MaxHom参数选项最低序列比对一致性空位间隔罚分空位延伸罚分比对矩阵最大击中值第三十八页,共七十八页,2022年,8月28日39选择保存分析结果是否返回多序列比对结果HTML结果形式AGAPE结果PROF/PHD结果形式以下拉框中所指定的输入格式将待测序列粘贴此提交栏第三十九页,共七十八页,2022年,8月28日服务器运行程序信息ProSite模体搜索结果低复杂区域过滤程序ProDom结构域搜索结果二硫键识别结果PHD程序信息PHD预测结果PROF预测结果球状蛋白预测结果Ambivalent序列识别结果PredictProtein分析结果第四十页,共七十八页,2022年,8月28日40PredictProtein分析结果

PROSITE中的ID号简单描述Motif模式提交序列中出现该Motif的位置第四十一页,共七十八页,2022年,8月28日PredictProtein分析结果

第四十二页,共七十八页,2022年,8月28日PredictProtein分析结果跨膜区非跨膜区LoopHelixSheet第四十三页,共七十八页,2022年,8月28日43四、结构域分析结构域是蛋白序列的功能、结构和进化单元分析方法序列比对第四十四页,共七十八页,2022年,8月28日基本类型:

α折叠β折叠α/β折叠α+β折叠第四十五页,共七十八页,2022年,8月28日45工具网站备注CDD/sites/entrez?db=cdd通过比较目标序列和一组位置特异性打分矩阵进行RPS-BLAST来确定目标序列中的保守结构域HAMAP/sprot/hamap/families.html通过专家预测系统产生的微生物家族同源蛋白数据InterProhttp://www.ebi.ac.uk/interpro/蛋白质家族、结构域和功能位点的联合资源数据库,整合了多个数据库和工具的结果,并提供相应的链接Pfamhttp://pfam.sanger.ac.uk/每个蛋白家族包含了多序列比对、profile-HMMs和注释文件ProDomhttp://prodom.prabi.fr/从SWISS-PROT/TrEMBL数据库中的非片段蛋白序列数据构成,每条记录包含一个同源结构域多重比对和家族保守一致性序列SMARThttp://smart.embl-heidelberg.de/由EMBL建立,集成了大部分已知蛋白功能域数据,注释包括了功能类型、三维结构、分类信息模体、结构域数据库第四十六页,共七十八页,2022年,8月28日工具网站备注TIGRFAMs/TIGRFAMs/由TIGR实验室维护的蛋白质家族和结构域数据库PRINTShttp://umber.sbs.man.ac.uk/dbbrowser/PRINTS/蛋白质模体指纹数据库,提供了FingerPRINTScan、FPScan和GRAPHScan等指纹识别工具DOMO/srs71bin/cgi-bin/wgetz?+LibInfo+-lib+DOMO同源蛋白结构域家族数据库,有多个镜像网站BLOCKS/收录了通过高度保守蛋白区域比对出的无空位片段eMOTIF/distributions/emotif/由斯坦福大学维护。从BLOCKS+数据库和PRINTS数据库中收集了生物功能高度保守的高特异性蛋白序列模体、结构域数据库第四十七页,共七十八页,2022年,8月28日选择需要的分析程序结果返回形式序列提交框InterProScanInterProScan-第四十八页,共七十八页,2022年,8月28日48PictureView其他数据库中的AC号保守区示意图ID名第四十九页,共七十八页,2022年,8月28日InterPro蛋白家族信息AC号,家族名称家族蛋白其他数据库中的收录情况相关的其他家族条目类型第五十页,共七十八页,2022年,8月28日InterPro蛋白家族信息生物体内的信息说明结构链接数据库链接第五十一页,共七十八页,2022年,8月28日InterPro蛋白家族信息该家族蛋白在不同种类生物体中出现情况其他家族与该家族的重叠情况第五十二页,共七十八页,2022年,8月28日练习四:InterProScan数据:C:\ZCNI\shixi4\protein.txt第五十三页,共七十八页,2022年,8月28日53五、蛋白质三维结构预测方法特点工具同源建模法(Homology/Comparativemodelling)基于序列同源比对,对于序列相似度>30%的序列模拟比较有效,最常用的方法SWISS-MODEL,CPHmodels

串线法/折叠识别法

(Threading/Foldrecognition)“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大THREADER,3D-PSSM从头预测法(Abinitio/Denovomethods)基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTR/ROSSETA第五十四页,共七十八页,2022年,8月28日蛋白质结构预测精度第五十五页,共七十八页,2022年,8月28日55同源建模法分析步骤:多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度>30%序列相似度<30%,结合功能,蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck程序Ramachandranplot计算检验手工调整多序列比对,重新拟和,构建新的模型第五十六页,共七十八页,2022年,8月28日第五十七页,共七十八页,2022年,8月28日常用数据库数据库网站备注PDB/pdb/home/home.do主要的蛋白质三维结构数据库MMDB/Structure/MMDB/mmdb.shtmlNCBI维护的蛋白质结构数据库Psdb/~deerfiel/PSdb/从PDB和NRL-3D数据库中衍生出的数据库,含二级结构和三维结构信息3DinSighthttp://gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html整合了结构、性质(氨基酸组成、热力学参数等)、生物学功能(突变点,相互作用等)的综合数据库,FSSPhttp://www.ebi.ac.uk/dali//fssp/根据结构比对的蛋白质结构分类数据库SCOPhttp://scop.mrc-lmb.cam.ac.uk/scop/蛋白质结构分类数据库,将已知结构蛋白进行有层次地分类CATH/latest/index.html另一个有名的蛋白质结构和结构域主要结构分类库MODBASE/modbase-cgi/index.cgi用同源比对法生成的模型结构数据库EnzymeStructurehttp://www.ebi.ac.uk/thornton-srv/databases/enzymes/从PDB数据库中整理已知结构的酶蛋白数据库HSSPhttp://www.sander.ebi.ac.uk/hssp/根据同源性到处的蛋白质结构数据库第五十八页,共七十八页,2022年,8月28日模板搜索与比对工具网站备注PSI-BLAST/BLAST/位置特异性叠代BLAST,可用来搜索远源家族序列FASTA3http://www.ebi.ac.uk/fasta33/位于EBI的序列比对工具SSEARCHrs.fr/bin/ssearch-guess.cgi采用Smith/Waterman法来进行序列比对ClustalWhttp://www.ebi.ac.uk/Tools/clustalw/index.html多序列比对工具,位于EBIT-Coffeehttp://www.ebi.ac.uk/t-coffee/用多种方法(如ClustalW、DIalign等)来构建多序列比对Multalinhttp://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html一个老牌的多序列比对工具Dalihttp://www.ebi.ac.uk/dali/三维结构比对网络服务器VAST/Structure/VAST/vast.shtml基于向量并列分析算法的三维结构比对工具SAM-T99/research/compbio/sam.html用HMM法搜索蛋白质远源同源序列第五十九页,共七十八页,2022年,8月28日同源建模法工具网站备注SWISS-MODEL/完整建模程序,采用同源性鉴定来确定模板蛋白,用户也可以自定义模板进行分析CPHmodelshttp://www.cbs.dtu.dk/services/CPHmodels/基于神经网络的同源建模工具,用户只需提交序列,无高级选项EsyPred3Dhttp://www.fundp.ac.be/urbm/bioinfo/esypred/采用神经网络来提高同源建模准确性的预测工具3Djigsawhttp://www.bmm.icnet.uk/servers/3djigsaw/根据同源已知结构蛋白来建模的预测工具MODELLER/modeller/一个广泛使用的同源建模软件,需要用户对脚本有一定的了解第六十页,共七十八页,2022年,8月28日串线法工具网站备注3D-PSSMhttp://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器Fuguehttp://www-cryst.bioc.cam.ac.uk/~fugue/以序列—结构比对搜索数据库来预测蛋白质折叠HHpredhttp://toolkit.tuebingen.mpg.de/hhpred基于HMM-HMM比对搜索多个数据库来预测给定序列的的折叠结构LOOPP/loopp.aspx学习、观察和输出蛋白质模式和结构工具THREADERhttp://bioinf.cs.ucl.ac.uk/threader/一个老牌的线索分析软件,对搜索远源蛋白序列较敏感PROSPECT/structure/prospect/index.html蛋白质结构预测和评价工具包,能以一种非常简单的方式运行,对于高级用户,也提供了很多的可选项123D+http://123/123D+.html结合了序列概形,二级结构信息和接触势能来将待测蛋白“穿入”一系列结构来预测结构SAM-T02/research/compbio/HMM-apps/T02-query.html基于HMM方法的蛋白质结构预测GenThreaderhttp://bioinf.cs.ucl.ac.uk/psipred/psiform.html使用结构评分和基于神经网络序列比对来也测蛋白折叠结构第六十一页,共七十八页,2022年,8月28日SWISS-MODEL/SWISS-PdbViewSWISS-MODEL工具同源建模方法与PDB数据库已知结构的蛋白质序列比对进行预测第六十二页,共七十八页,2022年,8月28日62一步模式比对模式优化模式第六十三页,共七十八页,2022年,8月28日主要参数/选项粘贴protein.txt中一条蛋白质序列输入用户Email(选填)第六十四页,共七十八页,2022年,8月28日64输出结果下载pdb格式文件第六十五页,共七十八页,2022年,8月28日65与模板序列比对结果,并显示二级结构区域比对结果第六十六页,共七十八页,2022年,8月28日66模型评估第六十七页,共七十八页,2022年,8月28日67练习五:SWISS-MODEL数据:C:\ZCNI\shixi4\SWISS-MODEL.txt参考:第六十八页,共七十八页,2022年,8月28日68工具网站备注Swiss-PdbViewer/spdbv/一个界面非常友好的工具,可以分析蛋白质的结构性质,比较活性位点或突变点Jmol/一个基于Java语言开发的三维观察工具,大多是作为一个内嵌式网页工具快速游览结构数据库数据MolMolhttp://www.mol.biol.ethz.ch/wuthrich/software/molmol/免费的PDB三维分子观察软件,可以通过处理生成很漂亮的图形文件PyMol/一个基于开源的三维观察工具,有很多额外的插件来提升功能Rasmol/software/rasmol/很有名的三维观察软件,操作界面简介,用命令行实现多种功能VMD/Research/vmd/用内建的脚本来浏览、分析三维结构,还可以以动画的形式模拟蛋白质结构Chime/products/framework/chime/index.jsp网络游览器插件,可以在网页中直接观察PDB格式的文件Chimera/chimera/index.html免费分子模拟显示程序,还包括结构比对、药物筛选等功能ICM-Browser/icm_browser.html三维分子游览工具,有序列比对显示功能,由MolSodt公司免费推出常用蛋白质三维结构观察和修改工具第六十九页,共七十八页,2022年,8月28日SWISS-PdbViewer观察三维模型SWISS-PdbViewer工具第七十页,共七十八页,2022年,8月28日具有以下功能:(1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论