蛋白质二级结构+预测软件_第1页
蛋白质二级结构+预测软件_第2页
蛋白质二级结构+预测软件_第3页
蛋白质二级结构+预测软件_第4页
蛋白质二级结构+预测软件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

蛋白质二级结构预测软件

蛋白质二级结构的预测通常被认为是蛋白结构预测的第一步,二级结构是指α螺旋和β折叠等规那么的蛋白质局部结构元件。不同的氨基酸残基对于形成不同的二级结构元件具有不同的倾向性。按蛋白质中二级结构的成分可以把球形蛋白分为全α蛋白、全β蛋白、α+β蛋白和α/β蛋白等四个折叠类型。.预测蛋白质二级结构的算法大多以三维结构和二级结构的蛋白质为依据,用过人工神经网络、遗传算法等技术构建预测方法。.目前较为常用的几种方法有:PHD、PSIPRED、Jpred、PREDATOR、PSA,其中最常用的是PHD。PHD结合了许多神经网络的成果,每个结果都是根据局部序列上下文关系和整体蛋白质性质〔蛋白质长度、氨基酸频率等〕来预测残基的二级结构。那么,最终的预测是这些神经网络每个输出的算术平均值。这种结合方案被称为陪审团决定法〔jurydecision〕或者称为所有胜利者〔winner-take-all〕法。PHD被认为是二级结构预测的标准。总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规那么二级结构那么效果很差。.PHD的使用请见人工神经网络方法中的“基于人工神经网络模型的预测软件PHDsec使用简介〞.nnPredict:://www/~nomi/nnpredict.htmlnnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型。在预测时,效劳器使用FASTA格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类〔α、β或α/β〕。残基被分为几类,如α螺旋〔H〕、β链〔E〕或其它〔-〕。假设对给定残基未给出预测,那么会标上问号〔?〕,这说明无法作出可信的分配。假设没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最正确实例的预测,nnpredict的准确率超过了65%。PredictProtein::///predictprotein/国内镜像::///predictprotein/.PredictProtein在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在SWISS-PROT库中搜索相似的序列。当相似的序列被找到后,一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对。MaxHom用迭代的方法来构造比对:当第一次搜索SWISS-PROT后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT中搜索新的相似序列。由MaxHom产生的多序列比对随后被置入一个神经网络,用PHD的方法进行预测。SOPMA:://pbil.ibcp.fr/.位于法国里昂的CNRS〔CentreNationaldelaRechercheScientifique〕使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果聚集整理成一个“一致预测结果〞。这5种方法包括:Garnier-Gibrat-Robson〔GOR〕方法、Levin同源预测方法、双重预测方法、PHD方法和CNRS自己的SOPMA方法。简单的说,SOPMA这种自优化的预测方法建立了二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。.其它特殊局部结构的预测软件其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(CoiledCoils)等,具有明显的序列特征和结构特征,也可以用计算方法加以预测。.卷曲螺旋COILS::///software/COILS_form.html卷曲螺旋预测方法,将序列与的平行双链卷曲螺旋数据库进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的概率。COILS算法将查询序列在一个由包含卷曲螺旋蛋白结构的数据库中进行搜索。程序也将查询序列与包含球状蛋白序列的PDB次级库进行比较,并根据两个库搜索得分的不同决定输入序列形成卷曲螺旋的概率。COILS可以下载到VAX/VMS系统上使用,也可通过简单的Web界面使用。.程序要求序列数据为GCG或FASTA格式,一次可以提交一条或多条序列。除了序列,用户还能在两种打分矩阵中选择一种:MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩阵;或MTIDK,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上残基〔通常为亲水性〕相同的权重。如果COILS在无权重和有权重情况下得到的结果相差很大,那么可能说明存在正错误。程序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺旋的,对于包埋的或右手性卷曲螺旋那么可能检测不到。假设一个序列被提交到效劳器,程序会整理出一张预测结果图,显示沿着序列各个局部形成卷曲螺旋的倾向性。.MacStripe:一个基于Macintoshi系统的应用程序,使用了Lupas的COILS的预测方法,能输出较简单的预测结果。MacStripe要求输入文件为FASTA、PIR或其它普遍文件格式,并象COILS一样产生一个图形文件,包含形成卷曲螺旋的概率,以及用柱状图显示七连体重复模式的连续性。.信号肽SignalP:://cbs.dtu.dk/services/SignalP/丹麦技术大学的生物序列分析中心开发了SignalP这个强大的信号肽及其剪切位点检测工具。该算法基于神经网络方法,用信号序列的革兰氏阴性原核生物、革兰氏阳性原核生物及真核生物的序列分别作为训练集。SignalP预测的是分泌型信号肽,而不是那些参与细胞内信号传递的蛋白。.跨膜区域TMpred::///software/TMPRED_form.html预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISS-PROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、位置以及侧翼信息,通过加权打分进行预测。Tmpred的Web界面十分简明。用户将单字符序列输入查询序列文本框,并可以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。输出结果包含四个局部:可能的跨膜螺旋区、相关性列表、建议的跨膜拓扑模型以及代表相同结果的图。.蛋白质预测分析网址

物理性质预测:

ComputePI/MW://expaxy.hcuge.ch/ch2d/pi-tool.html

Peptidemass://expaxy.hcuge.ch/sprot/peptide-mass.htmlTGREASE/pub/fasta/

SAPS://ulrec3.unil.ch/software/SAPS_form.html

基于组成的蛋白质识别预测

AACompIdent://expaxy.hcuge.ch/ch2d/aacompi.htmlAACompSim://expaxy.hcuge.ch/ch2d/aacsim.htmlPROPSEARCH://embl-heidelberg.de/prs.html

.基于组成的蛋白质识别预测

AACompIdent://expaxy.hcuge.ch/ch2d/aacompi.htmlAACompSim://expaxy.hcuge.ch/ch2d/aacsim.htmlPROPSEARCH://embl-heidelberg.de/prs.html

.二级结构和折叠类预测

nnpredict://www/~nomi/nnpredict

Predictprotein://embl-heidelberg.de/predictprotein/SOPMA://ibcp.fr/predict.html

SSPRED://embl-heidelberg.de/sspred/ssprd_info.html

.特殊结构或结构预测

COILS://ulrec3.unil.ch/software/COILS_form.html

MacStripe:///matsudaira/macstripe.html

.与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的开展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。

由NCBI检索蛋白质序列

可联网到:“://:80/entrz/query.fcgi?db=protein〞进行检索。

利用SRS系统从EMBL检索蛋白质序列

联网到:://srs.ebi.ac.uk/〞,可利用EMBL的SRS系统进行蛋白质序列的检索。.通过EMAIL进行序列检索

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。

蛋白质根本性质分析

蛋白质序列的根本性质分析是蛋白质序列分析的根本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标〔其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。

.疏水性分析

位于ExPASy的ProtScale程序〔:///cgi-bin/protscale.pl〕可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小〔n〕该参数用于估计每种氨基酸残基的平均显示尺度。进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。.跨膜区分析

有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对跨膜螺旋的研究而得到的。自然存在的跨膜螺旋Tmbase数据库,可通过匿名FTP获得(://isrec.isb-sib.ch/ftp-server/tmbase),参见表一

资源名称网址说明

TMPRED:///software/TMPRED_form.html基于对tmpred数据库的统计分析PHDhtm://embl-heidelberg.de/se...tprotein.htmlMEMSATftp://ftp.biochem.ucl.ac.uk.微机版本

蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。://genome.cbs.dtu.dk/sevices/TMHMM-2.0“或“:///software/TMPRED_form.html〞

.前导肽与蛋白质定位

在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。

://genome.cbs.dtu.dk/sevices/signalP-2.0

.卷曲螺旋分析

另一个能够直接从序列中预测的功能motif是α-螺旋的卷曲排列方式。在这种结构中,两种螺旋通过其疏水性界面相互缠在一起形成一个十分稳定的结构。

蛋白质卷曲的相关资源

资源网址

coiled-coil://york.ac.uk/depts/biol/units/coils/coilcoil.htmlCOILS:///software/COILS_form.htmlEpitopeInfo://epitope-informatics/Links.htm

.蛋白质功能预测

基于序列同源性分析的蛋白质功能预测

到少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。最快的工具如BlastP能很容易地发现显著性片段,而无需使用十分耗时的BLITZ软件。

基于NCBI/BLAST软件的蛋白序列同源性分析

类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(/blast),选择程序BLASTP就可网上分析。基于WU/BLAST2软件进行分析

华盛顿大学的BLAST软件〔dove.embl-heidelberg.dl/blast2〕也可进行蛋白质序列的同源性分析。

.基于motif、结构位点、结构功能域数据库的蛋白质功能预测

蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个局部。

同时,分子进化方面的研究说明,蛋白质的不同区域具有不同的进化速率,一些氨基酸必须在进化过程中足够保守以实现蛋白质的功能。在序列模式的鉴定方面有两类技术,第一类是依赖于和一致性序列〔consensussequence〕或基序各残基的匹配模式,该技术可用于十分容易并快速搜索motif数据库。

Motif数据库-PROSITE

最好的是PROSITE/prosite〕

.InterProScan综合分析网站

InterProScan是EBI开发的一个集成了蛋白质结构域和功能位点的数据库,其中把SWISS-PROT,TrEMBL.PROTSITE.PRINTS.PFAM.ProDom等数据库提供的蛋白质序列中的各种局域模式,如结构域,motif等信息统一起来,提供了一个较为全央的分析工具。

ebi.ac.uk/interpro/scan.html

.蛋白质的结构功能域分析

简单模块构架搜索工具〔simplemodulararchitectureresearchtool,SMART〕一个较好的蛋白质结构功能域的数据,可用于蛋白质结构功能域的分析,所得到的结构域同时提供相关的资源的链接://smart.embl-heidelberg.de/

.蛋白质结构预测

PDB数据库

蛋白质根本立体结构数据库(PDB,)其中有大量工具用于查看PDB数据库中的结构,如rasmol,可用于显于出蛋白质的空间结构,下载地址:/microbio/rasmol〕

.PDBFinder数据库

是在PDB、DSSP、HSSP根底上建立的二级库,它包含PDB序列,作者,R因子,分辨率、二级结构等,这些些信息随着PDB库每次发布新版,PDBFinder在EBI自动生成,网址为“sander.embl-heideberg.de/pdbfinder/ftp://swift.embl-heidelberg.de/pdbfinder.

.NRL-3D数据库

是所有结构蛋白质的数据库,可用于查询蛋白序列时行相似性分析以确定其结构/Dan/protein/nrl3d.html

ISSD数据库

蛋白质序列数据库,其每个条目包含一个基因的编码序列,同相应的氨基酸序列比照,并给出相应的多肽链结构数据。protein.bio.msu.su/issd

.HSSP数据库

是根据同源性导出的蛋白质二级结构数据库,每一条PDB工程都有一个对应的HSSP文件,sander.embl-heidelberg.de/hssp

蛋白质结构分类数据库

对蛋白质三维结构进行手工分类得到的数据库,位于剑桥的站点也提供BLAST检索效劳://scop.mrc-lmb.cam.ac.uk/scop/

MMDB蛋白质分子模型数据库

是ENTREZ检索工具所使用的三维结构数据库,以ASN格式反蚋的PDB中的结构和序列数据。NCBI同时提供一个配套的三维结构显示程序的Cn3D,/Structure/

Dali/FSSP数据库

基于PDB数据库中现有的蛋白质三维结构,用自动结构比照程序Dali比较而形成的折叠单元和家庭分类库。embl-ebi.ac.uk/dali

.蛋白质二级结构预测

基于序列进行蛋白质二级结构方面已有了大量文献描述,本质上,这些研究可被分为两大类:基于单一序列的分析和基于多重序列对齐的分析。

文献报道PHD程序是目前此方面的最好程序,提供了从二级结构到折叠方面分析的多种资源。其网址为embl-heidel-berg.de/predictprotein/predictprotein.html,也可通过email:predictprotein@embl-heidelberg.de进行数据分析。.蛋白质三级结构预测

蛋白质同源家庭的分析对于确立物种之间的亲缘关系和预测新蛋白质序列的功能有重要意义,同源蛋白质〔homolog〕进一步划分为直系同源〔ortholog〕和旁系同源〔paralog〕,前者指不同物种中具有相同功能和共同起源的基因,后者那么指在同一物种内具有不同功能,但也有共同起源的基因,例如同是起源于珠蛋白的α珠蛋白、β珠蛋白和肌红蛋白。

蛋白质分类数据库〔ProtoMap〕

是对SWISS-PROT数据库中的全部蛋白质由计算机自动时行层次分类,把相关者聚集分极所得到的数据库。proteinmap.cs.huji.ac.il

.蛋白质序列多重对齐分析及进化分析

如果发现一个未知蛋白质序列和较多不同和种属或同一种属的蛋白质序列具有较高的同源性〔大于30%〕那么提示待分析的蛋白质序列可能是相应家族的成员,从而可从分子时化的角度对蛋白质序列进行综合分析。

常用在线蛋白工具

BCMSearchLauncher

:///seq-search/

.蛋白序列二级结构预测综合站点,从此出发,输入蛋白序列,可以根据需要,使用各种在线预测工具,包括Coils、nnPredict、PSSP/SSP、PSSP/NNSSP、SAPS、TMpred、SOUSI、Paircoil、ProteinHydrophilicity/HydrophobicitySearch、SOPM,使用十分方便。.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论