蛋白质序列分析.PPT_第1页
蛋白质序列分析.PPT_第2页
蛋白质序列分析.PPT_第3页
蛋白质序列分析.PPT_第4页
蛋白质序列分析.PPT_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章 蛋白质序列分析西北农林科技大学农学院遗传组主讲人:胡银岗主讲人:胡银岗第一节第一节 蛋白质数据库蛋白质数据库1. 1.数据库的分类数据库的分类蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,依据这种结构层次,将蛋白质数据库分为:依据这种结构层次,将蛋白质数据库分为: 蛋白质序列数据库蛋白质序列数据库以蛋白质的序列为主,并赋予相应的注释;如以蛋白质的序列为主,并赋予相应的注释;如PIRPIRPSDPSD、SWISS-SWISS-PROT/TrEMBL, NCBIPROT/TrEMBL, NCBI等等 蛋白质模

2、体及结构域数据库蛋白质模体及结构域数据库收集了蛋白质的保守结构域和功能域的特征序列;如收集了蛋白质的保守结构域和功能域的特征序列;如PROSITEPROSITE,PfamPfam,PRINTSPRINTS,BLOCKSBLOCKS等等 蛋白质结构数据库蛋白质结构数据库以蛋白质的结构测量数据为主;如以蛋白质的结构测量数据为主;如PDBPDB等等 蛋白质分类数据库蛋白质分类数据库分为以序列比较为基础的序列分类数据库和以结构比较为基础的结分为以序列比较为基础的序列分类数据库和以结构比较为基础的结构分类数据库,如构分类数据库,如SCOPSCOP,CAHTCAHT,FSSPFSSP等等2. 蛋白质序列数

3、据库/http:/www.ebi.ac.uk/swissprot/3. 蛋白质模体及结构域数据库PROSITEPROSITE蛋白质家族和结构域数据库蛋白质家族和结构域数据库(/prosite/ )PROSITEPROSITE数据库收集了有显著生物学意义的蛋白质位点序列、数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,蛋白质特征序列谱库以及序列模型,能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,白质序列属于哪个

4、蛋白质家族,即使在蛋白质序列相似性很低的情况下,可以通过搜索隐即使在蛋白质序列相似性很低的情况下,可以通过搜索隐含的功能结构模体(含的功能结构模体(motifmotif)来鉴定)来鉴定因此,是一个有效的序列分析数据库。因此,是一个有效的序列分析数据库。PROSITEPROSITE中涉及的序列模式中涉及的序列模式酶的催化位点酶的催化位点配体结合位点配体结合位点金属离子结合位点金属离子结合位点二硫键、小分子或者蛋白质结合区域等二硫键、小分子或者蛋白质结合区域等PROSITEPROSITE还包括由多序列比对构建的序列特征谱还包括由多序列比对构建的序列特征谱(profileprofile),能更敏感地

5、发现序列中的信息。),能更敏感地发现序列中的信息。/prosite/7PfamPfam(蛋白质家族序列比对以及(蛋白质家族序列比对以及HMMHMM模式数据库)模式数据库)http:/pfam.sanger.ac.uk/http:/pfam.sanger.ac.uk/4. 蛋白质结构数据库PDB (/pdb/home/home.do)PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据5. 蛋白质分类数据库 SCOP蛋白质结构分类数据库(Structural Classificat

6、ion of Protein database)(http:/scop.mrc-lmb.cam.ac.uk/scop/index.html) CATH蛋白质结构数据库(CATH Protein Structure Classification)(/) FSSP 基于蛋白质结构结构比对的折叠分类(Fold classification based on Structure-Structure alignment of Proteins) (http:/ekhidna.biocenter.helsinki.fi/dali)10http:/scop.mrc-

7、lmb.cam.ac.uk/scop/index.html11/12http:/ekhidna.biocenter.helsinki.fi/dali6. 数据库的利用 蛋白质数据库都具备三种功能蛋白质数据库都具备三种功能 数据的注释(数据的注释(annotationannotation)所有提交到数据库的数据都要由作者或数据库管理人员进所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;行注释方能发布; 数据的检索(数据的检索(searchsearch)数据经注释之后,访问者可以通过数据库网页上提供的搜数据经注释之后,访问者可以通过数据库

8、网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;索引擎进行搜索,找到自己所需的蛋白质信息; 数据的生物信息分析(数据的生物信息分析(analysisanalysis)访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质如预测蛋白质的理化性质, ,预测蛋白质的二级结构,多重序预测蛋白质的二级结构,多重序列比对等等。列比对等等。 14PROSITE 内容PROSITE PROSITE 主要保存两类信息:主要保存两类信息:模

9、式(模式(pattern)和谱()和谱(profile,权重矩阵)。,权重矩阵)。模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列。例如酪氨酸激酶磷酸化位点模式例如酪氨酸激酶磷酸化位点模式RK-x(2)-DE-x(3)-Y 或或 RK-x(3)-DE-x(2)-Y其中扩号表示扩号中的各种氨基酸均可,其中扩号表示扩号中的各种氨基酸均可,X表示任意氨基酸,小扩号中的数表示任意氨基酸,小扩号中的数字表示氨基酸个数。字表示氨基酸个数。AC-x-V-x(4)-EDThis pattern is translated as: Al

10、a or Cys-any-Val-any-any-any-any-any but Glu or Asp15PROSITE- profile 示例Profile 为对保守区域每一位置氨基酸保守情况为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。进行打分构建的权重矩阵。第一行为该区域出现的氨基酸,每一行为蛋白序列第一行为该区域出现的氨基酸,每一行为蛋白序列中一个位置,在该位置对各种氨基酸的保守情况都给出中一个位置,在该位置对各种氨基酸的保守情况都给出一个分值,分值越高表示出现概率越大一个分值,分值越高表示出现概率越大16PROSITE 使用注意事项使用注意事项 Pattern主要可以用来

11、预测某些生物活性位主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋白进行分预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。类和提供功能提示。 蛋白的功能位点是与其三维结构紧密相关蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种的,局部区域符合某种patternpattern不能保证一不能保证一定会具有对应的性质,要根据实际情况,定会具有对应的性质,要根据实际情况,谨慎对待谨慎对待pattern pattern 预测结果。预测结果。17PROSITE 工具工具ScanProsite搜索蛋白序列是否含

12、搜索蛋白序列是否含PROSITE数据库中存有的模式或是功能位点;搜数据库中存有的模式或是功能位点;搜索索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库中符合某种模式的蛋白以及蛋白三维结构数据库PDB中中含有该模式的蛋白,可察看其三维结构。含有该模式的蛋白,可察看其三维结构。 MotifScan 使用使用PROSITE 以及以及pfam 中的中的profile 对蛋白进行搜索。对蛋白进行搜索。PRATT 用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序列,生成共有的列,生成共有的pattern。PROSITE

13、PROSITE还提供一些可以下载到本地运行的程序还提供一些可以下载到本地运行的程序如如ps_scanps_scan,但需要安装,但需要安装perl perl 运行环境。运行环境。Pftools Pftools 同样是可以本地运同样是可以本地运行的工具,可以搜索行的工具,可以搜索PROSITEPROSITE中的中的profileprofile,也可以构建用户自己的,也可以构建用户自己的file. 18 第二节第二节 蛋白质序列分析及结构预测策蛋白质序列分析及结构预测策略略蛋白质的结构预蛋白质的结构预测必须基于测必须基于一定一定的序列基础的序列基础和和实实验证据验证据,因此必

14、,因此必须须尽可能搜集一尽可能搜集一切有关这个蛋白切有关这个蛋白质可能的理化性质可能的理化性质和其它特性质和其它特性。1. 基本流程基本流程实验数据实验数据蛋白质序列蛋白质序列理化特性分析理化特性分析跨膜区、等电点、亲水性、疏水性、跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等酶切特性、电荷等数据库检索数据库检索多序列比对、结构域搜索多序列比对、结构域搜索二级结构预测二级结构预测如有如有PDB中同源体中同源体蛋白质折叠识别蛋白质折叠识别折叠家族分析折叠家族分析序列与结构比对序列与结构比对比较建模比较建模三级结构预测三级结构预测三维蛋白模型三维蛋白模型19蛋白质序列分析及结构预测的基本流程蛋白

15、质序列分析及结构预测的基本流程201.序列特征的初步分析序列特征的初步分析 理化特性的预测理化特性的预测 修饰位点的预测修饰位点的预测 是否为跨膜蛋白或片段是否为跨膜蛋白或片段 是否包含螺旋卷曲结构是否包含螺旋卷曲结构 是否还有低复杂度序列等等是否还有低复杂度序列等等212.同源搜索同源搜索新序列最常用的分析,就是与已知的序列等数据库进行比对,找到新序列最常用的分析,就是与已知的序列等数据库进行比对,找到同源的蛋白质序列或相似性较高的序列。同源的蛋白质序列或相似性较高的序列。常用的工具:常用的工具:BLASTp、FASTA、BLITZ、PSIBLAST等等等等注意的问题注意的问题选择矩阵:常见

16、的矩阵有选择矩阵:常见的矩阵有PAM和和BLOSUM。一般先用默认的。一般先用默认的BLOSUM62分析,如果相似性序列过多,选用更严谨的分析,如果相似性序列过多,选用更严谨的BLOSUM80,如果相似性序列很少,可选用如果相似性序列很少,可选用BLOSUM42,进一步分析。,进一步分析。PAM30和和PAM70适于分析近源短序列效果较好适于分析近源短序列效果较好空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小罚分。空位罚分大但延伸罚分少,适于空位少但长的序

17、列;空位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。223.模体搜索模体搜索 模体是通过对一个蛋白质家族进行多序列比对检测出的模体是通过对一个蛋白质家族进行多序列比对检测出的高度保守元件,常对应于一些结构域和功能域,模体搜高度保守元件,常对应于一些结构域和功能域,模体搜索是找到序列中一些关键的保守氨基酸。索是找到序列中一些关键的保守氨基酸。 常用工具:常用工具:SCANPROSITE、SMART、Pfam、COGS、PRINTS、BLOCKS、SBASE 注意问题注意问题如果不同源,搜索出的相似性很小如果不同源,

18、搜索出的相似性很小要将序列在三级结构数据库的序列进行比对要将序列在三级结构数据库的序列进行比对很可能是一些短序列,应与相似性搜索结果等配合使用很可能是一些短序列,应与相似性搜索结果等配合使用234.结构域定位结构域定位 通过数据库搜索得到的信息,进行结构域定位,通过数据库搜索得到的信息,进行结构域定位,对结构预测提供基础对结构预测提供基础 结构域定位分析结构域定位分析探测序列与其它全序列之间的同源性关系探测序列与其它全序列之间的同源性关系分析低复杂度区域(如重复序列等,时常间隔结构域)分析低复杂度区域(如重复序列等,时常间隔结构域)跨膜区域跨膜区域卷曲螺旋结构卷曲螺旋结构二级结构的不同折叠子二

19、级结构的不同折叠子对分解成的结构域重复进行数据库搜索和独立比对对分解成的结构域重复进行数据库搜索和独立比对245.多重序列比对多重序列比对 对搜索得到的数据进行多重序列比对对搜索得到的数据进行多重序列比对 多重序列比对可提供多重序列比对可提供结构域相应信息结构域相应信息功能位点的残基功能位点的残基蛋白质的亲水面和疏水核的氨基酸残基蛋白质的亲水面和疏水核的氨基酸残基为同源建模、二级结构预测提供模板为同源建模、二级结构预测提供模板 注意问题注意问题不要把所有搜索结果用在比对中不要把所有搜索结果用在比对中对搜索结果进行手工校正,将显著性不高的序列,非对搜索结果进行手工校正,将显著性不高的序列,非蛋白

20、质家族的序列剔除掉。蛋白质家族的序列剔除掉。256. 同源建模同源建模 如果蛋白质序列有显著的同源序列(相似如果蛋白质序列有显著的同源序列(相似性性50,尤其是与已知结构的蛋白质之间尤其是与已知结构的蛋白质之间有显著同源性时,即可进行同源建模有显著同源性时,即可进行同源建模以已知结构的蛋白质为模板进行精确的结构模以已知结构的蛋白质为模板进行精确的结构模型构建型构建如果相似性序列不是完整的,而是一段一段的如果相似性序列不是完整的,而是一段一段的结构域,也可通过二级结构预测和折叠识别,结构域,也可通过二级结构预测和折叠识别,找到合适的折叠子,在以这些已知结构的折叠找到合适的折叠子,在以这些已知结构

21、的折叠子为模板构建模型子为模板构建模型267.二级结构预测二级结构预测 如果没有搜索到具有已知结构的蛋白质同源序列,如果没有搜索到具有已知结构的蛋白质同源序列,也可采用相应的方法进行二级结构预测也可采用相应的方法进行二级结构预测 二级结构预测的方法二级结构预测的方法GOR法(法(Chou等人)和等人)和Lim法法依据单一序列分析精确度约依据单一序列分析精确度约56-60核心结构预测法核心结构预测法通过同源蛋白质家族的多重比对,发现二级结构存在二级结通过同源蛋白质家族的多重比对,发现二级结构存在二级结构核心,将序列与核心结构相结合,精确度月构核心,将序列与核心结构相结合,精确度月70 注意问题注

22、意问题适当的人为干预适当的人为干预着重于二级结构保守模式的预测着重于二级结构保守模式的预测尽可能采用多个预测方法,构建共同序列的结构图谱尽可能采用多个预测方法,构建共同序列的结构图谱278.折叠子分析和二级结构组分比对折叠子分析和二级结构组分比对 对推测出的折叠子,进一步确定其折叠模式,通过多次对推测出的折叠子,进一步确定其折叠模式,通过多次比对,确定蛋白质可能属于哪一类蛋白质比对,确定蛋白质可能属于哪一类蛋白质 分析的几个方面分析的几个方面存在极多相似序列时,看其是否具有相似功能存在极多相似序列时,看其是否具有相似功能弱相似时,只有结构相似,而无序列同源,预测可能的功能域,弱相似时,只有结构

23、相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。及与已知折叠子内部的核心二级结构的相似区域。如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域心结构元件以外的其它区域相似的区域 核心二级结构元件核心二级结构元件与与二级结构的核心区域二级结构的核心区域折叠子中起关键作用的二级结构折叠子中起关键作用的二级结构二级结构中起关键作用的氨基酸残基二级结构中起关键作用的氨基酸残基 利用多重序列比对同时结合多个预测方法,是确定二级利用多重序列比对同时结合多个预测方法,是确定二级结

24、构核心序列常用的方法结构核心序列常用的方法289.三级结构与序列间的比对三级结构与序列间的比对 折叠识别获得的结果并不一定准确,进行折叠识折叠识别获得的结果并不一定准确,进行折叠识别前,最好进行独立比对,确定可能组成折叠子别前,最好进行独立比对,确定可能组成折叠子的二级结构元件的二级结构元件 分析的方法分析的方法确认预测的残基中的包埋面和外露面的序列是否与已确认预测的残基中的包埋面和外露面的序列是否与已知蛋白质的模板结构相似知蛋白质的模板结构相似确认重要的氢键结合模式在预测确认重要的氢键结合模式在预测折叠结构没有被打折叠结构没有被打乱乱通过对已知结构的研究,在预测的结构中尽可能保留通过对已知结

25、构的研究,在预测的结构中尽可能保留与已知结构中残基性质相似(大小、极性、疏水性等)与已知结构中残基性质相似(大小、极性、疏水性等)的保守氨基酸的保守氨基酸29第三节第三节 蛋白质的结构预测蛋白质的结构预测 1. 蛋白质序列的来源蛋白质序列的来源直接测序获得的直接测序获得的翻译编码的翻译编码的DNA或或cDNA序列序列数据库中搜索到的数据库中搜索到的蛋白质序列的格式蛋白质序列的格式FASTA格式格式SWISS-PROT格式格式PDB格式格式302. 理化特性分析基于一级结构的预测理化特性分析基于一级结构的预测 理化特性分析理化特性分析相对分子量、氨基酸组成、等电点、酶切特性、疏水相对分子量、氨基

26、酸组成、等电点、酶切特性、疏水性等、亲水性,及消光系数等性等、亲水性,及消光系数等 常用工具常用工具软件软件Bioedit网络工具网络工具ProtParam(/tools/protparam.html)Compute PI(/tools/pi_tool.html)3132333. 蛋白质的鉴定蛋白质的鉴定 蛋白质的鉴定蛋白质的鉴定确定蛋白质的基本性质确定蛋白质的基本性质 常用工具常用工具网络工具网络工具多个(多个(/tools/)3435364.数据库搜索数据库搜索 数据库数据库序

27、列序列模体与结构域模体与结构域结构结构分类分类 使用的程序使用的程序BlastPSI-BlastFastaScanProsite等等37385. 二级结构预测 预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列”。 总的来说,二级结构预测仍是未能完全解决的问题,一般对于螺旋预测精度较好,对折叠差些,而对除螺旋和折叠等之外的无规则二级结构则效果很差。39Jpred(http:/pbio.dundee.ac.uk/www-jpred/index.html)HNN(http:/npsa-pbil.

28、ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html)SOPMAhttp:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。4041424344454647486. 几种重要结构分析几种重要结构分析6. 1 疏水性分析疏水性分析为二级结构预测提供

29、参考为二级结构预测提供参考为结构域及功能域的划分提供依据为结构域及功能域的划分提供依据常用工具常用工具Protscale(/tools/protscale.html)ProtScaleProtScale能计算超过能计算超过5050种蛋白质的特性。仅一项需要额外设种蛋白质的特性。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为显示的残基数,其缺省值为9 9。如果想考虑跨膜螺旋特性,该参。如果想考虑跨膜螺旋特性,该参数设置应为数设置应为2020,因为一个跨膜螺旋

30、通常有,因为一个跨膜螺旋通常有2020个氨基酸长度个氨基酸长度4950516.2 6.2 信号肽的识别信号肽的识别 信号肽的识别信号肽的识别地址标签信号肽将蛋白质导向细胞的正确位置,并地址标签信号肽将蛋白质导向细胞的正确位置,并使其越过细胞器膜使其越过细胞器膜是新合成的蛋白质的一部分,位于蛋白质的一端是新合成的蛋白质的一部分,位于蛋白质的一端信号肽分析有助于蛋白质功能域的划分及蛋白质的细信号肽分析有助于蛋白质功能域的划分及蛋白质的细胞定位胞定位 常用工具常用工具SignaIP(http:/www.cbs.dtu.dk/services/SignalP/)通过神经网络方法的组合通过神经网络方法的

31、组合预测信号肽的位置及相应切点预测信号肽的位置及相应切点5253546.3 6.3 跨膜结构分析跨膜结构分析n 跨膜结构分析跨膜结构分析跨膜结构在蛋白质结构中一般序列相似性不大,但结构极其相似。跨膜结构在蛋白质结构中一般序列相似性不大,但结构极其相似。跨膜结构可分为跨膜结构可分为6 6种类型种类型跨膜结构预测对认识蛋白质结构及功能具有重要意义跨膜结构预测对认识蛋白质结构及功能具有重要意义n 预测工具预测工具依赖于一系列已知跨膜螺旋特性的研究结果。最简单的方法是通过依赖于一系列已知跨膜螺旋特性的研究结果。最简单的方法是通过查找包含有查找包含有2020个疏水残基的区段,复杂的算法不仅可以预测跨膜螺

32、个疏水残基的区段,复杂的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向,预测准确率在旋的位置,还能确定其在膜上的方向,预测准确率在808095%95%左右。左右。Tmpred(TMpred - Prediction of Transmembrane Regions and Orientation)(/software/TMPRED_form.html )5556576.4 卷曲螺旋预测 卷曲螺旋卷曲螺旋控制蛋白质寡聚化的元件,存在于转录因子、控制蛋白质寡聚化的元件,存在于转录因子、蛋白融合多肽等蛋白融合多肽等一种很简单的三级结构,容易预测一

33、种很简单的三级结构,容易预测 常用工具常用工具COILS - Prediction of Coiled Coil Regions in Proteins(/software/COILS_form.html)58596.5 糖基化、磷酸化位点预测 糖基化和磷酸化位点糖基化位点磷酸化位点 常用工具CBS Prediction Servers (www.cbs.dtu.dk/services/)60616263647. 三级结构预测三级结构预测 三级结构预测三级结构预测蛋白质的高级结构决定蛋白质的功能。要了解功蛋白质的高级结构决定蛋白质的功能。要了解功能

34、,结构是基础,三级结构预测有助于研究蛋白能,结构是基础,三级结构预测有助于研究蛋白质的生物活性中心质的生物活性中心 三级结构预测的方法三级结构预测的方法同源建模同源建模先在蛋白质结构数据库中寻找未知结构蛋白的同源伙先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。出预测的结果。基本过程:目标序列与模板序列的匹配,确定蛋白质基本过程:目标序列与模板序列的匹配,确定蛋白质结构保守区及其结构,目标结构建模,目标结构变异结构保守区及其结构,目标结构建模,目标结构变异区建模,侧链安装与优化,模型优化与评

35、估区建模,侧链安装与优化,模型优化与评估656667686970717273c1tehaC1hldaD1teha1(GRoES)D1teha2(GRoES)7475第四节第四节 蛋白质功能预测蛋白质功能预测1. 根据序列预测功能的一般过程根据序列预测功能的一般过程尽管蛋白质的许多特性可直接从序列上分析获得,如尽管蛋白质的许多特性可直接从序列上分析获得,如疏水性,跨膜螺旋疏水性,跨膜螺旋(transmenbrane helix)(transmenbrane helix)或前导序列或前导序列(leader sequence)(leader sequence)等。总的来说,根据序列预测蛋白等。总的来

36、说,根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。与已知功能的蛋白质相似。比较未知蛋白序列与已知蛋白质序列的相似性;比较未知蛋白序列与已知蛋白质序列的相似性;查找未知蛋白中是否包含与特定蛋白质家族或功能查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。域有关的亚序列或保守区段。76根据序列预测蛋白质功能的技术路线根据序列预测蛋白质功能的技术路线772. 通过比对数据库相似序列确定功能通过比对数据库相似序列确定功能 具有相似序列的蛋白质具有相似的功能。最可靠的确定具有相似序列的蛋白质具有

37、相似的功能。最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。一个显著蛋白质功能的方法是进行数据库的相似性搜索。一个显著的匹配应至少超过的匹配应至少超过8080个氨基酸的区段有个氨基酸的区段有25%25%的相同序列。的相同序列。 一般策略是先进行一般策略是先进行BLASTBLAST检索,如不能提供相关结果,检索,如不能提供相关结果,再运行再运行FASTAFASTA;如;如FASTAFASTA也不能得到有关蛋白质功能的线索,也不能得到有关蛋白质功能的线索,可选用完全根据可选用完全根据Smith-WatermanSmith-Waterman算法设计的搜索程序,例算法设计的搜索程序,例如如BLI

38、TZ(BLITZ(www.ebi.ac.uk/searches/blitz.htmlwww.ebi.ac.uk/searches/blitz.html) )。BLITZBLITZ不做近似估计不做近似估计(BLAST(BLAST和和FASTAFASTA根据根据Smith-WatermanSmith-Waterman算法做近算法做近似估计似估计) ),所以很花时,但非常灵敏。通常,所以很花时,但非常灵敏。通常BLITZBLITZ程序能够发现超过程序能够发现超过几百个残基但序列相同比率低于几百个残基但序列相同比率低于202025%25%的匹配,这些匹配可能达到的匹配,这些匹配可能达到显著,但会被那些

39、应用近似估计的程序错过。显著,但会被那些应用近似估计的程序错过。78798081n选用计分矩阵选用计分矩阵(scoring matrix)(scoring matrix)十分关键十分关键选用的矩阵必须与匹配水平相一致,例如,选用的矩阵必须与匹配水平相一致,例如,PAM250PAM250应用应用于远距离匹配于远距离匹配(25%(35%35%,并且具有很高的结构和功,并且具有很高的结构和功能相似性。能相似性。848586878889902. SCOP蛋白质结构分类n折叠子(折叠子(foldfold)主要是结构相似主要是结构相似如果蛋白质在相同的条件和相同的拓扑关系下有相同的二级结构,如果蛋白质在相同的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论