




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章 蛋白质序列分析西北农林科技大学农学院遗传组主讲人:胡银岗主讲人:胡银岗第一节第一节 蛋白质数据库蛋白质数据库1. 1.数据库的分类数据库的分类蛋白质的功能主要是由它的构造所决议的,蛋白蛋白质的功能主要是由它的构造所决议的,蛋白质的构造主要分为四级,根据这种构造层次,质的构造主要分为四级,根据这种构造层次,将蛋白质数据库分为:将蛋白质数据库分为:蛋白质序列数据库蛋白质序列数据库以蛋白质的序列为主,并赋予相应的注释;如以蛋白质的序列为主,并赋予相应的注释;如PIRPIRPSDPSD、SWISS-PROT/TrEMBL, NCBISWISS-PROT/TrEMBL, NCBI等等蛋白质模体及
2、构造域数据库蛋白质模体及构造域数据库搜集了蛋白质的保守构造域和功能域的特征序列;搜集了蛋白质的保守构造域和功能域的特征序列;如如PROSITEPROSITE,PfamPfam,PRINTSPRINTS,BLOCKSBLOCKS等等蛋白质构造数据库蛋白质构造数据库以蛋白质的构造丈量数据为主;如以蛋白质的构造丈量数据为主;如PDBPDB等等蛋白质分类数据库蛋白质分类数据库分为以序列比较为根底的序列分类数据库和以构分为以序列比较为根底的序列分类数据库和以构造比较为根底的构造分类数据库,如造比较为根底的构造分类数据库,如SCOPSCOP,CAHTCAHT,FSSPFSSP等等2. 蛋白质序列数据库pi
3、/ebi.ac.uk/swissprot/3. 蛋白质模体及构造域数据库PROSITEPROSITE蛋白质家族和构造域数据库蛋白质家族和构造域数据库/prosite/ /prosite/ PROSITEPROSITE数据库搜集了有显著生物学意义的蛋白质位点数据库搜集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,序列、蛋白质特征序列谱库以及序列模型,能根据这些特征、属性快速可靠地鉴定出一个未知功能能根据这些特征、属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,蛋白质序列属于哪个蛋白质家族,
4、即使在蛋白质序列类似性很低的情况下,可以经过搜索即使在蛋白质序列类似性很低的情况下,可以经过搜索隐含的功能构造模体隐含的功能构造模体motifmotif来鉴定来鉴定因此,是一个有效的序列分析数据库。因此,是一个有效的序列分析数据库。PROSITEPROSITE中涉及的序列方式中涉及的序列方式酶的催化位点酶的催化位点配体结合位点配体结合位点金属离子结合位点金属离子结合位点二硫键、小分子或者蛋白质结合区域等二硫键、小分子或者蛋白质结合区域等PROSITEPROSITE还包括由多序列比对构建的序列特征谱还包括由多序列比对构建的序列特征谱profileprofile,能更敏感地发现序列中的信息。,能更
5、敏感地发现序列中的信息。/prosite/PfamPfam蛋白质家族序列比对以及蛋白质家族序列比对以及HMMHMM方式数据库方式数据库pfam.sanger.ac.uk/pfam.sanger.ac.uk/4. 蛋白质构造数据库PDB /pdb/home/home.doPDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子构造数据,主要是蛋白质构造数据5. 蛋白质分类数据库 SCOP蛋白质构造分类数据库 Structural Classification of Protein database (scop.mrc-lmb.cam.ac.uk/scop
6、/index.html CATH蛋白质构造数据库 CATH Protein Structure Classification cathdb/ FSSP 基于蛋白质构造构造比对的折叠分类Fold classification based on Structure-Structure alignment of Proteins ekhidna.biocenter.helsinki.fi/daliscop.mrc-lmb.cam.ac.uk/scop/index.htmlcathdb/ekhidna.biocenter.helsinki.fi/dali6. 数据库的利用 蛋白质数据库都具备三种功能蛋
7、白质数据库都具备三种功能 数据的注释数据的注释annotationannotation 一切提交到数据库的数据都要由作者或一切提交到数据库的数据都要由作者或数据库管理人员进展注释方能发布;数据库管理人员进展注释方能发布; 数据的检索数据的检索searchsearch 数据经注释之后,访问者可以经过数据数据经注释之后,访问者可以经过数据库网页上提供的搜索引擎进展搜索,找库网页上提供的搜索引擎进展搜索,找到本人所需的蛋白质信息;到本人所需的蛋白质信息; 数据的生物信息分析数据的生物信息分析analysisanalysis 访问者一旦找到感兴趣的蛋白质,就可访问者一旦找到感兴趣的蛋白质,就可以运用数
8、据库提供的生物信息分析工具以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进展预测,如对蛋白质序列的未知数据进展预测,如预测蛋白质的理化性质预测蛋白质的理化性质, ,预测蛋白质的二预测蛋白质的二级构造,多重序列比对等等。级构造,多重序列比对等等。 PROSITE 内容PROSITE PROSITE 主要保管两类信息:主要保管两类信息:方式方式patternpattern和谱和谱profileprofile,权重矩阵。,权重矩阵。方式可以了解为保守的氨基酸陈列方式,通常以氨基酸单字母方式方式可以了解为保守的氨基酸陈列方式,通常以氨基酸单字母方式陈列。陈列。例如酪氨酸激酶磷酸化位点方式例如
9、酪氨酸激酶磷酸化位点方式RK-x(2)-DE-x(3)-Y RK-x(2)-DE-x(3)-Y 或或 RK-x(3)-DE-x(2)-YRK-x(3)-DE-x(2)-Y其中扩号表示扩号中的各种氨基酸均可,其中扩号表示扩号中的各种氨基酸均可,X X表示恣意氨基酸,小扩号表示恣意氨基酸,小扩号中的数字表示氨基酸个数。中的数字表示氨基酸个数。AC-x-V-x(4)-EDThis pattern is translated as: AC-x-V-x(4)-EDThis pattern is translated as: Ala or Cys-any-Val-any-any-any-any-any b
10、ut Glu or AspAla or Cys-any-Val-any-any-any-any-any but Glu or AspPROSITE- profile 例如Profile 为对保守区域每一位置氨基酸保守情况为对保守区域每一位置氨基酸保守情况进展打分构建的权重矩阵。进展打分构建的权重矩阵。第一行为该区域出现的氨基酸,每一行为蛋白第一行为该区域出现的氨基酸,每一行为蛋白序列中一个位置,在该位置对各种氨基酸的保守序列中一个位置,在该位置对各种氨基酸的保守情况都给出一个分值,分值越高表示出现概率越情况都给出一个分值,分值越高表示出现概率越大大PROSITE 运用本卷须知运用本卷须知 Pa
11、ttern主要可以用来预测某些生物活性位主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋白进展分预测可靠性高,可以用来对新蛋白进展分类和提供功能提示。类和提供功能提示。 蛋白的功能位点是与其三维构造严密相关蛋白的功能位点是与其三维构造严密相关的,部分区域符合某种的,部分区域符合某种pattern不能保证一不能保证一定会具有对应的性质,要根据实践情况,定会具有对应的性质,要根据实践情况,谨慎对待谨慎对待pattern 预测结果。预测结果。PROSITE 工具工具ScanProsite搜索蛋白序列能否含搜索蛋白序列
12、能否含PROSITE数据库中存有的方式或是功能位点;数据库中存有的方式或是功能位点;搜索搜索Swiss-Prot中符合某种方式的蛋白以及蛋白三维构造数据库中符合某种方式的蛋白以及蛋白三维构造数据库PDB中含有该方式的蛋白,可察看其三维构造。中含有该方式的蛋白,可察看其三维构造。 MotifScan 运用运用PROSITE 以及以及pfam 中的中的profile 对蛋白进展搜索。对蛋白进展搜索。PRATT 用于找出一系列序列中保守方式的程序,用户可以提交本人的一组用于找出一系列序列中保守方式的程序,用户可以提交本人的一组序列,生成共有的序列,生成共有的pattern。PROSITE还提供一些可
13、以下载到本地运转的程序还提供一些可以下载到本地运转的程序如如ps_scan,但需求安装,但需求安装perl 运转环境。运转环境。Pftools 同样是可以本地同样是可以本地运转的工具,可以搜索运转的工具,可以搜索PROSITE中的中的profile,也可以构建用户本,也可以构建用户本人的人的profile. 第二节第二节 蛋白质序列分析及构造预测战蛋白质序列分析及构造预测战略略蛋白质的构造预蛋白质的构造预测必需基于一定测必需基于一定的序列根底和实的序列根底和实验证据,因此必验证据,因此必需尽能够搜集一需尽能够搜集一切有关这个蛋白切有关这个蛋白质能够的理化性质能够的理化性质和其它特性。质和其它特
14、性。1. 根本流程根本流程实验数据实验数据蛋白质序列蛋白质序列理化特性分析理化特性分析跨膜区、等电点、亲水性、疏水性、酶切跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等特性、电荷等数据库检索数据库检索多序列比对、构造域搜索多序列比对、构造域搜索二级构造预测二级构造预测如有如有PDB中同源体中同源体蛋白质折叠识别蛋白质折叠识别折叠家族分析折叠家族分析序列与构造比对序列与构造比对比较建模比较建模三级构造预测三级构造预测三维蛋白模型三维蛋白模型蛋白质序列分析及构造预测的根本流程蛋白质序列分析及构造预测的根本流程1.序列特征的初步分析序列特征的初步分析 理化特性的预测理化特性的预测 修饰位点的预测修
15、饰位点的预测 能否为跨膜蛋白或片段能否为跨膜蛋白或片段 能否包含螺旋卷曲构造能否包含螺旋卷曲构造 能否还有低复杂度序列等等能否还有低复杂度序列等等2.同源搜索同源搜索新序列最常用的分析,就是与知的序列等数据库进展比对,找到同新序列最常用的分析,就是与知的序列等数据库进展比对,找到同源的蛋白质序列或类似性较高的序列。源的蛋白质序列或类似性较高的序列。常用的工具:常用的工具:BLASTp、FASTA、BLITZ、PSIBLAST等等等等留意的问题留意的问题选择矩阵:常见的矩阵有选择矩阵:常见的矩阵有PAM和和BLOSUM。普通先用默许的。普通先用默许的BLOSUM62分析,假设类似性序列过多,选用
16、更严谨的分析,假设类似性序列过多,选用更严谨的BLOSUM80,假设类似性序列很少,可选用假设类似性序列很少,可选用BLOSUM42,进一步分析。,进一步分析。PAM30和和PAM70适于分析近源短序列效果较好适于分析近源短序列效果较好空位罚分:普通有两个参数,对空位存在的扣除和对于延续空位的空位罚分:普通有两个参数,对空位存在的扣除和对于延续空位的延伸罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空延伸罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。同源序
17、列。3.模体搜索模体搜索 模体是经过对一个蛋白质家族进展多序列比对检测出的模体是经过对一个蛋白质家族进展多序列比对检测出的高度保守元件,常对应于一些构造域和功能域,模体搜高度保守元件,常对应于一些构造域和功能域,模体搜索是找到序列中一些关键的保守氨基酸。索是找到序列中一些关键的保守氨基酸。 常用工具:常用工具:SCANPROSITE、SMART、Pfam、COGS、PRINTS、BLOCKS、SBASE 留意问题留意问题 假设不同源,搜索出的类似性很小假设不同源,搜索出的类似性很小 要将序列在三级构造数据库的序列进展比对要将序列在三级构造数据库的序列进展比对 很能够是一些短序列,应与类似性搜索
18、结果等配合运用很能够是一些短序列,应与类似性搜索结果等配合运用4.构造域定位构造域定位 经过数据库搜索得到的信息,进展构造域定位,经过数据库搜索得到的信息,进展构造域定位,对构造预测提供根底对构造预测提供根底 构造域定位分析构造域定位分析 探测序列与其它全序列之间的同源性关系探测序列与其它全序列之间的同源性关系 分析低复杂度区域如反复序列等,时常间隔构分析低复杂度区域如反复序列等,时常间隔构造域造域 跨膜区域跨膜区域 卷曲螺旋构造卷曲螺旋构造 二级构造的不同折叠子二级构造的不同折叠子 对分解成的构造域反复进展数据库搜索和独立比对分解成的构造域反复进展数据库搜索和独立比对对5.多重序列比对多重序
19、列比对 对搜索得到的数据进展多重序列比对对搜索得到的数据进展多重序列比对 多重序列比对可提供多重序列比对可提供 构造域相应信息构造域相应信息 功能位点的残基功能位点的残基 蛋白质的亲水面和疏水核的氨基酸残基蛋白质的亲水面和疏水核的氨基酸残基 为同源建模、二级构造预测提供模板为同源建模、二级构造预测提供模板 留意问题留意问题 不要把一切搜索结果用在比对中不要把一切搜索结果用在比对中 对搜索结果进展手工校正,将显著性不高的序列,对搜索结果进展手工校正,将显著性不高的序列,非蛋白质家族的序列剔除掉。非蛋白质家族的序列剔除掉。6. 同源建模同源建模 假设蛋白质序列有显著的同源序列类似假设蛋白质序列有显
20、著的同源序列类似性性50,尤其是与知构造的蛋白质之间有尤其是与知构造的蛋白质之间有显著同源性时,即可进展同源建模显著同源性时,即可进展同源建模 以知构造的蛋白质为模板进展准确的构造以知构造的蛋白质为模板进展准确的构造模型构建模型构建 假设类似性序列不是完好的,而是一段一假设类似性序列不是完好的,而是一段一段的构造域,也可经过二级构造预测和折段的构造域,也可经过二级构造预测和折叠识别,找到适宜的折叠子,在以这些知叠识别,找到适宜的折叠子,在以这些知构造的折叠子为模板构建模型构造的折叠子为模板构建模型7.二级构造预测二级构造预测 假设没有搜索到具有知构造的蛋白质同源序列,假设没有搜索到具有知构造的
21、蛋白质同源序列,也可采用相应的方法进展二级构造预测也可采用相应的方法进展二级构造预测 二级构造预测的方法二级构造预测的方法 GOR法法Chou等人和等人和Lim法法 根据单一序列分析准确度约根据单一序列分析准确度约56-60 中心构造预测法中心构造预测法 经过同源蛋白质家族的多重比对,发现二级构造经过同源蛋白质家族的多重比对,发现二级构造存在二级构造中心,将序列与中心构造相结合,存在二级构造中心,将序列与中心构造相结合,准确度月准确度月70 留意问题留意问题 适当的人为干涉适当的人为干涉 着重于二级构造保守方式的预测着重于二级构造保守方式的预测 尽能够采用多个预测方法,构建共同序列的构造尽能够
22、采用多个预测方法,构建共同序列的构造图谱图谱8.折叠子分析和二级构造组分比对折叠子分析和二级构造组分比对 对推测出的折叠子,进一步确定其折叠方式,经过多次对推测出的折叠子,进一步确定其折叠方式,经过多次比对,确定蛋白质能够属于哪一类蛋白质比对,确定蛋白质能够属于哪一类蛋白质 分析的几个方面分析的几个方面 存在极多类似序列时,看其能否具有类似功能存在极多类似序列时,看其能否具有类似功能 弱类似时,只需构造类似,而无序列同源,预测能够的弱类似时,只需构造类似,而无序列同源,预测能够的功能域,及与知折叠子内部的中心二级构造的类似区域。功能域,及与知折叠子内部的中心二级构造的类似区域。 假设不存在以上
23、情况,只能思索其中能否含有与知折叠假设不存在以上情况,只能思索其中能否含有与知折叠子中中心构造元件以外的其它区域类似的区域子中中心构造元件以外的其它区域类似的区域 中心二级构造元件与二级构造的中心区域中心二级构造元件与二级构造的中心区域 折叠子中起关键作用的二级构造折叠子中起关键作用的二级构造 二级构造中起关键作用的氨基酸残基二级构造中起关键作用的氨基酸残基 利用多重序列比对同时结合多个预测方法,是确定二级利用多重序列比对同时结合多个预测方法,是确定二级构造中心序列常用的方法构造中心序列常用的方法9.三级构造与序列间的比对三级构造与序列间的比对 折叠识别获得的结果并不一定准确,进展折叠识折叠识
24、别获得的结果并不一定准确,进展折叠识别前,最好进展独立比对,确定能够组成折叠子别前,最好进展独立比对,确定能够组成折叠子的二级构造元件的二级构造元件 分析的方法分析的方法 确认预测的残基中的包埋面和外露面的序列能否确认预测的残基中的包埋面和外露面的序列能否与知蛋白质的模板构造类似与知蛋白质的模板构造类似 确认重要的氢键结合方式在预测确认重要的氢键结合方式在预测折叠构造没折叠构造没有被打乱有被打乱 经过对知构造的研讨,在预测的构造中尽能够保经过对知构造的研讨,在预测的构造中尽能够保管与知构造中残基性质类似大小、极性、疏水管与知构造中残基性质类似大小、极性、疏水性等的保守氨基酸性等的保守氨基酸第三
25、节第三节 蛋白质的构造预测蛋白质的构造预测 1. 蛋白质序列的来源蛋白质序列的来源 直接测序获得的直接测序获得的 翻译编码的翻译编码的DNA或或cDNA序列序列 数据库中搜索到的数据库中搜索到的 蛋白质序列的格式蛋白质序列的格式 FASTA格式格式 SWISS-PROT格式格式 PDB格式格式2. 理化特性分析基于一级构造的预测理化特性分析基于一级构造的预测 理化特性分析理化特性分析 相对分子量、氨基酸组成、等电点、酶切特性、相对分子量、氨基酸组成、等电点、酶切特性、疏水性等、亲水性,及消光系数等疏水性等、亲水性,及消光系数等 常用工具常用工具 软件软件 Bioedit 网络工具网络工具 Pr
26、otP/tools/protparam.html Compute PI/tools/pi_tool.html3. 蛋白质的鉴定蛋白质的鉴定 蛋白质的鉴定蛋白质的鉴定 确定蛋白质的根本性质确定蛋白质的根本性质 常用工具常用工具 网络工具网络工具 多个多个/tools/4.数据库搜索数据库搜索 数据库数据库 序列序列 模体与构造域模体与构造域 构造构造 分类分类 运用的程序运用的程序 Blast PSI-Blast Fasta ScanProsite等等5. 二级构造预测 预测蛋白质二级构造的算法大多以知三维构造
27、和二级构造的蛋白质为根据,用人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列。 总的来说,二级构造预测仍是未能完全处理的问题,普通对于螺旋预测精度较好,对折叠差些,而对除螺旋和折叠等之外的无规那么二级构造那么效果很差。Jpredcompbio.dundee.ac.uk/www-jpred/index.htmlHNNnpsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.htmlSOPMAnpsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_so
28、pma.html带比对的自优化预测方法,将几种独立二级构造预测方法聚集成带比对的自优化预测方法,将几种独立二级构造预测方法聚集成“一致预测结果,采用的二级构造预测方法包括一致预测结果,采用的二级构造预测方法包括GOR方法、方法、Levin同源预测方法、双重预测方法、同源预测方法、双重预测方法、PHD方法和方法和SOPMA方法。方法。多种方法的综合运用平均效果比单个方法更好。多种方法的综合运用平均效果比单个方法更好。6. 几种重要构造分析几种重要构造分析6. 1 疏水性分析疏水性分析为二级构造预测提供参考为二级构造预测提供参考为构造域及功能域的划分提供根据为构造域及功能域的划分提供根据常用工具常
29、用工具P/tools/protscale.htmlProtScale能计算超越能计算超越50种蛋白质的特性。仅种蛋白质的特性。仅一项需求额外设定的参数是输入框的宽度,该参一项需求额外设定的参数是输入框的宽度,该参数将指示系统每次运转计算和显示的残基数,其数将指示系统每次运转计算和显示的残基数,其缺省值为缺省值为9。假设想思索跨膜螺旋特性,该参数。假设想思索跨膜螺旋特性,该参数设置应为设置应为20,由于一个跨膜螺旋通常有,由于一个跨膜螺旋通常有20个氨个氨基酸长度基酸长度6.2 6.2 信号肽的识别信号肽的识别 信号肽的识别信号肽的识别 地址标签信号肽将
30、蛋白质导向细胞的正确位置,地址标签信号肽将蛋白质导向细胞的正确位置,并使其越过细胞器膜并使其越过细胞器膜 是新合成的蛋白质的一部分,位于蛋白质的一端是新合成的蛋白质的一部分,位于蛋白质的一端 信号肽分析有助于蛋白质功能域的划分及蛋白质信号肽分析有助于蛋白质功能域的划分及蛋白质的细胞定位的细胞定位 常用工具常用工具 SignaIPcbs.dtu.dk/services/SignalP/ 经过神经网络方法的组合经过神经网络方法的组合 预测信号肽的位置及相应切点预测信号肽的位置及相应切点6.3 6.3 跨膜构造分析跨膜构造分析n 跨膜构造分析跨膜构造分析n 跨膜构造在蛋白质构造中普通序列类似性不大,
31、但跨膜构造在蛋白质构造中普通序列类似性不大,但构造极其类似。构造极其类似。n 跨膜构造可分为跨膜构造可分为6 6种类型种类型n 跨膜构造预测对认识蛋白质构造及功能具有重要意跨膜构造预测对认识蛋白质构造及功能具有重要意义义n 预测工具预测工具n 依赖于一系列知跨膜螺旋特性的研讨结果。最简单依赖于一系列知跨膜螺旋特性的研讨结果。最简单的方法是经过查找包含有的方法是经过查找包含有2020个疏水残基的区段,复个疏水残基的区段,复杂的算法不仅可以预测跨膜螺旋的位置,还能确定杂的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向,预测准确率在其在膜上的方向,预测准确率在808095%95%左右。左右。
32、n TmpredTmpredTMpred - Prediction of Transmembrane TMpred - Prediction of Transmembrane Regions and OrientationRegions and O/software/TMPRED_form.html /software/TMPRED_form.html 6.4 卷曲螺旋预测 卷曲螺旋卷曲螺旋 控制蛋白质寡聚化的元件,存在于转录因控制蛋白质寡聚化的元件,存在于转录因子、蛋白交融多肽等子、蛋白交融多肽等 一种很简单的三级构造,
33、容易预测一种很简单的三级构造,容易预测 常用工具常用工具 COILS - Prediction of Coiled Coil Regions in P/software/COILS_form.html6.5 糖基化、磷酸化位点预测 糖基化和磷酸化位点 糖基化位点 磷酸化位点 常用工具 CBS Prediction Servers cbs.dtu.dk/services/7. 三级构造预测三级构造预测 三级构造预测三级构造预测 蛋白质的高级构造决议蛋白质的功能。要了蛋白质的高级构造决议蛋白质的功能。要了解功能,构造是根底,三级构造预测有助于解功能,构造是根
34、底,三级构造预测有助于研讨蛋白质的生物活性中心研讨蛋白质的生物活性中心 三级构造预测的方法三级构造预测的方法 同源建模同源建模 先在蛋白质构造数据库中寻觅未知构造蛋白先在蛋白质构造数据库中寻觅未知构造蛋白的同源同伴,再利用一定计算方法把同源蛋的同源同伴,再利用一定计算方法把同源蛋白的构造优化构建出预测的结果。白的构造优化构建出预测的结果。 根本过程:目的序列与模板序列的匹配,确根本过程:目的序列与模板序列的匹配,确定蛋白质构造保守区及其构造,目的构造建定蛋白质构造保守区及其构造,目的构造建模,目的构造变异区建模,侧链安装与优化,模,目的构造变异区建模,侧链安装与优化,模型优化与评价模型优化与评
35、价c1tehaC1hldaD1teha1GRoESD1teha2GRoES第四节第四节 蛋白质功能预测蛋白质功能预测1. 根据序列预测功能的普经过程根据序列预测功能的普经过程虽然蛋白质的许多特性可直接从序列上分析获得,如虽然蛋白质的许多特性可直接从序列上分析获得,如疏水性,跨膜螺旋疏水性,跨膜螺旋(transmenbrane helix)(transmenbrane helix)或前导序列或前导序列(leader sequence)(leader sequence)等。总的来说,根据序列预测蛋白等。总的来说,根据序列预测蛋白质功能的独一方法是经过数据库搜索,比较该蛋白能否质功能的独一方法是经过
36、数据库搜索,比较该蛋白能否与知功能的蛋白质类似。与知功能的蛋白质类似。比较未知蛋白序列与知蛋白质序列的类似性;比较未知蛋白序列与知蛋白质序列的类似性;查找未知蛋白中能否包含与特定蛋白质家族或功能域查找未知蛋白中能否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。有关的亚序列或保守区段。根据序列预测蛋白质功能的技术道路根据序列预测蛋白质功能的技术道路2. 经过比对数据库类似序列确定功能经过比对数据库类似序列确定功能 具有类似序列的蛋白质具有类似的功能。最可靠确实定蛋白质功能的方法是进展数据库的类似性搜索。一个显著的匹配应至少超越80个氨基酸的区段有25%的一样序列。 普通战略是先进展BLAS
37、T检索,如不能提供相关结果,再运转FASTA;如FASTA也不能得到有关蛋白质功能的线索,可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ(ebi.ac.uk/searches/blitz.html)。BLITZ不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。通常BLITZ程序可以发现超越几百个残基但序列一样比率低于2025%的匹配,这些匹配能够到达显著,但会被那些运用近似估计的程序错过。n选用计分矩阵选用计分矩阵(scoring matrix)(scoring matrix)非常关键非常关键n选用的矩阵必需与匹配程度相一致,例如,选用的矩阵必需与匹配程度相一致,例如,PAM250PAM250运用于远间隔匹配运用于远间隔匹配(25%(35%35%,并且具有很高的构造,并且具有很高的构造和功能类似性。和功能类似性。2. SCOP蛋白质构造分类n折叠子折叠子foldfold主要是构造类似主要是构造类似n假设蛋白质在一样的条件和一样的拓扑关系下有一样的二假设蛋白质在一样的条件和一样的拓扑关系下有一样的二级构造,就以为是一样的折叠子,有一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025行政人事上半年工作总结(4篇)
- 2025销售简短个人工作总结(8篇)
- 人教版八年级历史与社会上册1.1.1古代埃及教学设计
- 2025年幼儿园小班工作计划范文(15篇)
- 初三英语教学工作总结2025(16篇)
- Module 10 Unit 2课时教学设计- 2024-2025学年外研版八年级英语上册
- (二模)2025年汕头市高三普通高考第二次模拟考试生物试卷
- 教师评高级职称工作总结(9篇)
- 落实STEAM教育理念为学生高效学习提供支持
- 2025销售工作计划书1000字(16篇)
- 自费药品知情同意书
- 江苏省书法水平等级证书考试-硬笔书法考试专用纸-(123级)
- 山东省各地市地图课件
- 全套IATF16949内审核检查表(含审核记录)
- 基础工程量计算表
- 设备报修单表
- 心肺复苏急救步骤图例
- 《春夜喜雨》公开课一等奖课件
- 简易呼吸球囊
- 第一章医学统计学方法的基本概念和基本步骤讲课课件
- 临床研究样本量计算器 CRESS V1.3
评论
0/150
提交评论