第三章蛋白质数据库_第1页
第三章蛋白质数据库_第2页
第三章蛋白质数据库_第3页
第三章蛋白质数据库_第4页
第三章蛋白质数据库_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章蛋白质数据库蛋白质序列与结构蛋白质序列复杂性的简化蛋白质结构解析六十年在1958年,英国科学家JohnKendrew和MaxPerutz首先发表了用X射线衍射得到的高分辨率的肌红蛋白Myoglobin的三维结构,然后是更加复杂的血红蛋白Hemoglobin。因此,这两个科学家分享了1962年的诺贝尔化学奖。在1964年,AaronKlug提出了一种基于X射线衍射原理发展而来的全新的方法电子晶体学显微镜(crystallographicelectronmicroscopy),可以解析更大蛋白质或者蛋白质核酸复合体结构。因为这项研究,他获得了1982诺贝尔化学奖。存储蛋白质三维结构的ProteinDataBank(1971年)开始出现,这对于规范化和积累蛋白质数据有着重要意义。在1978年,核磁共振NMR首次被用于蛋白质结构的解析;同年首个高精度病毒(西红柿丛矮病毒)衣壳蛋白结构被解析。Cryo-EM超低温电子显微镜成像用于超大蛋白质结构成像的研究日益成熟,并开始广泛用于蛋白质结构的解析。蛋白质结构解析六十年克隆表达Porphyromonasgingivalis

菌的aminopeptidaseC基因蛋白质序列检索示例序列数据库

NCBI:美国国立生物技术信息中心维护

/

EBI:欧洲分子生物学实验室维护蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例蛋白质序列检索示例MEROPShttp://merops.sanger.ac.uk/肽酶数据库肽酶数据库肽酶数据库肽酶数据库肽酶数据库肽酶数据库肽酶数据库肽酶数据库一、蛋白质结构数据库PDB早在序列数据库诞生之前的70年代,蛋白质结构数据库(ProteinDataBank,简称PDB)就已经问世。PDB数据库原来由美国Brookhaven国家实验室负责维护和管理。1998年,由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(ResearchCollaboratoryforStructuralBioinformatics,RCSB)。PDB数据库改由RCSB管理。蛋白质结构数据库/pdb/home/home.do蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构数据库/FileFormat/geshi/new_page_3.2.asp蛋白质结构数据库示例1:

12345671234567890123456789012345678901234567890123456789012345678901234567890SHEET1A5THRA107ARGA1100SHEET2A5ILEA96THRA99-1NLYSA98OTHRA107SHEET3A5ARGA87SERA91-1NLEUA89OTYRA97SHEET4A5TRPA71ASPA75-1NALAA74OILEA88SHEET5A5GLYA52PHEA56-1NPHEA56OTRPA71SHEET1B5THRB107ARGB1100SHEET2B5ILEB96THRB99-1NLYSB98OTHRB107SHEET3B5ARGB87SERB91-1NLEUB89OTYRB97SHEET4B5TRPB71ASPB75-1NALAB74OILEB88SHEET5B5GLYB52ILEB55-1NASPB54OGLUB73从这个示例可以看出SHEETA共有5条分支链,列14为SHEET标识符,列10为分支链标号,列16表示SHEET中的分支链总数。分支链1是从主链A107位的苏氨酸(THR)到主链A110位的精氨酸(ARG),后面40列数字0代表了此链是首链。第二行是分支链2,从1到37列意义是主链A96位的赖氨酸(LYS)到主链A99位的苏氨酸(THR),后面的-1代表其与它的前导链关系是反式。后面表示A链98位赖氨酸上的氮与前导链A107位的苏氨酸(THR)上的氧之间形成氢键。后面其他SHEET意义都可以参考上面的注解。蛋白质结构数据库

TURN1S1AGLYA16GLNA18SURFACETURN2FLAILEA50GLYA52FLAPTURN3S2AILEA66HISA69SURFACETURN4S1BGLYB16GLNB18SURFACETURN5FLBILEB50GLYB52FLAPTURN6S2BILEB66HISB69SURFACE蛋白质结构数据库示例

SSBOND

1CYSE

48

CYSE

51

2555

SSBOND

2CYSE

252

CYSE

285如上边所示:SSBOND1CYSE48CYSE51

记录名为:SSBOND,序列号为1,E链上第48位和第51位结合形成二硫键。蛋白质结构数据库示例原子坐标ATOM145NVALA2532.43316.33657.5401.0011.92A1NATOM146CAVALA2531.13216.43958.1601.0011.85A1CATOM147CVALA2530.44715.10558.3631.0012.34A1CATOM148OVALA2529.52015.05959.1741.0015.65A1O蛋白质结构数据库RasMol和基于RasMol的浏览器/microbio/rasmol/index2.htm/蛋白质结构浏览器NCBI的分子模型数据库MMDB是NCBIEntrez体系的一部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有PDB生物分子三维结构。MMDB是ASN.1记录格式,而非PDB记录格式的数据库。MMDB结构与原始的PDB结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍生定义,与MEDLINE相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。Cn3D是一种新的三维结构浏览器,用于浏览MMDB数据记录。/Structure/CN3D/cn3d.shtmlMMDB浏览器:Cn3D蛋白质结构浏览器蛋白质结构浏览器蛋白质结构浏览器Cn3D

蛋白质结构浏览器swiss-pdbviewer:

/spdbv/

Swiss-PdbViewer是一个对蛋白进行显示和分析的软件。它直观地提供了大量的菜单以满足查看显示蛋白的结构。可以对活性部位及相关结构比较。使用直观图形和菜单可以简单地查看氨基酸突变、氢键、原子间距离、转折角度等信息。蛋白质结构浏览器PIR(ProteinInformationresouce,蛋白质数据库)的出现先于核酸数据库。在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。从这本图册中的数据,演化为后来的蛋白质信息资源数据库。蛋白质二级数据库441984年,“蛋白质信息资源”(ProteinInformationResource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国的NBRF、日本的国际蛋白质信息数据库JIPID和德国的慕尼黑蛋白质序列信息中心MIPS合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。PIR数据库/PIR数据库PIR数据库特点是:全面的、经过注释的、非冗余的蛋白质序列数据库,包括了来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR数据库1、PRO:ProteinOntologyPIR数据库PRO将蛋白质家族归为三类:1、ProEvo:proteinsbasedonevolutionaryrelatedness2、ProForm:proteinformsproducedfromagivengenelocus3、ProComp:protein-containingcomplexesPIR数据库PIR数据库PIR数据库2、iProClass:蛋白质信息PIR数据库3、iProLINK:整合文献、信息和知识PIR数据库PIR数据库PIR数据库PIR数据库PIR数据库PIR数据库58该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(ExpertProteinAnalysisSystem,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究中心。SwissPort数据库http://www.ebi.ac.uk/uniprotSwissPort数据库SwissPort数据库SwissPort数据库SwissPort数据库SwissPort数据库SwissPort数据库序列名称序列简单说明序列编号序列来源的物种名序列来源的物种学名和分类学位置相关文献编号SwissPort数据库SwissPort数据库SwissPort数据库1、注解最为详尽。数据库工作者们大量参考有关原始文献、综述,并聘请有关的权威和专家进行评述。其注解内容包括:蛋白质功能;蛋白质翻译后修饰;结构域和特性位点;二级结构;四级结构;类似蛋白质;蛋白质缺陷引起的疾病;不同序列记录的出入、突变等。2、尽量减少冗余。3、有链接指向34个生物信息学数据库的相关记录。从而可以获得一个蛋白质的各方面的资料。有大量索引文件。可以按多种途径方便地进行检索。格式很规范,记录的题头缩写依次为:SWISS-PROT优点:SwissPort数据库SwissPort数据库PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能结构域(motif),因此是序列分析的有效工具。PROSITE数据库PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。PROSITE数据库http://www.expasy.ch/prosite/PROSITE数据库PROSITE数据库PROSITE数据库PROSITE数据库PROSITE数据库-连字符用来分离序列基序中的每个位点。[]每个方括号中的残基代表序列基序中某一特殊位置允许出现的残基。例如,在[DNS]中,在其特定位置允许的残基是天冬氨酸、天冬酰胺和丝氨酸。{}大括号中的符号代表序列基序中特定位置不允许出现的残基。换句话说,该特定位置允许出现其他残基。X

表示二十个氨基酸中的任何一个。(n)

代表某特定残基X的重复数。例如,X(2)代表-X-X-。(n,m)代表n和m间一段序列的重复长度。例如,A(2,5)意味着在序列基序中的一个特定位置上,可能出现连续2、3、4或5个丙氨酸。PROSITE数据库PRINTS数据库是基于蛋白质指纹(Fingerprints)技术的数据库。蛋白质序列指纹图谱基于多序列比对的结果,它由比对结果得到一系列相当保守的序列模体构建而成,用来表示蛋白质家族特征。在多序列比对过程中,经常出现具有一定特征的多个序列模体属于同一蛋白质家族的情况。显然,用多个模体同时识别某个蛋白质家族,其灵敏度必然有所提高。蛋白质序列指纹图谱方法就是基于一个序列中的多个乃至全部序列模体,并由此而构建一组描述某个蛋白质家族特征的序列模体。PRINTS数据库http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.phpPRINTS数据库PRINTS数据库PRINTS数据库PRINTS数据库PRINTS数据库蛋白质结构分类数据库SCOP(StructuralClassificationOfProteins)由英国医学研究委员会(MedicalResearchCouncil)的分子生物学实验室和蛋白质工程研究中心开发和维护。该数据库对已知三维结构的蛋白质进行分类,并描述了它们之间的结构和进化关系。SCOP数据库的构建除了使用计算机程序外,主要依赖于人工验证。由于蛋白质结构种类繁多,大小不一,有的只有一个结构域,有的则有许多结构域组成,构建结构分类数据库是一项十分复杂的工作。对于某些蛋白质,有时需要同时从单个结构域和多个结构域水平加以考虑。SCOP数据库StructuralClassificationofProteins(SCOP)SCOPdescribesproteinstructuresusingahierarchicalclassificationscheme:ClassesFoldsSuperfamilies(likelyevolutionaryrelationship)FamiliesDomainsIndividualPDBentrieshttp://scop.mrc-lmb.cam.ac.uk/scop/SCOP数据库家族:其依据为序列相似性程度。通常将相似性程度在30%以上的蛋白质归入同一家族,即它们之间有比较明确的进化关系。当然这一指标也并非绝对超家族:如果序列相似性较低,但其结构和功能特性表明它们有共同的进化起源,则将其视作超家族折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。SCOP把蛋白质分成家族,超家族和折叠类型SCOP数据库SCOP数据库SCOPstatisticsClass #folds #superfamilies #familiesAlla 179 299 480Allb 126 248 462a/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论