




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
蛋白质数据库、原核及真核生物基因组分析第五节蛋白质数据库基本定义:存放蛋白质相关信息的功能性数据集,包括蛋白质的名称,物种来源,所具有的各种生物学功能,以及序列本身等等。有些数据库提供序列比对、序列下载等服务,不同的数据库特点不同。国际上大型的公共蛋白质数据库包括UniProt,PIR-PSD(已整合入UniProt),PDB,OMIM,GeneCards等。UniProtUniProt
KnowledgeBase(UniProtKB)Swiss-ProttrEMBLREM-trEMBLSP-trEMBLUniRefUniParcTheUniProtArchive(UniParc)isacomprehensiveandnon-redundantdatabasethatcontainsmostofthepubliclyavailableproteinsequencesintheworld.TheUniProtReferenceClusters(UniRef)provideclusteredsetsofsequencesfromtheUniProtKnowledgebaseandselectedUniParcrecordsinordertoobtaincompletecoverageofthesequencespaceatseveralresolutionswhilehidingredundantsequencesfromview.UniProt(Universal
ProteinResource)蛋白质数据库UniProtKB/Swiss-Protproteinknowledgebasestatistics
1INTRODUCTIONRelease2011_03of08-Mar-11ofUniProtKB/Swiss-Protcontains525997sequenceentries,comprising185874894aminoacidsabstractedfrom196176references.
2013_12of11-Dec-13contains541954sequenceentries2.Taxonomicdistributionofthesequences
WithinEukaryota:
Legend:
gray=aliphatic,red=acidic,green=smallhydroxy,blue=basic,black=aromatic,white=amide,yellow=sulfur
2Swiss-ProtSWISS-PROT由瑞士日内瓦大学医学生化系于1986年创建,后来与欧洲分子生物学实验(EuropeanMolecularBiologylaboratory,EMBL)室合作,由瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)和欧洲生物信息学研究所(EBI)共同维护和管理,现已整合称为全新的UniProtKB/Swiss-Prot。a.所有序列条目都经过有经验的分子生物学家和蛋白质化学家借助计算机工具并查阅有关文献资料仔细核实。Swiss-Prot的特点b.每个条目包含蛋白质的基本信息、来源信息(描述蛋白质的物种来源)、引用文献信息、功能信息(功能注释)、突变体信息、以及蛋白质序列本身等。c.蛋白质注释
包括蛋白质的功能、翻译后修饰(如糖基化和磷酸化)、结构域和结合位点、二级结构(如α-螺旋和β-片层)、四级结构(如同聚体和异聚体)、与其它蛋白质序列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和变异体等信息。d.Swiss-Prot中是一个去除冗余序列后的数据集e.
与其它30多个数据库建立了交叉引用,其中包括核酸序列数据库、蛋白质序列数据库和蛋白质结构数据库等。f.利用序列检索系统(SRS,SequenceRetrievalSystem)可以方便地检索UniProtKB/Swiss-Prot数据库。3TrEMBLTrEMBL数据库建于1995年,意为“TranslationfromEMBL”。该数据库采用SwissProt数据库格式,其数据来源于:EMBL核酸序列数据库(包括GenBank、DDBJ)中所有编码序列经计算机程序自动翻译的蛋白质从文献中查到的或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋白质序列TrEMBL数据库分两部分:SP-TrEMBL(Swiss-ProtTREMBL)和
Rem-TrEMBL(REMainingTREMBL)SP-TrEMBL中的条目将最终被归并到SwissProt数据库中Rem-TrEMBL(REMainingTREMBL)包含目前不打算并入SWISS-PROT的蛋白质序列
包括免疫球蛋白、T细胞受体、人工设计合成蛋白质序列、小肽、专利序列、假基因和截断了的蛋白质等。4PIR-PSD蛋白质信息资源-国际蛋白质序列数据库(theProteinInformationResource-InternationalProteinSequenceDatabase,
PIR-PSD)由蛋白质信息资源(PIR,GeorgetownUniversityMedicalCenter)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护,PIR是国际上最早的数据库,始建于1965年,2002年并入UniProt/Swiss-Prot数据库中。是一个全面的、非冗余的、经过专家校对过的公共蛋白质序列数据库。PIR-PSD收集已发表的蛋白质序列、来源、参考文献和注释信息等,她的注释中还包括一些原始递交记录中没有的相关信息,如在遗传图谱的位置、内含子位置等。PIR-PSD的另一个重要特征是其对蛋白质超家族的分类,提供序列的等级聚类信息,揭示序列间的进化关系。5UniProt蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI)和瑞士生物信息学研究所(SIB)合作,于2002年共同组建世界蛋白质资源(theUniversalProteinResource,UniProt)。UniProt把Swiss-Prot、TrEMBL和PIR-PSD等蛋白质数据库整合在一起,是目前国际上最全面的蛋白质信息库。最终形成了现在的UniProtKB/Swiss-Prot和UniProtKB/TrEMBL。UniProtArchive(UniParc)ispartof
UniProt
project.Itisanon-redundantarchiveofproteinsequencesextractedfrompublicdatabasesUniProtKB/Swiss-Prot,UniProtKB/TrEMBL,PIR-PSD,EMBL,EMBLWGS,Ensembl,IPI,PDB,RefSeq,FlyBase,WormBase,H-InvitationalDatabase,TROMEdatabase,EuropeanPatentOfficeproteins,UnitedStatesPatentandTrademarkOfficeproteins(USPTO)andJapanPatentOfficeproteins.TheUniProtKnowledgebase(UniProtKB)TheUniProtKnowledgebasecontinuestheworkofSwiss-Prot,TrEMBLandPIR-PSDbyprovidinganexpertly(professionally)andrichlycuratedproteindatabaseConsistingoftwosections.
UniProtKB/Swiss-Prot
UniProtKB/TrEMBL.UniProtReferenceClusters(UniRef)TheUniProtReferenceClusters(UniRef)
provideclusteredsetsofsequencesfromUniProtKBandselectedUniParcrecords.Itprovidecompletecoverageofsequencespaceatseveralresolutionsandspeedsimilaritysearchesviasequencespacecompressionbymergingsequencesthatare100%(UniRef100),90%(UniRef90)or50%(UniRef50)identical.UniRef90andUniRef50yieldadatabasesizereductionofapproximately40%and65%,respectively,providingsignificantlyfastersequencesearches.UniProtArchive(UniParc)UniProtArchive(UniParc)ispartof
UniProt
project.Itisanon-redundantarchiveofproteinCaptureallpubliclyavailableproteinsequencedataandcontainsalltheproteinsequencesfromthemainpubliclyavailableproteinsequencedatabases.
UniParcisthemostcomprehensivepubliclyaccessiblenon-redundantproteinsequencedatabase.sequencesextractedfrompublicdatabasesincluding:UniProtKB/Swiss-Prot,UniProtKB/TrEMBL,EMBL,EMBLWGS,Ensembl,IPI,PDB,RefSeq,FlyBase,WormBase,H-InvitationalDatabase,TROMEdatabase,EuropeanPatentOfficeproteins,UnitedStatesPatentandTrademarkOfficeproteins(USPTO)andJapanPatentOfficeproteins.UniParc
recordsareautomaticannotatedUniProt
MetagenomicandEnvironmentalSequences(UniMES)
Arepositoryspecificallyformetagenomicandenvironmentaldata.Tostoresequenceswhicharerecovereddirectlyfromenvironmentalsamples.ThepredictedproteinsfromthisdatasetarecombinedwithautomaticclassificationbyInterPro,anintegratedresourceforproteinfamilies,domainsandfunctionalsites,toenhancetheoriginalinformationwithfurtheranalysis.RetrievingdatafromUniProtdatabasesBrowsing.Onecanperformbothsimpleandcomplextext-basedqueries,runsequence-basedsearchesoftheUniProtdatabases,performmultiplesequencealignments,retrievemultipleentriesandmapidentifiersfromanexternaldatabasetoUniProtKBorviceversa.Downloading.Ifyouneedtodownloadentiredatabases,theUniProtKB,UniRefandUniMESdatabasesareavailableat/downloads.CD-ROM.TheUniProtKnowledgebasefullreleasesaredistributedonCD-ROM.Ifyouwouldliketoreceivethem,pleasesendusane-mailusingthequeryformatwww.ebi.ac.uk/support/.6Uni-Prot数据检索二疾病相关蛋白数据库(1)OMIM:OMIM(OnlineMendelian
InheritanceinMan)是美国JonhsHopkins大学Dr.VictorA.McKusick等人建立和编辑的有关人类基因和遗传病目录的电子版。于上世纪60年代创立,旨在为临床医师和遗传病研究工作者提供服务。OMIM包含大量的及时更新的有关人类基因及其突变序列数据和遗传病的临床特征等信息和相关参考文献。OMIM数据库提供的基本信息
OMIM----
概述
克隆(从哪里得到的,怎样得到的)
定位(在人类基因组中哪条染色体上,什么位置)
基因结构(基因的大小及内含子外显子数量)
基因功能
生化特征
分子遗传学(casereport)
动物模型
等位突变
参考文献
编辑史等(2)GeneCardsGeneCards数据库始建于1997年,是由以色列Weizmann科学研究所(WeizmannInstituteofScience)的Crown人类基因组中心(CrownHumanGenomeCenter)建立和维护的。她是一个提供搜索服务的、全面的、及时更新的人类基因数据数据库。它链接、收集了如HUGO,SWISS-PORT,EntrezGene,PubMed,OMIM,HGMD,Unigene等五十多个数据库,提供有关人类、果蝇、小鼠等基因的相关信息,以及多种遗传性疾病、癌症、转基因资料它对所有数据库的信息进行了科学地分类整理,形成了一个关于基因及其产物的生物学和医学信息的电子百科全书它的智能化的导航系统,使用户能方便地查找感兴趣的内容。它还提供了几十个镜像站,与很多的研究所、医院、基因中心等链接,便于用户进一步查找相关信息。三NCBI数据库的数据模型数据库模型:
是研究人员输入序列、查询序列、进行序列比对的根本,也是数据库管理人员管理数据的总则。NCBI数据模型包括:
序列数据和相关的注释。作用:NCBI模型能轻易地从已公布的DNA序列文献影射到基因所在的染色体--编码蛋白--蛋白质三维结构等。(一)NCBI数据模型的文献1出版物:出版物是连接不同结构和不同内容数据库的桥梁;出版物是数据库记录的基本注释,也是最好的注释,发表文章比数据库中的记录包含了更完整和更详细的信息。2作者数据或文章的作者是系统联系相关数据和科学研究的关键因素;PubMed数据库的作者的输入全称姓和名的首字母3文章最常见的生物科学文献是期刊文献,对于生物数据库的引用格式缺省是期刊文献文章也可出现在书、手稿及电子期刊上。期刊名、年份、文章的首页以及文章作者的姓4.论文标题5Medline和PubMed
UIDsPUID和MUID:PubMed唯一识别器和Medline唯一识别器(二)NCBI数据模型的序列1序列识别器(SEQIDS):
GenBank、DDBJ和EMBL核酸蛋白数据库共用一套序列号a.Locus名称:兼有唯一辨识器、功能记忆以及序列的组织源等功能;
Locus出现在GenBank中的Locus行以及DDBJ记录和EMBL的ID行;GenBank中已不再作为有用的名称,只是为了和老数据格式兼容b.序列号(Accession):GenBank、DDBJ和EMBL具有,以保证序列的相对稳定性和专一性;2个大写字母(分配到不同的数据库)+6个数字
c.gi号(GeneInfo,GI)gi:基因信息号,核酸序列和蛋白质序列均有gi号;gi的来源:由源数据库提供;序列仅当其完整地被提交公共数据库处理后,才最终达到一个序列号和一个gi号;位置:在VERSION行中,版本号,gi号修改记录时,新记录与原先记录不同时(哪怕是一个碱基不同),产生新的gi号,但序列号不变;2生物序列(BIOSEQ)生物序列:一个简单的、连续的核酸或蛋白质分子至少有一个序列辨识器包含DNA、RNA或蛋白质分子的物理信息、注释信息(如特定区域的生物特征)和描述信息(如该分子是从某个组织中获得的)第六节蛋白质数据分析
由于传统的用X光晶体衍射和核磁共振技术测定蛋白质的三维结构、用生化方法研究蛋白质功能的效率不高,无法适应由基因组测序所带来的蛋白质序列数量快速增长的需要,近年来,许多科学家致力于用理论计算的方法预测蛋白质的三维结构,提高蛋白质功能研究的效率,并取得了一些的成果,但总体效果并不理想。一、蛋白质基本性质分析蛋白质序列分析的基本方面:包括分析蛋白质的氨基酸组成、相对分子质量、等电点、亲水性、疏水性、消光系数、信号肽等在一些蛋白质数据库如UniProt等可查询到已收录序列的基本理化特征对于新得到的蛋白质序列,可通过蛋白质序列分析专家系统ExPASy(ExpertProteinAnalysisSystem)服务系统的蛋白组学工具软件如ProtParam、ProScale和ComputepI/Mw等软件进行分析(http://www.expasy.ch/tools/)二、蛋白质功能预测与分类
InterPro数据库与蛋白质功能预测与分类
COG、GO对蛋白质功能的分类
KEGG对蛋白质的代谢途径分析
InterPro数据库与蛋白质功能的预测、分类DatabaseLocationPROSITESwissInstituteofBioinformatics(SIB),Geneva,SwitzerlandHAMAPSwissInstituteofBioinformatics,Geneva,SwitzerlandPfamWellcomeTrustSangerInstitute,Hinxton,UKPRINTSUniversityofManchester,UKSUPERFAMILYUniversityofBristol,UKCATH-Gene3DUniversityCollege,London,UKProDomPRABIVilleurbanne,FranceSMARTHeidelberg,GermanyTIGRFAMsJ.CraigVenterInstitute,Rockville,MD,USAPIRSFGeorgetownUniversityMedicalCentre,WashingtonDC,USAPANTHERUniversityofSouthernCalifornia,CA,USAInterProisaresourcethatprovidesfunctionalanalysisofproteinsequencesbyclassifyingthemintofamiliesandpredictingthepresenceofdomainsandimportantsites.Toclassifyproteinsinthisway,InterProusespredictivemodels,knownassignatures,providedbyseveraldifferentdatabases(referredtoasmemberdatabases)thatmakeuptheInterProconsortium.WhatisInterPro?WhyisInterProuseful?InterProcombinessignaturesfrommultiple,diversedatabasesintoasinglesearchableresource,reducingredundancyandhelpingusersinterprettheirsequenceanalysisresults.Byunitingthememberdatabases,InterPro
capitalisesontheirindividualstrengths,producingapowerfuldiagnostictoolandintegratedresource.WhousesInterPro?InterProisusedbyresearchscientistsinterestedinthelarge-scaleanalysisofwholeproteomes,genomesandmetagenomes,aswellasresearchersseekingtocharacteriseindividualproteinsequences.WithintheEBI,InterProisusedtohelpannotateproteinsequencesinUniProtKB.ItisalsousedbytheGeneOntologyAnnotationgrouptoautomaticallyassignGeneOntologytermstoproteinsequences.InterPro的功能
收集了已知蛋白质家族、蛋白质功能域和功能位点的信息,通过序列比对,可用于未知蛋白质序列的:分类(Superfamily,familyandsubfamilylevels)功能域(Domain)重要位点(Importantsite)GeneOntology(GO)注释信息不同数据库在数据组成上有所不同Pfam包含常见的蛋白质功能域和蛋白质家族,可浏览蛋白质家族的多序列比对结果、蛋白质功能域的立体构造、蛋白质家族的物种分布等。PANTHER主要包含蛋白质家族的功能分类信息,一个大的蛋白质家族按功能上的差异进一步被归纳成一些次家族,显示蛋白质家族不同成员的特定功能的差异,使蛋白质家族的功能表达更准确。文字搜索和序列搜索InterPro提供简明的文字和序列搜索界面:可以根据InterPro,Pfam,PRINTS,Prosite,ProDom,SMART,TIGRFAMs,Uni-Prot的编号和蛋白命名、数据库名、条目类型、GO号和GO术语等描述进行文字搜索InterPro在线分析蛋白质序列功能1)进入InterPro主页面2)将要分析的序列粘贴在空白框,然后点击Search按钮3)按窗口提示读取结果,或进入相关链接进行进一步分析2、
蛋白质的功能分类
基因分类协会(GeneOntologyConsortium,GOC)整合了现有数据库生物信息资源,建立了基因分类数据库(theGeneOntology)GOC基因分类协会(GOC)建立了可控的动态词汇系统,它从分子功能(MolecularFunction)、生物过程(BiologicalProcess)和细胞组分(CellularComponent)3个不同分类角度,建立了3棵分类树对已经分类到树上的同源蛋白质序列,赋予其特定的术语名称和GO编号目前GeneBank和SwissProt已有60多万条蛋白序列具有GO号,即它们已定位于GO的分类树上。同时一些综合的蛋白质注释数据库如酶协会(EC)、InterPro等与GO还有相对应的列表,从而使蛋白序列数据库和分类树建立起联系GOC基因分类协会成员TheOntologies
GO的组织原则:cellularcomponentbiologicalprocess
molecularfunction.Ageneproductmightbeassociatedwithorlocatedinoneormorecellularcomponents;itisactiveinoneormorebiologicalprocesses,duringwhichitperformsoneormoremolecularfunctions.
如基因产物cytochromec可被描述成:
themolecularfunctionterm:oxidoreductaseactivity
thebiologicalprocessterms:
oxidativephosphorylation
andinductionofcelldeath
thecellularcomponentterms:
cellmatrixandmitochondrialinnermembrane3个分支:分子功能、生物过程和细胞组成COG(ClustersofOrthologousGroups)
随着越来越多物种的基因组完成测序,根据同源关系对物种间存在的保守蛋白质(Ortholog)进行分类已经成为迫切的需要。COG按照其自定义的功能条目将蛋白质四大类,并进一步划分为25个小类(功能簇),其中有一大类功能未知,具体描述如下:2.InformationStorageandProcessingTranslation,ribosomalstructureandbiogenesisRNAprocessingandmodificationTranscriptionReplication,recombinationandrepairChromatinstructureanddynamics1.PoorlyCharacterizedGeneralfunctionpredictiononlyFunctionunknown
3.CellularProcessesandSignalingCellcyclecontrol,celldivision,chromosomepartitioningNuclearstructureDefensemechanismsSignaltransductionmechanismsCellwall/membrane/envelopebiogenesisCellmotilityCytoskeletonExtracellularstructuresIntracellulartrafficking,secretion,andvesiculartransportPosttranslationalmodification,proteinturnover,chaperones4.MetabolismEnergyproductionandconversionCarbohydratetransportandmetabolismAminoacidtransportandmetabolismNucleotidetransportandmetabolismCoenzymetransportandmetabolismLipidtransportandmetabolismInorganiciontransportandmetabolismSecondarymetabolitesbiosynthesis,transportandcatabolism按照COG分类方法,有些蛋白或酶可以存在两个或多个功能,例如:磷酸核糖焦磷酸合成酶(Phosphoribosylpyrophosphate
synthetase)既可以参与氨基酸的转运与代谢(Aminoacidtransportandmetabolism),也可以参与核苷酸的转运与代谢(Nucleotidetransportandmetabolism)3蛋白质序列的代谢途径分析
京都基因和基因组百科全书(KyotoEncyclopediaofGenesandGenomes,KEGGhttp://www.genome.ad.jp/kegg/)是日本京都大学生物信息学中心建立和维护的系统分析基因功能的综合数据库,创建于1995年包含455条代谢途径和信号通路的数据库有关基因目录(GeneCatalogs)的基因数据库(GENES)有关功能等级(FunctionalHierarchies)的BRITE数据库有关疾病的HumanDisease数据库配体数据库(LIGAND)等等KEGGDatabases
KEGGpathway数据的结构怎样使用KEGG数据库进行蛋白质在Pathway上进行定位三、蛋白质结构预测1.蛋白质二级结构预测二级结构:是指广泛地存在于球状蛋白质内的α-螺旋(α-helix)、β-折叠(β-pleatedsheet)和β-转角(β-turn)等规则的蛋白质局部结构单元。在球状蛋白质中,常见若干相邻的二级结构单元组合在一起,形成规则的、在空间上能辨认的充当三级结构构件(blockbuilding)的二级结构组合体(combination),又称超二级结构(supersecondarystructure)。蛋白质二级结构的预测大多通过与已知蛋白质的三维结构和二级结构相比较,或通过计算各种结构中氨基酸出现的频率规律,结合人工神经网络、遗传算法等技术构建预测方法实现的。目前,二级结构预测对α-螺旋预测精度较好,对β-折叠的预测精度差些。蛋白质二级结构预测的工具用于蛋白质二级结构预测的工具较多,如:PredictProtein
(http:///)ANTHEPROT(http://antheprot-pbil.ibcp.fr/)COILS(http://embnet.vital-it.ch/software/COILS_form.html)其中最常用的是PredictProtein
由欧洲分子生物学实验室提供的一个web服务,可以对蛋白质序列和结构进行分析,web服务网址为:
http://www.embl-hei
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专升本思政理论考查试题及答案详解
- 思政重要问题的试题及答案汇编
- 二零二五年度劳动关系解除与离职后竞业限制协议
- 二零二五年度代驾事故责任认定合同
- 2025年度酒店整体租赁与旅游产品开发协议
- 军队保密协议合同范例
- 2024年语文复习资料试题及答案
- 队员配合与协作能力考察试题及答案
- 2025年新工艺生产的过氧化异丙苯(DCP)合作协议书
- 本金保护型证券投资技巧试题及答案
- 医院培训课件:《白疕(银屑病)中医护理查房》
- 一汽-大众供应商管理流程介绍.sbx
- 招标代理机构入围 投标方案(技术方案)
- 招投标代理挂靠协议书
- 工作的时效性与时间管理课件
- 年产10万吨聚氯乙烯生产工艺设计毕业设计
- 高中18岁成人仪式主题活动设计
- 《婚姻家庭纠纷调解》课件
- 高中数学培优讲义练习(必修二):专题8.1 基本立体图形(重难点题型精讲)(教师版)
- 兵团红色经典文化在新疆高校思想政治教育中的运用研究
- 注塑机定期保养记录表2016
评论
0/150
提交评论