生物信息学-第1次理论_第1页
生物信息学-第1次理论_第2页
生物信息学-第1次理论_第3页
生物信息学-第1次理论_第4页
生物信息学-第1次理论_第5页
已阅读5页,还剩68页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

六、蛋白质序列数据库UniPro

Swiss-Prot

TrEMBL

PIR-PSDThemissionof

UniProt

istoprovidethescientificcommunitywithacomprehensive,high-qualityandfreelyaccessibleresourceofproteinsequenceandfunctionalinformation.1.Swiss-ProtSWISS-PROT由瑞士日内瓦大学医学生化系于1978年创建,后来与欧洲分子生物学实验室合作,由瑞士生物信息学研究所(SwissInstituteofBioinformatics,SIB)和欧洲生物信息学研究所(EBI)共同维护和管理现已整合进UniProtKB/Swiss-Prot。a.所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SWISS-PROT的特点b.每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源)、引用文献信息、注释、蛋白质序列等(如:ampG)。c.蛋白质注释

包括蛋白质的功能、翻译后修饰(如糖基化和磷酸化)、结构域和结合位点、二级结构(如α-螺旋和β-片层)、四级结构(如同聚体和异聚体)、与其它蛋白质序列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和变异体等信息。d.SWISS-PROT中尽可能减少冗余序列e.

与其它30多个数据库建立了交叉引用,其中包括核酸序列数据库、蛋白质序列数据库和蛋白质结构数据库等。f.利用序列检索系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。2.TrEMBLTrEMBL数据库建于1995年,意为“TranslationfromEMBL”。该数据库采用SwissPro数据库格式,其数据来源于:EMBL核酸序列数据库(或GenBank、DDBJ)中所有编码序列经计算机程序自动翻译的蛋白质从文献中查到的或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋白质序列3.PIR-PSD蛋白质信息资源-国际蛋白质序列数据库(theProteinInformationResource-InternationalProteinSequenceDatabase,PIR-PSD由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护,PIR是最早的数据库,现已并入UniProtKnowledgebase是一个全面的、非冗余的、经过专家注释的公共蛋白质序列数据库。PIR-PSD收集已发表的蛋白质序列、来源、参考文献和特征信息等,她的注释中还包括一些原始递交记录中没有的相关信息,如在遗传图谱的位置、内含子位置、以及和其他序列、结构、基因组和引文数据库(如Medline、PDB和TIGR等)的相互参照PIR-PSD的另一个重要特征是其对蛋白质超家族的分类,提供序列的等级聚类信息,揭示序列间的进化关系。4.UniPro蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI)和瑞士生物信息学研究所(SIB)合作,于2002年共同组建世界蛋白质资源(theUniversalProteinResource,UniPro)。UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整合在一起,是目前国际上最全面的蛋白质信息库。TheUniProtKnowledgebase(UniProtKB)TheUniProtKnowledgebasecontinuestheworkofSwiss-Prot,TrEMBLandPIR-PSDbyprovidinganexpertlyandrichlycuratedproteindatabaseConsistingoftwosections.UniProtKB/Swiss-ProtUniProtKB/TrEMBL.UniProtReferenceClusters(UniRef)TheUniProtReferenceClusters(UniRef)

provideclusteredsetsofsequencesfromUniProtKBandselectedUniParcrecords.Itprovidecompletecoverageofsequencespaceatseveralresolutionsandspeedsimilaritysearchesviasequencespacecompressionbymergingsequencesthatare100%(UniRef100),90%(UniRef90)or50%(UniRef50)identical.UniRef90andUniRef50yieldadatabasesizereductionofapproximately40%and65%,respectively,providingsignificantlyfastersequencesearches.UniProtArchive(UniParc)Captureallpubliclyavailableproteinsequencedataandcontainsalltheproteinsequencesfromthemainpubliclyavailableproteinsequencedatabases.UniParcisthemostcomprehensivepubliclyaccessiblenon-redundantproteinsequencedatabase.Youcaninstantlyfindoutwhetherasequenceofinterestisalreadyinthepublicdomainand,ifnot,identifyitsclosestrelatives.YoucanalwaystracethesourcedatabasebecauseUniParccross-referencestheiraccessionnumbers.Youcanobservesequencechangesinallthesourcedatabases.UniParcrecordsarenotannotated5.Uni-Pro数据检索七、疾病相关基因数据库(1)OMIM:OMIM(OnlineMendelianInheritanceinMan)是美国JonhsHopkins大学Dr.VictorA.McKusick等人建立和编辑的有关人类基因和遗传病目录的电子版。于本世纪60年代创立,旨在为临床医师和遗传病研究工作者提供服务。OMIM包含大量的及时更新的有关人类基因及其突变序列数据和遗传病的临床特征等信息和相关参考文献。OMIM数据库基本信息

MIM----概述、克隆、基因结构、物理图、基因功能、生化特征、分子遗传学、动物模型、等位突变、参考文献、编辑史等.Eztrezgene----分类、参考序列、蛋白质等LinkoutP53基因的OMIM检索结果:(2)GeneCardsGeneCards数据库是由以色列Weizmann科学研究所(WeizmannInstituteofScience)和Crown人类基因组中心(CrownHumanGenomeCenter)建立和维护的它链接、收集了如HUGO,SWISS-PORT,Genbank,PubMed,OMIM,HGMD,Unigene等五十多个数据库,提供有关人类、果蝇、小鼠等基因的相关信息,以及多种遗传性疾病、癌症、转基因资料它对所有数据库的信息进行了科学地分类整理,形成了一个关于基因及其产物的生物学和医学信息的电子百科全书它的智能化的导航系统,使用户能方便地查找感兴趣的内容。它还提供了几十个镜像站,与很多的研究所、医院、基因中心等链接,便于用户进一步查找相关信息。八、蛋白质数据分析

由于传统的用X光晶体衍射和核磁共振技术测定蛋白质的三维结构、用生化方法研究蛋白质功能的效率不高,无法适应由基因组测序所带来的蛋白质序列数量飞速增长的需要,近年来,许多科学家致力于用理论计算的方法预测蛋白质的三维结构和功能,提高蛋白质功能研究的效率,并取得了一定的成果。1.蛋白质基本性质分析蛋白质序列分析的基本方面:包括分析蛋白质的氨基酸组成、相对分子质量、等电点、亲水性、疏水性、消光系数、信号肽等在一些蛋白质数据库如UniPro等可查询到已收录序列的基本理化性状对于新得到的蛋白质序列,可通过蛋白质序列分析专家系统ExPASy服务系统的蛋白组学工具软件如ProtParam、ProScale和ComputepI/Mw等软件进行分析()2.蛋白质功能预测InterPro数据库与蛋白质功能预测蛋白质的功能分类蛋白质序列的代谢途径分析

由EBI,SIB,SangerInstitute

等十多家单位维护结合了UniProt、PROSITE,

Pfam,PRINTS,ProDom、

SMART,PANTHER和

Gene3D等数据库(1)InterPro数据库与蛋白质功能预测InterPro功能

收集了已知蛋白质家族、蛋白质功能域和功能位点的信息,可用于未知蛋白质序列的:分类(superfamily,familyandsubfamilylevels)功能域重复序列重要位点其他的包括GOterms等深度注释不同数据库在数据组成上有所不同Pfam包含常见的蛋白质功能域和蛋白质家族,可浏览蛋白质家族的多序列比对结果、蛋白质功能域的立体构造、蛋白质家族的物种分布等。PANTHER主要包含蛋白质家族的功能分类信息,一个大的蛋白质家族进一步按功能上的差异被归纳成一些次家族,显示蛋白质家族不同成员的特定功能的差异,使蛋白质家族的功能表达更准确。ProDom家族是由UniProtKnowledgeDatabase中自动生成的综合性的蛋白质功能域家族数据库。VisualizationofProDomdomainson3Dstructures;couplingofProDomanalysiswiththeGeno3Dhomologymodellingserver;ProDom-SG,aProDom-basedserverdedicatedtotheselectionofcandidateproteinsforstructuralgenomics.SMART由两部分组成,普通SMART(NormalSMART)收集了Swiss-Prot,SP-TrEMBL和stableEnsemblproteomes的蛋白质数据,而基因组SMART(GenomicSMART)仅包含全基因组测序的生物基因组的蛋白质信息。(2)

白质的功能分类

基因分类协会(GeneOntologyConsortium,GOC)整合了现有数据库生物信息资源,建立了基因分类数据库(theGeneOntology)GOC基因分类协会(GOC)建立了可控的动态词汇系统,它从分子功能(MolecularFunction)、生物过程(BiologicalProcess)和细胞组分(CellularComponent)3个不同分类角度,建立了3棵分类树对已经分类到树上的同源蛋白质序列,赋予蛋白质特定的术语名称和GO编号GOC各成员提供其蛋白质数据库中已分类的蛋白编号和GO号对照表,是对未知蛋白序列进行分类的参照和标准目前GeneBank和SwissProt已有60多万条蛋白序列具有GO号,即它们定位于GO的分类树上。同时一些综合的蛋白质注释数据库如酶协会(EC)、InterPro等与GO还有相对应的列表,从而使蛋白序列数据库和分类树建立起联系GOC基因分类协会成员TheOntologiesGO的组织原则:cellularcomponentbiologicalprocess

molecularfunction.Ageneproductmightbeassociatedwithorlocatedinoneormorecellularcomponents;itisactiveinoneormorebiologicalprocesses,duringwhichitperformsoneormoremolecularfunctions.

如基因产物cytochromec可被描述成:

themolecularfunctionterm:oxidoreductaseactivity

thebiologicalprocessterms:

oxidativephosphorylationandinductionofcelldeath

thecellularcomponentterms:

mitochondrialmatrixandmitochondrialinnermembrane3个分支:分子功能、生物过程和细胞组成FunctionalclassNumberPercentageRegulatoryfunction451.05Putativeregulatoryproteins1333.10Cellstructure1824.24Putativemembraneproteins130.30Putativestructuralproteins420.98Phage,transposons,plasmids872.03Transportandbindingproteins2816.55Putativetransportproteins1463.40Energymetabolism2435.67DNAreplication,bination,modification,andrepair1152.68Transcription,RNAsynthesis,metabolism,andmodification551.28Translation,posttranslationalproteinmodification1824.24E.coliproteins的22个功能类群

(tobecontinued)

FunctionalclassNumberPercentage

Cellprocesses(includingadaptation,protection)1884.38Biosynthesisofcofactors,prostheticgroups,andcarriers1032.40Putativechaperones90.21Nucleotidebiosynthesisandmetabolism581.35Aminoacidbiosynthesisandmetabolism1313.06Fattyacidandphospholipidmetabolism481.12Carboncompoundcatabolism1303.03Centralintermediarymetabolism1884.38Putativeenzymes2515.85Otherknowngenes(geneproductorphenotypeknown)260.61Hypothetical,unclassified,unknown163238.06Total4288100.00编码序列的注释--

DistributionofSC-B67proteinsamong22functionalgroups(3)蛋白质序列的代谢途径分析京都基因和基因组百科全书(KyotoEncyclopediaofGenesandGenomes,KEGG,)是日本京都大学生物信息学中心建立和维护的系统分析基因功能的综合数据库

包含7万多条代谢途径的数据库有关基因目录(GeneCatalogs)的基因数据库(GENES)有关功能等级(FunctionalHierarchies)的BRITE数据库有关化学物质及其反应(BioChemicalcompoundsandReactions)配体数据库(LIGAND)KEGGDatabases

KEGGpathway数据的结构3.蛋白质结构预测(1)蛋白质二级结构预测二级结构:是指广泛地存在于球状蛋白质内的α-螺旋(α-helix)、β-折叠(β-pleatedsheet)和β-转角(β-turn)等规则的蛋白质局部结构单元。在球状蛋白质中,常见若干相邻的二级结构单元组合在一起,形成规则的、在空间上能辨认的充当三级结构构件(blockbuilding)的二级结构组合体(combination),又称超二级结构(supersecondarystructure)。蛋白质二级结构的预测大多通过与已知蛋白质的三维结构和二级结构相比较,或通过计算各种结构中氨基酸出现的频率规律,结合人工神经网络、遗传算法等技术构建预测方法实现的。目前,二级结构预测对α-螺旋预测精度较好,对β-折叠的预测精度差些。蛋白质二级结构预测的工具用于蛋白质二级结构预测的工具较多,如:PredictProtein()ANTHEPROT(http://antheprot-pbil.ibcp.fr/)COILS(http:/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论