生物信息学数据库课件_第1页
生物信息学数据库课件_第2页
生物信息学数据库课件_第3页
生物信息学数据库课件_第4页
生物信息学数据库课件_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学数据库生物信息学数据库一:重要生物信息中心简介二:重要生物信息数据库

生物数据库序列数据库flatfile格式三:数据库检索工具简介

Entrez,SRS一、生物信息数据库引言生物分子数据高速增长

分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

生物分子数据库应满足5个方面的主要需求

〔1〕时间性〔2〕注释〔3〕支撑数据〔4〕数据质量〔5〕集成性生物分子数据库几个明显的特征:〔1〕数据库的更新速度不断加快数据量呈指数增长趋势〔2〕数据库使用频率增长更快〔3〕数据库的复杂程度不断增加〔4〕数据库网络化〔5〕面向应用〔6〕先进的软硬件配置生物分子数据库一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的根底上针对特定的应用目标而建立的二、重要生物信息中心

BioinformaticsCentresNCBI NationalCenterforBiotechnologyInformation(US) :///EBI EuropeanBioinformaticsInstitute(EU) :///EMBnetEuropeanMolecularBiologyNetwork ://HGMPHumanGenomeMappingProjectResourceCentre(UK) ://重要生物信息中心

BioinformaticsCentresExPASyExpertofProteinAnalysisSystem(Switzerland):///NIG NationalInstituteofGenetics(Japan) :///EMBLEuropeanMolecularBiologyLaboratory(Germany)/NCBI

美国国家生物技术信息中心:///PubMedPubMed〔:///〕是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。EMBL欧洲分子生物学实验室欧洲分子生物学网络组织(EMBnet)

EuropeanMolecularBiologyNetworkEMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。:///:///TheNationalnodes

DDBJ日本核酸数据库:///ExPaSy瑞士蛋白质分析专家系统:///:///:///:///:///:///:///三、重要生物信息数据库序列数据库〔EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它〔EPD、TRANSTAC)生物数据库的种类DBCatDBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等根本类型,〔:///〕ftp://数据库目录(一)Dbcat统计的生物信息数据库的数目分类数据库数目分类数据库数目DNA87 RNA29蛋白质94基因组58基因图谱29蛋白质结构18文献43其他153Currenttotal:511序列数据库

核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库

蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库

GDB

ACeDB二次数据库

序列数据库主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR核酸序列数据库国际上权威的核酸序列数据库〔1〕欧洲分子生物学实验室的EMBL

〔2〕美国生物技术信息中心的GenBank://〔3〕日本遗传研究所的DDBJ:///核酸序列数据库三个数据库中的数据根本一致,仅在数据格式上有所差异。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。美国的核酸数据库GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始效劳;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式效劳InformationOverload从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。蛋白质数据库数据库说明网址链接PDB蛋白质三维结构/pdbSWISS-PROT蛋白质序列数据库/sprot/PIR蛋白质序列数据库/OWL非冗余蛋白质序列http://www.bioinf.man.ac.uk/dbbrowser/OWL/EMBL核酸序列数据库http://www.embl-heidelberg.de/TrEMBLEMBL的翻译数据库/sprot/GenBANK核酸序列数据库/Genbank/蛋白质数据库PROSITE蛋白质功能位点/prosite/SWISS-MODEL从序列模建结构http///swissmod/SWISS-MODEL.htmlSWISS-3DIMAGE三维结构图示/sw3d/DSSP蛋白质二级结构参数http://www.cmbi.kun.nl/gv/dssp/FSSP已知空间结构的蛋白质家族http://www.bioinfo.biocenter.helsinki.fiSCOP蛋白质分类数据库http://scop.mrc-lmb.cam.ac.uk/scop//CATH蛋白质分类数据库http://www.biochem.ucl.ac.uk/bsm/cath/Pfam蛋白质家族和结构域/蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR〔ProteinInformationResource〕除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。PIR提供三种类型的检索效劳:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。三个子数据库2、SWISS-PROT

SWISS-PROT(〕是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:〔1〕从核酸数据库经过翻译推导而来;〔2〕从蛋白质数据库PIR挑选出适宜的数据;〔3〕从科学文献中摘录;〔4〕研究人员直接提交的蛋白质序列数据SWISS-PROT有三个明显的特点:〔1〕注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息〔蛋白质生物来源的描述〕注释包括:〔A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。〔2〕最小冗余尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,那么在相应序列特征表中加以注释。〔3〕与其它数据库的连接

对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。TrEMBL(://)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个局部:〔1〕SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。〔2〕REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这局部数据都没有登录号。3、TrEMBL4、PROSITEPROSITE(:///)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。包括:

Swiss-ProtTrEMBLPIR

用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。5、蛋白质数据仓库UniProtUniProt包含3个局部:〔1〕UniProtKnowledgebase〔UniProt〕蛋白质序列、功能、分类、交叉引用等信息存取中心〔2〕UniProtNon-redundantReference〔UniRef〕数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;〔3〕UniProtArchive〔UniParc〕资源库,记录所有蛋白质序列的历史。结构数据库蛋白质结构数据库PDB

蛋白质分类数据库SCOP和CATHPDB〔ProteinDataBank〕PDB中含有通过实验〔X射线晶体衍射,核磁共振NMR〕测定的生物大分子的三维结构蛋白质核酸糖类其它复合物://PDBContentGrowth

蛋白质结构数据库PDB中不同种类数据统计引自://网页RCSB(美国)结构生物信息学合作研究组织(ResearchCollaborationforStructuralBioinformatics)://PDBHoldingsList:27-Sep-2005显示分子结构〔RasMol,ChemView〕MMDB(MolecularModelingDatabase)分子模型MMDB是〔NCBI〕所开发的生物信息数据库集成系统Entrez的一个局部,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB实用工具蛋白质结构分类数据库SCOP(StructuralClassificationofProteins)CATH(Class,Architecture,Topology,Homology)分类层次SCOP

CATHROOT(根)

CLASS(类)CLASS(类)

ARCCHITECTURE(构架)FOLD(折叠)

TOPOLOGY(拓扑结构)SUPERFAMILY(超家族)

HOMOLOGY(同源性)FAMILY(家族)PROTEIN(蛋白)SPECIES(种)蛋白质结构分类数据库SCOPSCOP数据库(〕的目标是提供关于结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:(1)家族:具有明显的进化关系(2)超家族:具有远源进化关系,具有共同的进化源(3)折叠类:主要结构相似//://://基因组数据库〔GDB〕人类基因组方案所得到的图谱数据目前GDB包含对下述三种对象的描述:〔1〕人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;〔2〕人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;〔3〕人类基因组中的变化,

包括基因突变和基因多态性,加上等位基因频率数据。与染色体相关的信息基因组数据库GDB

人类基因组数据库AceDB

线虫(Caenorhabditiselegans)基因组数据库:///其它模式生物基因组数据库如:鼠基因组数据库MGD〔〕酵母基因组数据库SGD〔://genome-/〕Ensembl(〕3、人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性〔SNP〕、重复序列等Ensembl数据库结构图Ensembl提供多种查询方式

通过关键字查询用BLAST进行相似序列的搜索

另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组人的第9号染色体及大鼠对应的染色体片段其它生物分子数据库核酸序列变化单碱基多态性SNPs〔Singlenucleotidepolymorphisms〕SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。单碱基多态性数据库dbSNP〔:///SNP/),表达序列标记数据库dbESTEST〔ExpressedSequenceTags〕方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。DbEST(〕是GenBank的一个局部,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。WEB页面或emailFTP有关EST的数据dbEST数据库序列标记位点数据库dbSTSSTS〔SequenceTaggedSites〕是序列标记位点dbSTS〔〕是NCBI的一个数据源,包含基因组短标记序列〔STS〕的组成和定位信息。可以通过BLAST搜索STS序列。面向基因聚类数据库UniGeneUniGene(:///)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。蛋白质二级结构数据库DSSPDSSP〔/〕是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及外表。蛋白质同源序列比对数据库HSSPHSSP(/〕二级数据库。数据来源于PDB,或来源于SWISS-PROT对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列比照排列起来,从而将相似序列的蛋白质聚集成结构同源的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。FromPDBFromSwiss-prot多重序列比对结构→未知结构OMIMOMIM(OnlineMendelianInheritanceinMan),是关于人类基因和遗传疾病的分类数据库。该数据库收集了的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文://:80/entrez/query.fcgi?db=OMIMEPDEPD(/)是真核基因启动子数据库 提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。TRRDTRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构-功能特性TRRD6.0包括七个相关的数据表:〔1〕基因描述表TRRDGENES〔2〕控制区域表TRRDLCR〔3〕调控区域表T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论