版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学数据库生物信息学数据库1生物信息学数据库一:重要生物信息中心简介二:重要生物信息数据库
生物数据库序列数据库flatfile格式三:数据库检索工具简介
Entrez,SRS生物信息学数据库一:重要生物信息中心简介2一、生物信息数据库引言生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据
建立生物分子数据库
一、生物信息数据库引言生物分子数据分子生物学建立生物分子数据3生物分子数据库应满足5个方面的主要需求
(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性生物分子数据库应满足5个方面的主要需求
(1)时间性4生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快5生物分子数据库
一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的生物分子数据库6二、重要生物信息中心
BioinformaticsCentresNCBI
NationalCenterforBiotechnologyInformation(US)
/EBI EuropeanBioinformaticsInstitute(EU)
ebi.ac.uk/EMBnet
EuropeanMolecularBiologyNetwork
HGMPHumanGenomeMappingProjectResourceCentre(UK) hgmp.mrc.ac.uk二、重要生物信息中心
BioinformaticsCent7重要生物信息中心
BioinformaticsCentresExPASyExpertofProteinAnalysisSystem(Switzerland)expasy.ch/NIG NationalInstituteofGenetics(Japan) /EMBL
EuropeanMolecularBiologyLaboratory(Germany)
embl-heidelberg.de/重要生物信息中心
BioinformaticsCentre8NCBI
美国国家生物技术信息中心NCBI美国国家生物技术信息中心9//10生物信息学数据库课件11生物信息学数据库课件12生物信息学数据库课件13PubMedPubMed(/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。PubMedPubMed(/14生物信息学数据库课件15EMBL欧洲分子生物学实验室EMBL欧洲分子生物学实验室16生物信息学数据库课件17生物信息学数据库课件18生物信息学数据库课件19生物信息学数据库课件20欧洲分子生物学网络组织(EMBnet)
EuropeanMolecularBiologyNetworkEMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。欧洲分子生物学网络组织(EMBnet)
European21////22TheNationalnodes
TheNationalnodes
23DDBJ日本核酸数据库DDBJ日本核酸数据库24ddbj.nig.ac.jp/ddbj.nig.ac.jp/25ExPaSy瑞士蛋白质分析专家系统ExPaSy瑞士蛋白质分析专家系统26expasy.ch/expasy.ch/27expasy.ch/expasy.ch/28expasy.ch/expasy.ch/29hgmp.mrc.ac.uk/hgmp.mrc.ac.uk/30//31生物信息学数据库课件32//33//34三、重要生物信息数据库序列数据库(EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它(EPD、TRANSTAC)三、重要生物信息数据库序列数据库(EMBL,GENBANK,35生物信息学数据库课件36生物数据库的种类生物数据库的种类37DBCatDBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型,(infobiogen.fr/services/dbcat/)DBCatDBCat是生物信息数据库的目录数据库,它收集了538infobiogen.fr/services/dbcat/ftp://ftpbiogen.fr/pub/db/dbcat数据库目录(一)Dbcat统计的生物信息数据库的数目分类数据库数目分类数据库数目DNA87 RNA29蛋白质94基因组58基因图谱29蛋白质结构18文献43其他153Currenttotal:511infobiogen.fr/services/dbcat/数39/content/vo133/issue1//content/vo40序列数据库
核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库
蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库
GDB
ACeDB二次数据库
序列数据库41序列数据库主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR序列数据库主要核酸序列数据库:42核酸序列数据库国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL
embl-heidelberg.de
(2)美国生物技术信息中心的GenBank/Web/Genbank/index.html
(3)日本遗传研究所的DDBJ
ddbj.nig.ac.jp/核酸序列数据库国际上权威的核酸序列数据库43核酸序列数据库三个数据库中的数据基本一致,仅在数据格式上有所差别。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。核酸序列数据库三个数据库中的数据基本一致,仅在数据格式上有所44
美国的核酸数据库GenBank〖Banson,D.A.etal.(2019)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务
美国的核酸数据库GenBank〖Banson,D.A.e45InformationOverload从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。InformationOverload从那个时候以来,DN46蛋白质数据库数据库说明网址链接PDB蛋白质三维结构/pdbSWISS-PROT蛋白质序列数据库/sprot//PIR蛋白质序列数据库/OWL非冗余蛋白质序列www.bioinf.man.ac.uk/dbbrowser/OWL//EMBL核酸序列数据库embl-heidelberg.de/TrEMBLEMBL的翻译数据库/sprot//GenBANK核酸序列数据库/Genbank//蛋白质数据库数据库说明网址链接PDB蛋白质三维结构rcsb.47蛋白质数据库PROSITE蛋白质功能位点/prosite//SWISS-MODEL从序列模建结构http///swissmod/SWISS-MODEL.htmlSWISS-3DIMAGE三维结构图示/sw3d/DSSP蛋白质二级结构参数www.cmbi.kun.nl/gv/dssp//FSSP已知空间结构的蛋白质家族bioinfo.biocenter.helsinki.fiSCOP蛋白质分类数据库scop.mrc-lmb.cam.ac.uk/scop//CATH蛋白质分类数据库www.biochem.ucl.ac.uk/bsm/cath//Pfam蛋白质家族和结构域/蛋白质数据库PROSITE蛋白质功能位点kr.expasy.48蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIR49目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)目的:1、PIR(ProteinInformationR50除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。除了蛋白质序列数据之外,PIR还包含以下信息:51PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。PIR提供三种类型的检索服务:52三个子数据库三个子数据库532、SWISS-PROT
SWISS-PROT(expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点:2、SWISS-PROTSWISS-PROT(expas54(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。(1)注释55(2)最小冗余
尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。56TrEMBL(ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。3、TrEMBLTrEMBL(ebi.ac.uk/trembl/index574、PROSITEPROSITE(expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。4、PROSITEPROSITE(expasy.ch/p58包括:
Swiss-ProtTrEMBLPIR
用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。5、蛋白质数据仓库UniProt5、蛋白质数据仓库UniProt59UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;(3)UniProtArchive(UniParc)资源库,记录所有蛋白质序列的历史。生物信息学数据库课件60结构数据库蛋白质结构数据库PDB
蛋白质分类数据库SCOP和CATH结构数据库蛋白质结构数据库61PDB(ProteinDataBank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物
/pdbPDB(ProteinDataBank)62PDBContentGrowth
PDBContentGrowth63蛋白质结构数据库PDB中不同种类数据统计引自/pdb/holdings.html网页RCSB(美国)结构生物信息学合作研究组织(ResearchCollaborationforStructuralBioinformatics)PDBHoldingsList:27-Sep-2019蛋白质结构数据库PDB中不同种类数据统计引自64显示分子结构(RasMol,ChemView)显示分子结构(RasMol,ChemView)65MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB(MolecularModelingDataba66MMDB实用工具MMDB实用工具67蛋白质结构分类数据库SCOP(StructuralClassificationofProteins)CATH(Class,Architecture,Topology,Homology)蛋白质结构分类数据库SCOP(StructuralCla68分类层次SCOP
CATHROOT(根)
CLASS(类)CLASS(类)
ARCCHITECTURE(构架)FOLD(折叠)
TOPOLOGY(拓扑结构)SUPERFAMILY(超家族)
HOMOLOGY(同源性)FAMILY(家族)PROTEIN(蛋白)SPECIES(种)分类层次SCOP69蛋白质结构分类数据库SCOPSCOP数据库(scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:(1)家族:具有明显的进化关系(2)超家族:具有远源进化关系,具有共同的进化源(3)折叠类:主要结构相似蛋白质结构分类数据库SCOPSCOP数据库(scop.m70scop.mrc-lmb.cam.ac.uk/scop/scop.mrc-lmb.cam.ac.uk/scop/71scop.mrc-lmb.cam.ac.uk/scop/scop.mrc-lmb.cam.ac.uk/scop/72biochem.ucl.ac.uk/bsm/cath_new/index.htmlbiochem.ucl.ac.uk/bsm/cath_new73biochem.ucl.ac.uk/bsm/cath_new/index.htmlbiochem.ucl.ac.uk/bsm/cath_new74基因组数据库(GDB)
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:(1)人类基因组区域
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,
包括基因突变和基因多态性,加上等位基因频率数据。基因组数据库(GDB)人类基因组计划所得到的图谱数据目前75生物信息学数据库课件76与染色体相关的信息与染色体相关的信息77基因组数据库GDB
人类基因组数据库AceDB
线虫(Caenorhabditiselegans)基因组数据库基因组数据库GDB78//79其它模式生物基因组数据库如:鼠基因组数据库MGD(/)酵母基因组数据库SGD(/Saccharomyces/)其它模式生物基因组数据库80Ensembl(/)3、人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性(SNP)、重复序列等Ensembl(/)3、人类基因组数81Ensembl数据库结构图Ensembl数据库结构图82Ensembl提供多种查询方式
通过关键字查询用BLAST进行相似序列的搜索
另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组Ensembl提供多种查询方式83生物信息学数据库课件84人的第9号染色体及大鼠对应的染色体片段人的第9号染色体及大鼠对应的染色体片段85其它生物分子数据库核酸序列变化单碱基多态性SNPs(Singlenucleotidepolymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。单碱基多态性数据库dbSNP(/SNP/),
其它生物分子数据库核酸序列变化单碱基多态性数据库dbSNP(86表达序列标记数据库dbESTEST(ExpressedSequenceTags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。
DbEST(/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。
WEB页面或emailFTP有关EST的数据dbEST数据库表达序列标记数据库dbESTEST(ExpressedSe87序列标记位点数据库dbSTSSTS(SequenceTaggedSites)是序列标记位点dbSTS(/dbSTS/)是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定位信息。可以通过BLAST搜索STS序列。序列标记位点数据库dbSTSSTS(SequenceTag88面向基因聚类数据库UniGeneUniGene(/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。面向基因聚类数据库UniGeneUniGene(ncbi.89蛋白质二级结构数据库DSSPDSSP(sander.embl-heidelberg.de/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。蛋白质二级结构数据库DSSPDSSP(sander.embl90蛋白质同源序列比对数据库HSSPHSSP(sander.embl-heidelberg.de/hssp/)二级数据库。数据来源于PDB,或来源于SWISS-PROT对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白质聚集成结构同源的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。蛋白质同源序列比对数据库HSSPHSSP(sander.em91FromPDBFromSwiss-prot多重序列比对已知结构→未知结构FromPDBFromSwiss-prot多重序列比对92OMIMOMIM(OnlineMendelianInheritanceinMan),是关于人类基因和遗传疾病的分类数据库。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文:80/entrez/query.fcgi?db=OMIM
OMIMOMIM(OnlineMendelianInh93EPDEPD(epd.isb-sib.ch/)是真核基因启动子数据库 提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。EPDEPD(epd.isb-sib.ch/)94TRRDTRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构-功能特性TRRD6.0包括七个相关的数据表:(1)基因描述表TRRDGENES(2)控制区域表TRRDLCR(3)调控区域表TRRDUNITS(4)转录因子结合位点表TRRDSITES(5)转录因子表TRRDFACTORS(6)表达模式表TRRDEXP(7)实验来源表TRRDBIBTRRDTRRD是一个关于基因调控信息的集成数据库,该数据库95TRANSFACTRANSFAC(transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类TRANSFAC包括6类数据:(1)SITE类数据(2)GENE类数据(3)FACTOR类数据(4)CELL类数据(5)CLASS类数据(6)MATRIX数据
TRANSFACTRANSFAC(transfac.gbf96BODYMAPBODYMAP(bodymap.ims.u-tokyo.ac.jp/)是关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不同时刻。这里的基因表达数据实际上是3’端的EST。通过分析这些数据,用户可以初步掌握基因活性,了解组织中mRNA的组成,研究基因表达规律,发现新的基因。BODYMAPBODYMAP(bodymap.ims.u-97农业类数据库Gramene(/)禾谷类作物的比较图谱资源数据库包括基因组、EST序列、蛋白质结构和功能分析、遗传学和物理图谱、生物化学通路的阐述、表型特征和突变的QTL定位及描述。便于研究者用水稻基因组序列来鉴定和阐述禾谷类作物的相应基因、通路和表型。农业类数据库Gramene(/)98农业类数据库Soybase()包括大豆的遗传、表型及其他信息。可以查到大豆的各种遗传图谱和物理图谱,以及某些功能基因的信息。GrainGenes()美国农业部和国家农业图书馆的植物基因组计划支持的麦、燕麦和甘蔗遗传数据库。ArkDB()农业相关动物的基因组数据库。包含常见家畜,如:猪、牛、羊等物种的遗传图谱和物理图谱。农业类数据库Soybase(soybase.agron.ia99GDB/AceDB/GenBank/Web/GenbankEMBLebi.ac.uk/embl/DDBJddbj.nig.ac.jp/SwissProtexpasy.ch/sprot/PIR/PDB/pdb/SCOPscop.mrc-lmb.cam.ac.uk/scop/CATHbiochem.ucl.ac.uk/bsm/cath/重要数据库网址GDB/AceDB/GenB100生物信息学数据库生物信息学数据库101生物信息学数据库一:重要生物信息中心简介二:重要生物信息数据库
生物数据库序列数据库flatfile格式三:数据库检索工具简介
Entrez,SRS生物信息学数据库一:重要生物信息中心简介102一、生物信息数据库引言生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据
建立生物分子数据库
一、生物信息数据库引言生物分子数据分子生物学建立生物分子数据103生物分子数据库应满足5个方面的主要需求
(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性生物分子数据库应满足5个方面的主要需求
(1)时间性104生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快105生物分子数据库
一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释
二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的生物分子数据库106二、重要生物信息中心
BioinformaticsCentresNCBI
NationalCenterforBiotechnologyInformation(US)
/EBI EuropeanBioinformaticsInstitute(EU)
ebi.ac.uk/EMBnet
EuropeanMolecularBiologyNetwork
HGMPHumanGenomeMappingProjectResourceCentre(UK) hgmp.mrc.ac.uk二、重要生物信息中心
BioinformaticsCent107重要生物信息中心
BioinformaticsCentresExPASyExpertofProteinAnalysisSystem(Switzerland)expasy.ch/NIG NationalInstituteofGenetics(Japan) /EMBL
EuropeanMolecularBiologyLaboratory(Germany)
embl-heidelberg.de/重要生物信息中心
BioinformaticsCentre108NCBI
美国国家生物技术信息中心NCBI美国国家生物技术信息中心109//110生物信息学数据库课件111生物信息学数据库课件112生物信息学数据库课件113PubMedPubMed(/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。PubMedPubMed(/114生物信息学数据库课件115EMBL欧洲分子生物学实验室EMBL欧洲分子生物学实验室116生物信息学数据库课件117生物信息学数据库课件118生物信息学数据库课件119生物信息学数据库课件120欧洲分子生物学网络组织(EMBnet)
EuropeanMolecularBiologyNetworkEMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。欧洲分子生物学网络组织(EMBnet)
European121////122TheNationalnodes
TheNationalnodes
123DDBJ日本核酸数据库DDBJ日本核酸数据库124ddbj.nig.ac.jp/ddbj.nig.ac.jp/125ExPaSy瑞士蛋白质分析专家系统ExPaSy瑞士蛋白质分析专家系统126expasy.ch/expasy.ch/127expasy.ch/expasy.ch/128expasy.ch/expasy.ch/129hgmp.mrc.ac.uk/hgmp.mrc.ac.uk/130//131生物信息学数据库课件132//133//134三、重要生物信息数据库序列数据库(EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它(EPD、TRANSTAC)三、重要生物信息数据库序列数据库(EMBL,GENBANK,135生物信息学数据库课件136生物数据库的种类生物数据库的种类137DBCatDBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型,(infobiogen.fr/services/dbcat/)DBCatDBCat是生物信息数据库的目录数据库,它收集了5138infobiogen.fr/services/dbcat/ftp://ftpbiogen.fr/pub/db/dbcat数据库目录(一)Dbcat统计的生物信息数据库的数目分类数据库数目分类数据库数目DNA87 RNA29蛋白质94基因组58基因图谱29蛋白质结构18文献43其他153Currenttotal:511infobiogen.fr/services/dbcat/数139/content/vo133/issue1//content/vo140序列数据库
核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库
蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库
GDB
ACeDB二次数据库
序列数据库141序列数据库主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR序列数据库主要核酸序列数据库:142核酸序列数据库国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL
embl-heidelberg.de
(2)美国生物技术信息中心的GenBank/Web/Genbank/index.html
(3)日本遗传研究所的DDBJ
ddbj.nig.ac.jp/核酸序列数据库国际上权威的核酸序列数据库143核酸序列数据库三个数据库中的数据基本一致,仅在数据格式上有所差别。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。核酸序列数据库三个数据库中的数据基本一致,仅在数据格式上有所144
美国的核酸数据库GenBank〖Banson,D.A.etal.(2019)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务
美国的核酸数据库GenBank〖Banson,D.A.e145InformationOverload从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。InformationOverload从那个时候以来,DN146蛋白质数据库数据库说明网址链接PDB蛋白质三维结构/pdbSWISS-PROT蛋白质序列数据库/sprot//PIR蛋白质序列数据库/OWL非冗余蛋白质序列www.bioinf.man.ac.uk/dbbrowser/OWL//EMBL核酸序列数据库embl-heidelberg.de/TrEMBLEMBL的翻译数据库/sprot//GenBANK核酸序列数据库/Genbank//蛋白质数据库数据库说明网址链接PDB蛋白质三维结构rcsb.147蛋白质数据库PROSITE蛋白质功能位点/prosite//SWISS-MODEL从序列模建结构http///swissmod/SWISS-MODEL.htmlSWISS-3DIMAGE三维结构图示/sw3d/DSSP蛋白质二级结构参数www.cmbi.kun.nl/gv/dssp//FSSP已知空间结构的蛋白质家族bioinfo.biocenter.helsinki.fiSCOP蛋白质分类数据库scop.mrc-lmb.cam.ac.uk/scop//CATH蛋白质分类数据库www.biochem.ucl.ac.uk/bsm/cath//Pfam蛋白质家族和结构域/蛋白质数据库PROSITE蛋白质功能位点kr.expasy.148蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNCBI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIR149目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)目的:1、PIR(ProteinInformationR150除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。除了蛋白质序列数据之外,PIR还包含以下信息:151PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。PIR提供三种类型的检索服务:152三个子数据库三个子数据库1532、SWISS-PROT
SWISS-PROT(expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点:2、SWISS-PROTSWISS-PROT(expas154(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。(1)注释155(2)最小冗余
尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。现有的交叉索引有:到EMBL核酸序列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。(2)最小冗余尽量将相关的数据归并,降低数据库的冗余程度。156TrEMBL(ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。(2)REM-TrEMBL(REMainingTrEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。3、TrEMBLTrEMBL(ebi.ac.uk/trembl/index1574、PROSITEPROSITE(expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。4、PROSITEPROSITE(expasy.ch/p158包括:
Swiss-ProtTrEMBLPIR
用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。5、蛋白质数据仓库UniProt5、蛋白质数据仓库UniProt159UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;(3)UniProtArchive(UniParc)资源库,记录所有蛋白质序列的历史。生物信息学数据库课件160结构数据库蛋白质结构数据库PDB
蛋白质分类数据库SCOP和CATH结构数据库蛋白质结构数据库161PDB(ProteinDataBank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物
/pdbPDB(ProteinDataBank)162PDBContentGrowth
PDBContentGrowth163蛋白质结构数据库PDB中不同种类数据统计引自/pdb/holdings.html网页RCSB(美国)结构生物信息学合作研究组织(ResearchCollaborationforStructuralBioinformatics)PDBHoldingsList:27-Sep-2019蛋白质结构数据库PDB中不同种类数据统计引自164显示分子结构(RasMol,ChemView)显示分子结构(RasMol,ChemView)165MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB(MolecularModelingDataba166MMDB实用工具MMDB实用工具167蛋白质结构分类数据库SCOP(StructuralClassificationofProteins)CATH(Class,Architecture,Topology,Homology)蛋白质结构分类数据库SCOP(StructuralCla168分类层次SCOP
CATHROOT(根)
CLASS(类)CLASS(类)
ARCCHITECTURE(构架)FOLD(折叠)
TOPOLOGY(拓扑结构)SUPERFAMILY(超家族)
HOMOLOGY(同源性)FAMILY(家族)PROTEIN(蛋白)SPECIES(种)分类层次SCOP169蛋白质结构分类数据库SCOPSCOP数据库(scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:(1)家族:具有明显的进化关系(2)超家族:具有远源进化关系,具有共同的进化源(3)折叠类:主要结构相似蛋白质结构分类数据库SCOPSCOP数据库(scop.m170scop.mrc-lmb.cam.ac.uk/scop/scop.mrc-lmb.cam.ac.uk/scop/171scop.mrc-lmb.cam.ac.uk/scop/scop.mrc-lmb.cam.ac.uk/scop/172biochem.ucl.ac.uk/bsm/cath_new/index.htmlbiochem.ucl.ac.uk/bsm/cath_new173biochem.ucl.ac.uk/bsm/cath_new/index.htmlbiochem.ucl.ac.uk/bsm/cath_new174基因组数据库(GDB)
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:(1)人类基因组区域
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,
包括基因突变和基因多态性,加上等位基因频率数据。基因组数据库(GDB)人类基因组计划所得到的图谱数据目前175生物信息学数据库课件176与染色体相关的信息与染色体相关的信息177基因组数据库GDB
人类基因组数据库AceDB
线虫(Caenorhabditiselegans)基因组数据库基因组数据库GDB178//179其它模式生物基因组数据库如:鼠基因组数据库MGD(/)酵母基因组数据库SGD(/Saccharomyces/)其它模式生物基因组数据库180Ensembl(/)3、人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性(SNP)、重复序列等Ensembl(/)3、人类基因组数181Ensembl数据库结构图Ensembl数据库结构图182Ensembl提供多种查询方式
通过关键字查询用BLAST进行相似序列的搜索
另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组Ensembl提供多种查询方式183生物信息学数据库课件184人的第9号染色体及大鼠对应的染色体片段人的第9号染色体及大鼠对应的染色体片段185其它生物分子数据库核酸序列变化单碱基多态性SNPs(Singlenucleotidepolymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。单碱基多态性数据库dbSNP(/SNP/),
其它生物分子数据库核酸序列变化单碱基多态性数据库dbSNP(186表达序列标记数据库dbESTEST(ExpressedSequenceTags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。
DbEST(/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。
WEB页面或emailFTP有关EST的数据dbEST数据库表达序列标记数据库dbESTEST(ExpressedSe187序列标记位点数据库dbSTSSTS(SequenceTaggedSites)是序列标记位点dbSTS(/dbSTS/)是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年玉树客运上岗证模拟考试题库
- 2024年锦州小型客运从业资格证2024年考试题
- 2024年江苏道路旅客运输从业资格证模拟试题
- 2024年白山客运资格证模拟考试题
- 2024年驾校客运资格证考试题库
- 2024年沈阳考取客运资格证需要什么条件
- 2024年陇南办理客运从业资格证2024年试题
- 六年级上整本书阅读《爱的教育》推进课教学设计
- 挖排水沟注意事项是什么
- 全省道路客运班线公交化车辆运营服务及安全管理规范(试行)
- 2024年6月2日《证券投资顾问》真题卷(79题)
- 招投标咨询合同文本
- 2025年中考语文复习之文言文阅读
- 2024统编版(2024)道德与法治小学一年级上册教学设计(附目录)
- 2.2 直线的方程(分层练习)(解析版)
- 《保密法》培训课件
- 北京市2024-2025学年高三上学期第二次普通高中学业水平合格性考试英语试卷 含解析
- 2024版《中医基础理论经络》课件完整版
- 2024年全球 二次元移动游戏市场研究报告-点点数据
- 第6课《我们神圣的国土》第1课时(教学设计)-部编版道德与法治五年级上册
- 绵阳市高中2022级(2025届)高三第一次诊断性考试(一诊)物理试卷(含标准答案)
评论
0/150
提交评论