生物信息数据库综述_第1页
生物信息数据库综述_第2页
生物信息数据库综述_第3页
生物信息数据库综述_第4页
生物信息数据库综述_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章生物信息数据库1、模式生物2、数据库第二节数据库一、引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

生物信息数据库几个明显的特征:(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置

分子生物信息数据库种类繁多。归纳起来,大体可以分为4个大类,即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库,以及由上述3类数据库和文献资料为基础构建的二次数据库。通常分法:序列数据库结构数据库生物信息学数据库工具生物信息数据库染色体核酸蛋白质基因组图谱DNA序列蛋白质序列蛋白质结构基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库二级数据库复合数据库基因组作图序列测定结构测定国际著名的生物信息中心NCBINationalCenterforBiotechnologyInformation(US)EBI

EuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK)ExPASy

ExpertofProteinAnalysisSystem(Switzerland)CMBI

CentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIG

NationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore)国内生物信息资源北大生物信息中心

中科院上海生物信息中心华大基因国家人类基因组北方研究中心博奥芯片序列数据库

--核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL

http://www.embl-heidelberg.de

(2)美国生物技术信息中心的GenBank/Web/Genbank/index.html

(3)日本遗传研究所的DDBJ

http://www.ddbj.nig.ac.jp/GenBankDDBJEMBL

三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。美国的核酸数据库GenBank〖Banson,D.A.etal.(1998)NucleicAcidsRes.26,1-7〗从1979年开始建设,1982年正式运行;NCBI下子数据库

欧洲分子生物学实验室的EMBL数据库也于1982年开始服务日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。一、GenBank数据库GenBank(/genbank/)是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。

GenBank是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressedsequencetag,EST)、基因组测序序列(genomesurveysequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase,EMBL)和日本的DNA数据库(DNADataBankofJapanDDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。在NCBI(/)的主页上提供了进入GenBank的路径、相关检索和分析服务。通过NCBI的检索系统(Entrez)可以进入GenBank。Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务。

(一)GenBank数据库结构1.依据序列的物种来源分类2.Genbank记录和分类2.1表达序列标签(EST)2.2序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV)2.3高通量基因组(HTG)和高通量cDNA(HTC)序列2.4全基因组鸟枪测序序列(WGS)2.5转录组鸟枪组合序列(一)GenBank数据库结构3.特殊记录类型3.1第三方注释(TPA)3.2GenBankCON记录较小记录组合记录(二)构建数据库1.直接电子提交1.1使用BankIt提交1.2使用Sequin和tbl2asn提交1.3条形码序列提交2.序列标识符和记录号(三)检索GenBank数据1.Entrez系统(/sites/gquery)2.与测序计划检索相关的序列记录(//genomeprj)3.BLAST序列相似性搜索(/Blast.cgi)4.用FTP获取GenBank(/genbank)二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http://www.edi.ac.uk/embl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。三、DDBJ数据库日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。四、其他重要的核酸序列数据库dbEST:dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。ncRNAdb:非编码RNA(non-codingRNAncRNA)数据库旨在提供非编码RNA的序列和功能信息。miRBase:miRBase序列数据库主要存放已发表的微小RNA(microRNAmiRNA)序列和注释的数据库。序列数据库

基因组数据库来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序

GDB(美国、加拿大)TheGenomeDatabase

1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱与其它分子生物信息网络资源(EMBL、GenBank…)的链接

AceDB

线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。

数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…序列数据库

蛋白质序列数据库

SWISS-PROT(欧洲)

PIR(美国)蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART等蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretixlinks信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等DNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质

SWISS-PROT

1.瑞士日内瓦大学(Geneva

)医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);

2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;

4.数据记录包括两部分:序列注释(结构域、功能位点、跨膜区域、二硫键位置、翻译后的修饰、突变体等)5.数据存在滞后性TrEMBL数据库的建立SWISS-PROT的网址:/sprotTrEMBL的网址:http://www.ebi.ac.uk/trembl/index.htmlSWISS-PROT(http://www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据

PIR(proteininformationresource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);

2.在EMBL和GenBank数据库上均建立了镜像站点;

3.数据依据注释的质量分为4类。

网址:/分类名称(Name)说明(Comment)记录数(Numberofentries)PIR1已分类、已注释(Classifiedandannotated)13572PIR2已注释(Annotated)69368PIR3未核实(Unverified)7508PIR4未翻译(Unencodedoruntranslated)196PIR数据库的分类情况(Release51.03)目的:

帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)除了蛋白质序列数据之外,PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;

(2)关于原始数据的参考文献;

(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;

(4)序列中相关的位点、功能区域。PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。四个子数据库Uniprot-通用蛋白质资源数据库iProClass-蛋白质知识整合数据库PIRSF-蛋白质家族分类系统iProLINK-蛋白质文献、信息和知识整合数据库1.UniProt-通用蛋白质资源库UniProt(/)

存储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。使用UniprotKB可以检索准确、可靠的蛋白综合信息。使用UniRef可以减少冗余,加速序列相似性搜索。使用UniParc可以检索存档序列和它们来源的数据库。2.iProClass-蛋白质知识整合数据库iProClass(/iproclass/)

提供来自90多个生物学数据库的大量整合数据,包括蛋白ID图谱服务、UniProtKB编注蛋白质摘要描述和筛选UnParc数据库的蛋白质序列。使用iProClass可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(ontology)、文献和分类学信息。使用iProClass还可以检索ID图谱、蛋白质词典和相关序列。3.PIRSF-蛋白质家族分类系统

PIRSF(/pirsf/)

分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、功能注释标准体系(ontology)和家族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。4.iProLINK-蛋白质文献、信息和知识整合数据库iProLINK(/iprolink/)

提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(ontology)。使用iProLINK可以获得描述蛋白质记录的文本文献资源,在UniProtKB记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(RLIMS-P)文献和获得蛋白质功能注释标准体系(ontology)(PRO)信息。结构数据库

PDB(proteindatabank)

1.目前最主要的蛋白质分子结构数据库;

2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(researchcollaboratoryforstructuralbiology)管理;

4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;

5.PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。PDB的网址:/pdb(美国)PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsumHEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHE

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论