生物信息数据库类型_第1页
生物信息数据库类型_第2页
生物信息数据库类型_第3页
生物信息数据库类型_第4页
生物信息数据库类型_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章生物信息数据库数据库的类型11:412第一节引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

序列数据库结构数据库基因组数据库一次数据库DNA序列蛋白质序列蛋白质结构人类基因组以及其它生物基因组生物信息学数据库数据库管理系统Oracle/sybase大型计算机服务器大容量磁盘空间序列数据库结构数据库基因组数据库二次数据库文献数据库专家生物信息学数据库11:415生物分子数据库应满足5个方面的主要需求(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性11:416生物分子数据库几个明显的特征(1)数据库的更新速度不断加快数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置11:417生物分子数据库

一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释

二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。11:418第二节核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL

http://www.embl-heidelberg.de

(2)美国生物技术信息中心的GenBank/Web/Genbank/index.html

(3)日本遗传研究所的DDBJ

http://www.ddbj.nig.ac.jp/1、核酸序列数据库1988,由此三家组成了国际核酸序列数据库协作组织(INSDC),规定:数据交换与共享(每24小时进行一次),使用统一的数据记录格式处理提交数据,以保证各数据库相应记录在内容上的一致性,数据的维护与更新。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。GenBank:/Genbank/EMBL

http://www.embl-heidelberg.deDDBJ

http://www.ddbj.nig.ac.jp/

22November2010

Totalnucleotides:301,588,430,60822November2010Numberofentries:199,575,97111:411611:4117“ID”为序列的标识符行,包括登录号、类型,分子的长度

“AC”为登录号行;“XX”为分隔符号行;

“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)FeatureKey,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“//”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识

EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)11:4118使用EMBL(1)CD-ROM形式(2)ftp服务器(3)Gopher服务器(4)WWW服务器这是目前最常用的一种形式

11:4119EMBL提供一些与序列相关的检索操作(基于3W服务器)(1)序列查询最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。(2)核酸同源性搜索3W服务器支持用户使用FastA程序进行核酸同源搜索。FastA根据给定的目标序列在数据库中搜索其同源序列。11:4120基因组数据库(GDB)人类基因组数据库Ensembl表达序列标记数据库dbEST面向基因聚类数据库UniGene11:41212、基因组数据库(GDB)

人类基因组计划所得到的图谱数据

目前GDB包含对下述三种对象的描述:(1)人类基因组区域

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;

(2)人类基因组图谱,

包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,

包括基因突变和基因多态性,加上等位基因频率数据。11:4122与染色体相关的信息11:4123其它模式生物基因组数据库如:鼠基因组数据库MGD(/)酵母基因组数据库SGD(/Saccharomyces/)11:4124Ensembl(/)3、人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性(SNP)、重复序列等11:4125Ensembl数据库结构图11:4126Ensembl提供多种查询方式

通过关键字查询用BLAST进行相似序列的搜索

另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组11:412711:4128人的第9号染色体及大鼠对应的染色体片段11:41294、表达序列标记数据库dbESTEST(ExpressedSequenceTags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。

DbEST(/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。

WEB页面或emailFTP有关EST的数据dbEST数据库11:41305、面向基因聚类数据库UniGeneUniGene(/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。11:4131第三节蛋白质序列数据库目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。1、PIR(ProteinInformationResource)11:4132除了蛋白质序列数据之外,PIR还包含以下信息:

(1)蛋白质名称、蛋白质的分类、蛋白质的来源;

(2)关于原始数据的参考文献;

(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;

(4)序列中相关的位点、功能区域。11:4133PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。11:4134三个子数据库11:41352、SWISS-PROT

SWISS-PROT(http://www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据

11:4136

(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:

(A)蛋白质的功能描述;

(B)翻译后修饰;

(C)域和功能位点;

(D)蛋白质的二级结构;

(E)蛋白质的四级结构;

(F)与其它蛋白质的相似性;

(G)由于缺乏该蛋白质而引起的疾病;

(H)序列的矛盾、变化等。SWISS-PROT有三个明显的特点:(2)最小冗余(3)与其它数据库的连接11:413711:413811:4139

提交序列数据(a)编辑电子表格(b)利用Authorin程序(c)WWW服务器使用SWISS-PROT(a)CD-ROM形式(b)ftp服务器(c)Gopher服务器(d)WWW服务器(SRS)与序列相关的操作(a)序列查询(b)搜索同源蛋白质序列 11:4140TrEMBL(http://www.ebi.ac.uk/trembl/index.html)包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROTTrEMBL)(2)REM-TrEMBL(REMainingTrEMBL)3、TrEMBL11:4141第四节生物大分子结构数据库1、PDB(ProteinDataBank)蛋白质核酸糖类其它复合物

一种是显式序列信息(explicitsequence)一种是隐式序列信息(implicitsequence)11:4142CurrentHoldingDataSubmitDataKeywordSearchIntroductiontoselectedmolecularData11:4143DownloadDataPDBFileFormatRelatedSoftware11:4144HEADERHYDROLASE19-FEB-971ADZTITLETHESOLUTIONSTRUCTUREOFTHESECONDKUNITZDOMAINOFTITLE2TISSUEFACTORPATHWAYINHIBITOR,NMR,30STRUCTURESCOMPNDMOL_ID:1;COMPND2MOLECULE:TISSUEFACTORPATHWAYINHIBITOR;。。。。。。COMPND8BIOLOGICAL_UNIT:MONOMERSOURCEMOL_ID:1;。。。。。。SOURCE7EXPRESSION_SYSTEM_PLASMID:PFLAGKEYWDSHYDROLASE,INHIBITOR,COAGULATIONEXPDTANMR,30STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONSREVDAT125-FEB-981ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VANDERDOELEN,。。。。。。REMARK1REFERENCE1REMARK1AUTHM.T.STUBBSIIREMARK1TITLSTRUCTURALASPECTSOFFACTORXAINHIBITION。。。。。。REMARK999SEQUENCEREMARK9991ADZSWSP106461-111NOTINATOMSLISTREMARK9991ADZSWSP10646183-304NOTINATOMSLISTREMARK999THEFIRSTNINERESIDUESARENOTPARTOFTHETFPIDOMAINIIREMARK999SEQUENCEBUTAREFROMTHEPFLAGPEPTIDECLONINGVECTOR.DBREF1ADZ171SWSP10646TFPI_HUMAN112182SEQADV1ADZASP1SWSP10646ILE112ENGINEEREDSEQADV1ADZTYR2SWSP10646ILE113ENGINEEREDSEQRES171ASPTYRLYSASPASPASPASPLYSLEULYSPROASPPHESEQRES271CYSPHELEUGLUGLUASPPROGLYILECYSARGGLYTYRSEQRES371ILETHRARGTYRPHETYRASNASNGLNTHRLYSGLNCYSSEQRES471GLUARGPHELYSTYRGLYGLYCYSLEUGLYASNMETASNSEQRES571ASNPHEGLUTHRLEUGLUGLUCYSLYSASNILECYSGLUSEQRES671ASPGLYPROASNGLYPHEHELIX11ASP12PHE1554HELIX22ASN34THR3653HELIX33LEU57ILE6317SHEET1A2ARG29ASN330SHEET2A2GLN38PHE42-1NPHE42OARG29CRYST11.0001.0001.00090.0090.0090.00P11ORIGX11.0000000.0000000.0000000.00000ORIGX20.0000001.0000000.0000000.00000ORIGX30.0000000.0000001.0000000.00000SCALE11.0000000.0000000.0000000.00000SCALE20.0000001.0000000.0000000.00000SCALE30.0000000.0000001.0000000.00000

图4.5PDB文件PDB文件示意11:4145显示分子结构(RasMol,ChemView)11:41462、MMDB(MolecularModelingDatabase)分子模型MMDB是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。11:4147MMDB实用工具11:4148第五节其它生物分子数据库单碱基多态性数据库dbSNP蛋白质结构分类数据库SCOP蛋白质二级结构数据库DSSP蛋白质同源序列比对数据库HSSP人类基因和遗传疾病的分类数据库OMIM11:4149真核基因启动子数据库EPD基因调控信息的集成数据库TRRD真核基因顺式调控元件和反式作用因子数据库TRANSFAC人和老鼠基因表达信息数据库BODYMAP蛋白质家族和结构域数据库PROSITE京都基因和基因组百科全书生物信息数据库的目录数据库DBCat生物学、医学文献引用数据库PubMed11:4150核酸序列变化单碱基多态性SNPs(Singlenucleotidepolymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。1、单碱基多态性数据库dbSNP(/SNP/),11:4151单倍型数据11:41522、蛋白质结构分类数据库SCOPSCOP数据库(http://scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:(1)家族:具有明显的进化关系

(2)超家族:具有远源进化关系,具有共同的进化源

(3)折叠类:主要结构相似11:415311:41543、蛋白质二级结构数据库DSSPDSSP(http://www.sander.embl-heidelberg.de/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。研究蛋白质序列与蛋白质二级结构及空间结构的关系除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。11:4155TheDSSPcodeH=alphahelixB=residueinisolatedbeta-bridgeE=extendedstrand,participatesinbetaladderG=3-helix(3/10helix)I=5helix(pihelix)T=hydrogenbondedturnS=bend例:11:41564、蛋白质同源序列比对数据库HSSPHSSP(http://www.sander.embl-heidelberg.de/hssp/)二级数据库。数据来源于PDB,或来源于SWISS-PROT对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白质聚集成结构同源的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。11:4157FromPDBFromSwiss-prot多重序列比对已知结构→未知结构11:41585、OMIMOMIM(OnlineMendelianInheritanceinMan),是关于人类基因和遗传疾病的分类数据库。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文:80/entrez/query.fcgi?db=OMIM

11:4159浏览染色体11:41606、EPDEPD(http://www.epd.isb-sib.ch/)是真核基因启动子数据库 提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。11:41617、TRRDTRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构-功能特性TRRD6.0包括七个相关的数据表:(1)基因描述表TRRDGENES(2)控制区域表TRRDLCR(3)调控区域表TRRDUNITS(4)转录因子结合位点表TRRDSITES(5)转录因子表TRRDFACTORS(6)表达模式表TRRDEXP(7)实验来源表TRRDBIB11:41628、TRANSFACTRANSFAC(http://transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类TRANSFAC包括6类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论