




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1995年,流感嗜血杆菌的基因组DNA信息被破解,它具有1738个ORF,其中包含1473个具有重要功能的基因。人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6500个基因被测序出来,这是第一个完成测序的真核生物完整基因组;从1980年代中期开始的线虫基因组测序工作,于1998年完成,这是人类获得了第一个多细胞生物的基因组,了解到它含有19100个基因,并发现其中的1/3基因与哺乳动物的相似;2000年,果蝇的基因组信息被破解,它有13600个基因。通过基因序列比对,发现289个与人类疾病有关的基因中的60%在果蝇中找到了相近的匹配序列。
2、这意味着果蝇将是一种很好的研究人类疾病的模式生物;2000年,拟南芥的基因组DNA被测序出来,它有1.16亿个碱基对,编码大约26000个基因。2002年,由中国科学家主持并完成了水稻基因组测序任务,研究结果表明水稻基因组仅有约4.4亿碱基对,编码32000个基因。启动于1990年的人类基因组计划,到2003年其99.9%的人类基因组序列都被精确地绘图。在获得了如此多的核酸信息后,包括蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等蛋白质信息也可以随之获得。面对如此大量的信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多
3、重要的、未知的信息。随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。在此背景下,生物信息学应运而生。该学科应用数学的和计算机的科学方法来处理海量的生物学数据并进行计算和分析。主要工作包括生物学信息的采集、储存、分析处理和可视化等方面。第一章 生物分子数据库如今,生物信息学已成为生命科学最为活跃的研究领域之一。而数据库是生物信息学重要的工作平台,是其基本构成之一。各种各样的生物学数据库不断出现,其数量增长十分迅速,同时数据库的内部结构亦日趋复
4、杂。Nucleic Acid Research杂志每年第一期都公布互联网上最新的生物学数据库资源,2013年最新公布的数据库有1512个,在/nar/database/a/有所有数据库的链接。相比以前,现在数据库的类型更加丰富,专业性更强,几乎覆盖了生命科学的各个领域。生物信息学领域的数据库种类如此繁多,分别面向生命科学研究各领域的不同需要,其中包括直接来源于实验原始数据的一级数据库,也包括对原始生物分子数据进行整理、分类的二级数据库。想要把所有数据库一一介绍给读者是不现实的,因此,本章选取其中最基本的一些数据库进行较为详尽的介绍,使读者
5、对生物信息学领域最基本的数据库有较为清晰的认识。在本章的最后再以表格的形式简要的介绍一些常用数据库,以此作为补充。第一节 核酸序列数据库一、Genbank /EMBL /DDBJ目前国际上有3个主要的DNA序列公共数据库,它们分别是美国生物技术信息中心的GenBank(/Genbank/GenbankOverview.html),欧洲分子生物学实验室的EMBL(http:/www.embl.de/)和日本遗传研究所的DDBJ(http:/www.ddbj.nig.ac.jp/)。这3个大型数据库于1988年达成协议,组成合作联合体(Inter
6、national Nucleotide Sequence Database Col1aboration),它们之间每天交换信息。因此,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。下面以NCBI的GenBank为例进行说明。1982年美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)、美国国家生物技术信息中心(NCBI)等机构开始建立核酸序列数据库即GenBank,它是一个公共数据库,提供所有公开发表的核酸和蛋白质序列及其生物学注释以及书目文献等信息。GenBank数据库自建立以后,其数据量就表现出高速增长态势。1985年,基因库仅有570
7、0条记录,其中绝大多数记录来自于生物学文献。而到2013年2月为止,其收录的序列数已经超过1.6亿条,包含1500亿以上的碱基。另外,Genbank自2002年四月开始收录基因组数据信息以来,到目前为止其基因组序列也已经超过1亿条。相信随着生命科学技术的进步和基因组测序的不断进行,其数据规模还会飞速增长(如图1.1)。图1.1 Genbank数据容量的增长(WGS,Whole Genome Shotgun sequences data)(一)Genbank子库Genbank中包含了如此多的数据信息,为了方便检索GenBank数据库又分成若干子库。这样首先可以把数据库查询限定在某一特定部分,以便
8、加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HTG)、表达序列标记(EST)、序列标记位点(STS)和基因组测序序列(GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。表 1.1 GenBank各个子库名称及含义子库名称英文含义中文含义PRIprimate sequences人类、灵长类序列RODrodent sequences啮齿类动物序列MAMother mammalian sequences其它哺乳动物序列VRTother verteb
9、rate sequences其它脊椎动物序列INVinvertebrate sequences无脊椎动物序列PLNplant, fungal, and algal sequences植物、真菌、藻类序列BCTbacterial sequences细菌序列VRLviral sequences病毒序列PHGbacteriophage sequences噬菌体序列SYNsynthetic sequences合成产物序列UNAunannotated sequences未分类 / 未注释序列ESTEST sequences表达序列标记PATpatent sequences专利序列STSSTS seque
10、nces序列标记位点GSSGSS sequences基因组测序序列HTGHTG sequences高通量基因组序列HTCunfinished HTC sequences未完成高通量基因组序列ENVenvironmental sampling sequences环境样品序列(二)数据库记录格式为了有效使用GenBank数据库,有必要了解其数据记录格式,GenBank的基本数据单位是序列条目,包括核酸碱基排列顺序和注释两部分。序列条目由字段组成,每字段的起始位置有一个标识字,该标识字为一个单词,表明该字段内容的具体含义,后面是相关的具体内容。有些字段还会被分为若干次字段。整个序列条目表述以双斜杠“
11、/”结束。标识字含义如表 1.2所示,GenBank记录格式如图 1.2所示。需要说明的是,DDBJ的数据记录格式与GenBank一样,但EMBL的格式有所不同,其用两个字母来表示标识字,具体可参见http:/www.ebi.ac.uk/embl/index.html。 表 1.2 GenBank记录标识字GenBank标识字含义LOCUS序列名称DEFINATION序列简单说明ACCESSION序列编号VERSION序列版本号KEYWORDS关键词SOURCE来源物种ORGANISM来源物种分类学位置REFERENCE相关文献编号或递交序列的注册信息AUTHORS相关文献作者或递交序列的作者
12、TITLE相关文献题目JOURNAL相关文献刊物名或递交序列的作者单位MEDLINE相关文献Medline引文编号REMARK相关文献注释COMMENT序列的注释信息FEATURES序列特征表BASE COUNT碱基统计ORIGIN序列(三)数据的访问用户可以通过以下几条途径使用Genbank:1.通过Entrez Nucleotides来查询。用accession number,作者姓名,物种,基因/蛋白名称,还有许多其他的文本术语来查询(/Entrez/,图1.3)。2.用BLAST在GenBank和其他数据库中进行序列相似搜索(http
13、://BLAST,图1.4)。3.可以用FTP下载整个的GenBank或更新数据,最终实现本地应用()。图1.2 GenBank记录格式图1.3 NCBI的Entrez检索图1.4 NCBI的BLAST检索二、 RefSeqNCBI RefSeq (美国国立生物技术信息中心参考序列库) 是目前世界上最具有权威性的序列数据库。该数据库是一个经过校正的非冗余的DNA、RNA和protein的数据集合。该数据库明确地按照中心法则将核酸序列和蛋白质序列关联起来,并以转录本为单位组织相关的mRNA和protein序列和注释
14、等重要信息。RefSeq与GenBank有所不同,它是建立在GenBank的基础之上,并加入了文献中存在的但不会提交到GenBank中的其它一些信息,因此RefSeq是一个二级数据库。由于一些序列来自异常连接产生的转录物或由计算机推演产生的不正确内含子-外显子剪切,因此该数据库所收集的参考序列一直在不断地被修改中,尽管如此,NCBI RefSeq仍是目前最可信赖的人类基因mRNA序列数据库。 与GenBank不同,RefSeq采用独特的登录号格式,其一般的命名方式为:前缀为两个字母(表1.3),然后下横线“_”,最后是数字。另外,RefSeq数据的获取方式与GenBank基本相同相同。表1.3
15、 RefSeq登陆格式及其含义登录号格式中文含义AC_xxxxxx基因组序列,主要是病毒、原核生物AP_xxxxxx蛋白序列,AP_原本只用于细菌的蛋白NC_xxxxxx全基因组序列,包括细胞器的、质粒等NG_xxxxxx不完整的基因组序列NM_xxxxxx成熟的mRNANP_xxxxxx全长蛋白序列。但也有可能包括非全长的蛋白或成熟的多肽序列NR_xxxxxx不编码的RNANT_xxxxxxBAC法或鸟枪法得到的基因组序列NW_xxxxxxBAC法或鸟枪法得到的基因组序列NZ_ABCDxxxxxx“ABCD”基因组计划的全基因组序列XM_xxxxxx转录序列XP_xxxxxx蛋白序列XR_x
16、xxxxx不编码的转录序列YP_xxxxxx蛋白序列,没有对应的转录序列。用于细菌、病毒和线粒体ZP_xxxxxx蛋白序列。来自对应的NZ_开头的核酸序列。三、基因组数据库基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心、以及和医学、生物学、农业等有关的研究机构和大学。比较著名的基因组数据库包括Genbank的基因组数据库、UCSC基因组数据库,GenoList和Ensembl等。下面以UCSC基因组数据库和Ensembl为例进行介绍。(一)UCSCUCSC基因组数据库主页为/
17、。目前,UCSC提供了大量生物基因组的参考序列和草图汇编。另外,其提供的序列信息不仅有最新版本的基因组数据,同时也提供许多较早的汇编。为方便用户进行检索,UCSC提供了基因组浏览器,该浏览器的http地址为/cgi-bin/hgGateway。在使用时先在窗口上方搜索栏中选择相应的组别(包括哺乳动物,脊椎动物,后口动物,昆虫线虫及其它类),然后在“genome”栏点击相应的生物。UCSC的基因组浏览器还提供不同的数据汇编版本以供选择。最后,在“search term”栏可以输入需要检索的基因组位置,基因符号等检索信息,最后点击“submit”提交检索信
18、息。图1.5中显示的基因组位置含义为人类第21号染色体3303159733041570之间的碱基序列。在该结果中处在相应区域内的所有基因,SNP位点mRNA,EST等信信全部可以显示出来。用户还可以根据自己需要对局部区域进行缩放。图1.6 UCSC基因组浏览器检索结果(二)EnsemblEnsembl数据库提供了多种脊椎动物和其他真核生物的基因组信息。其检索界面较为简洁,首先选择相应的物种,然后再输入检索信息即可(/index.html)。可输入的检索信息包括基因名称,染色体区段或一些感兴趣的字段(图1.7)。其检索结果如图1.8所示:图1.7 En
19、sembl数据库的检索界面图1.8 Ensembl数据库的结果第二节 蛋白质序列数据库对生物学家而言,蛋白质序列数据库已成为至关重要的数据资源,是其科研工作的必备工具之一。目前蛋白质序列数据库有很多,如Swiss-Prot,TrEMBL,NRDB(nr),GenPept,PIR-PSD, PIR-NREF,NRL-3D,EXProt等等。众多数据库的存在,使得选用哪个数据库进行检索才能得到最好的结果成为一个问题。UniProt(Universal Protein Resource)蛋白质序列数据库的出现,为研究者提供了一个高度集成的平台,目前已得到了广泛的认可。UniProt 是一个集中收录蛋
20、白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。UniProt 于2002年由欧洲生物信息学研究所(European Bioinformatics Institute,EBI)、美国蛋白质信息资源(Prontein Information Resource,PIR)以及瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)等机构共同组成。旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库。UniProt 数据库由核心数据库和支持数据库
21、构成,其核心数据库包括三个子数据库:一是UniProt 知识库(UniProt Knowledgebase ,UniProtKB),它涵盖大量人工注释的蛋白质信息,包括功能、分类以及数据库的交叉索引等;二是UniProt 参考资料库(Sequence clusters, UniRef),为加快检索速度,UniRef将相近的序列整合为单个记录;三是UniProt 档案(Sequence Archive ,UniParc),其中记录了最完整的信息,反映了所有蛋白质序列的历史。支持数据库也由许多子库组成,用户可自行参见UniProt主页中相关信息(/)。一、
22、UniProt知识库(UniProtKB)UniProt 知识库是UniProt数据库最核心的分支,它可以通过与其它资源进行交互查找的方式为用户提供一个有关目的蛋白质的全面的综合信息。UniProtKB包括两个组成部分:UniProtKB/Swiss-Prot与UniProtKB/TrEMBL。(一)UniProtKB/Swiss-Prot UniProtKB/Swiss-Prot是蛋白质序列数据库,目前由瑞士生物信息学研究所(SIB)和欧洲生物信息学研究所(EBI)共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,ExP
23、ASy)的Web服务器除了开发和维护UniProtKB/Swiss-Prot数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。到2013年2月6日,UniProtKB/Swiss-Prot已经包含539165条蛋白质序列条目,由从216632篇参考文献中抽取的191456931个氨基酸残基组成。其序列数量从2003-2010年经历了一个快速上升期,但2010年后序列数量的增长有回落的趋势(图1.9)。图1.9 UniProtKB/Swiss-Prot中序列数目增长情况UniProtKB/Swiss-Prot主要收录人工注释的序列及其相关文献信息和经过计算机辅
24、助分析的序列。其数据质量由注释专家的人工校验和管理人员的有效管理来保证,准确性无需置疑。UniProtKB/Swiss-Prot数据分段进行描述,每段前面都会有一标题。例如Names and origin (名称和来源)、Protein attributes (蛋白属性)、Sequence annotation (序列注释)、References (参考文献)等。其中在General annotation部分给出了蛋白质及其功能的相当全面的注释,包括对蛋白质功能、酶学特性、具有生物学意义的相关结构域及位点、翻译后修饰情况、亚细胞定位、组织特异性、发育阶段特异性、结构、相互作用、剪接异构体、相关
25、疾病信息的注释等等(图1.10)。图1.10 UniProtKB/Swiss-Prot数据中的General annotation部分UniProtKB/SwissProt 数据中的“Sequences”部分比较有特色,在该部分内容里集成了一些蛋白质分析工具,包括比对分析,等电点/分子量分析,肽质量指纹分析,疏水性分析等,可以对蛋白质进行简要的分析(图1.11)。另外,UniProtKB/Swiss-Prot中还有一类重要的数据在Cross reference中描述,它给出了该蛋白质序列在其它数据库中相关条目的交叉引用标识码。比如,图1.12中给出了XB15蛋白在各数据库中相关条目的标识码。通
26、过它们,可交叉链接到相关的数据库中察看信息。图1.11 UniProtKB/Swiss-Prot数据中的Sequences部分图1.12 UniProtKB/Swiss-Prot数据中的Cross-references部分(二) UniProtKB/TrEMBLUniProtKB/TrEMBL收录的是高质量的经计算机分析后进行自动注释和分类的序列,于1996年创建并增补到UniProtKB/Swiss-Prot数据库中,采用与UniProtKB/Swiss-Prot相同的数据格式。 UniProtKB/TrEMBL 收录了所有EMBL/GenBank/DDBJ核酸序列数据库中的编码序列的翻译后
27、蛋白质序列和文献中以及提交到UniProt的、但未被整合到UniProtKB/Swiss-Prot中的蛋白质序列数据。 因此,其数据量要远大于UniProtKB/Swiss-Prot。根据最新的公布数据,UniProtKB/TrEMBL包含29769971条蛋白质序列条目,由9585856378个残基组成。与UniProtKB/Swiss-Prot不同,UniProtKB/TrEMBL中的数据量一直保持高速增长(图1.13)。图1.13 UniProtKB/TrEMBL中序列数目增长情况TrEMBL的最主要贡献是使得DBJ/EMBL/GenBank核苷酸数据库中CDS编码区的翻译序列(氨基酸序
28、列)得到迅速发布。当然,由于采用计算机自动翻译和注释,因此序列错误率较大,具有较大的冗余度,注释信息的质量难以与Swiss-Prot相比。(三)UniProtKB的数据检索及FTP下载EBI和UniProt均提供UniProtKB数据的检索,其数据检索页面网址分别为:http:/www.ebi.ac.uk/uniprot/search/SearchTools.html和/。用户可以根据自己的使用习惯进行选择。另外,用户还可以将UniProtKB数据的内容进行FTP下载后本地使用,其下载地址如表1.4所示。表1.4 UniProtKB数据的FTP下载地址
29、服务机构网址EBIftp:/ftp.ebi.ac.uk/pub/databases/uniprot/knowledgebaseftp:/ftp.ebi.ac.uk/pub/databases/uniprot/current_release/knowledgebase/completeExPASy/databases/uniprot/knowledgebase/databases/uniprot/current_release/knowledgebase/completeUniProt
30、/pub/databases/uniprot/knowledgebase/pub/databases/uniprot/current_release/knowledgebase/complete二、UniProt档案(UniParc)UniParc是关于蛋白质序列的全面数据库,它储存了大量的蛋白质序列资源,涵盖了世界范围内大部分的公开可用的蛋白质序列。同一个蛋白质可能存在于不同的数据库中,在同一个数据库中也可能存在多个副本。UniParc避免这样的冗余存储,在其数据库中每个独特的序列只存储一次,并给它一个独特的标识符(UPI)。另外,UniParc会跟踪
31、源数据库中序列的变化并对其进行记录。因此UniParc不仅是储存序列的数据库,同时也是最全面的能反映所有蛋白质序列历史的数据库。UniParc收录了不同数据库来源的所有的最新蛋白质序列和修订过的蛋白质序列,因此可以保证数据收录的全面性。UniParc数据库收录的资源包括:EMBL-Bank/DDBJ/GenBank中核酸序列的翻译后序列,美国、欧洲、韩国、日本专利局中的数据,UniProtKB数库据,NCBI的RefSeq数据库,模式生物数据库FlyBase和WormBase,Ensembl数据库中真核生物基因组数据,H-邀请数据库,酵母基因组数据库,蛋白质研究基金会数据库,拟南芥信息资源数据
32、库, 蛋白质数据库,脊椎动物基因组注释数据库,IPI数据库,PIR-PSD和TROME。 为了避免出现冗余数据,UniParc将所有完全一样的序列都合并成了一条记录,而不论这些数据是否来自同一物种。UniParc还会收录每天最新的数据和修改过的数据,并交叉参考这些数据,及时对UniParc中的数据做出修订。UniParc中每一条记录包含的基本信息包括标识符、序列、循环冗余校验码、来源数据库中的检索号、版本号、时间印记等。如果UniParc中的记录没有收录在 UniProtKB 中,那么这个基因可能是假基因。此外,除了给出每一条记录在来源数据库中的检索号之外还会给出这条记录在来源数据库中的状态,
33、例如是仍然存在或者是已经被删除,另外,也会给出NCBI 中的GI号和TaxId号。UniParc中的记录都是没有注释的,因为蛋白质只有在指定的条件下才能够进行注释。例如,序列完全相同的蛋白质如果属于不同的物种、组织或不同的发育阶段,其功能都有可能完全不同。三、UniProt参考资料库(UniRef)UniProt参考资料库可以通过序列同一性对最相近的序列进行归并,以加快搜索速度。UniRef对来自UniProtKB的各种数据包括各种剪接变异体进行了分类汇总,还从UniParc中选取了一些数据以求能完整的、没有遗漏的收录所有数据,同时也保证没有冗余数据,该数据库的同一性(identity)分为三
34、个级别:100%、90%和50%。UniRef里的数据是按照级别来分类的,在 UniRef 数据库的每一个同一性级别中,每一条序列只会属于其中的一个聚类,这条序列在其它的同一性级别中也只会有一条父集(parent cluster)序列和子集(child cluster)序列。UniRef 100数据库将相同的序列数据和亚片段数据整合在一起,使用一个检索入口进行检索。UniRef 90数据库建立在UniRef 100数据库的基础之上,而UniRef 50数据库又是以UniRef 90为基础。UniRef 100、UniRef 90和UniRef 50这三个数据库的数据量分别减少10 %、 40
35、%和70 %。每一个聚类记录都包含下列信息:数据来源、蛋白质名称、分类学信息(但只会举一个蛋白质为代表)、聚类下条目数等。其中,UniRef100是目前最全面的非冗余蛋白质序列数据库。UniRef90和UniRef50数据量有所减少是为了能更快地进行序列相似性搜索以减少结果的误差。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB的更新而同步更新的。第三节 生物大分子结构数据库除了前面提到的序列数据库和基因组数据库外,生物大分子三维空间结构数据库则是另一类重要的分子生物信息
36、数据库。众所周知,DNA序列中所携带的遗传信息主要通过蛋白质来表现出来。蛋白质分子各种功能的行使,离不开蛋白质的空间结构的正确折叠。因此,蛋白质空间结构数据库是生物大分子结构数据库的重要组成部分。蛋白质结构数据库是随X-射线晶体衍射分子结构测定技术的现而出现的数据库,其基本内容为实验测定的蛋白质分子空间结构原子坐标。90年代以来,越来越多的蛋白质分子结构被测定,蛋白质结构分类的研究不断深入,出现了蛋白质家族、折叠模式、结构域、回环等数据库。一、PDB早在序列数据库诞生之前的70年代,蛋白质结构数据库(Protein Data Bank,PDB)就已经问世。PDB数据库原来由美国Brookhav
37、en国家实验室负责维护和管理。为适应结构基因组和生物信息学研究的需要,1998年,由美国国家科学基金委员会、能源部和卫生研究院资助,成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformatics,RCSB)。PDB数据库改由RCSB管理,目前主要成员为Rutger大学、圣地亚哥超级计算中心(San Diego Supercomputer Center,SDSC)和国家标准化研究所(National Institutes of Standards and Technology,NIST)。和核酸序列数据库一样,可以通过网络直
38、接向PDB数据库递交数据。其主页地址为:/pdb/home/home.do。PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类和其它复合物的三维结构。随着晶体衍射技术的不断改进,结构测定的速度和精度也逐步提高。90 年代以来,多维核磁共振溶液构象测定方法的成熟,使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。截止到2013年2月底,PDB数据库中已经存放了8万8千多套结构数据,其中将近8万2千套数据为蛋白质结构,DNA和RNA结构各月1千套。近年来
39、,随着技术的不断进步,PDB数据库中的数据信息呈现快速增长态势,其中2000-2005年间数据信息共增加了17806套,随后的五年该数量则增长了近一倍,达到33358套。而从2010年至今数据信息已经增加了26378套。PDB数据库的检索非常简单,在其主页有搜索选项,可以输入PDB ID,作者,分子名称,还可以通过序列进行搜索(图1.14)。PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外,还包括物种来源、化合物名称、结构提交者以及有关文献等基本注释信息。此外,还给出分辨率、结构因子,温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结
40、构有关的数据。PDB数据库以文本文件格式存放,可以用文字编辑软件查看。显然,用文字编辑软件查看注释信息不太方便,更无法直观地了解分子的空间结构。英国伦敦大学开发的PDBsum数据库是基于网络的PDB注释信息综合数据库(http:/www.ebi.ac.uk/pdbsum/inde),用于对PDB数据库的检索,使用十分方便,只要输入PDB中的ID号就可以检索到相应的信息。并将RasMol、CN3D等分子图形软件综合在一起,同时具有分析和图形显示功能(图1.15)。必须指出的是,与EMBL和PIR等序列数据库一样,结构数据库PDB也属于一次数据库,其中包括许多冗余的数据,乃至错误。PDBCheck
41、合作研究组对PDB数据库进行了全面的检验,并把结果存放在PDBReport数据库中(http:/swift.cmbi.ru.nl/gv/pdbreport/),用户在使用PDB数据库中的某个文件时,可先查阅该数据库。图1.14 PDB检索界面图1.15 PDBsum数据库二、MMDB(Molecular Modeling Database)分子模型数据库(MMDB)是由NCBI中所开发的生物信息数据库集成系统Entrez的一个部分(/structure?db=structure,图1.16)。数据库的内容是关于三维生物分子结构的,这些结果主要
42、来源于X-ray 晶体衍射和NMR 色谱分析。该数据库实际上来源于生物大分子PDB数据库,是PDB数据库部分内容的一个编辑版本。MMDB 重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。MMDB运用标准的“残基词典”,其中记录了以氨基酸、核酸复合体形式存在、具有末端多样性的分子中所有原子和化学键的信息。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,另外还包括生物大分子之间关系的信息。MMDB采用ASN.1的记录格式,而非PDB格式。MMDB 的记录可以用Cn3D来显示其三维结构模型,利
43、用VASTsearch进行结构分析和结构比较。图1.16 MMDB数据库检索界面第四节 其它生物分子数据库本章前三节介绍的是一些关于核酸蛋白质及其结构分子信息的基本数据库,而目前国际上还有很多实用的数据库,下面就利用表格对其进行简要介绍(表1.5)。用户可以根据需求选择使用。更多数据库信息请检索/nar/database/a/。表1.5 常用生物分子数据库数据库网址简要说明UniProt提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等
44、,同时提供其他数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接。PIR提供及时的、高质量、最广泛的注释,其下的数据库有iProClass、PIRSF、PIR-PSD、PIR-NREF、UniPort,与90多个生物数据库(蛋白家族、蛋白质功能、蛋白质网络、蛋白质互作、基因组等数据库)存在着交叉引用。BRENDA酶数据库,提供酶的分类、命名法、生化反应、专一性、结构、细胞定位、提取方法、文献、应用与改造及相关疾病的数据。CORUMhttp:/mips.g
45、sf.de/genre/proj/corum/index.html哺乳动物蛋白复合物数据库,提供的数据包括蛋白复合物名称、亚基、功能、相关文献等IUPHAR-DBG蛋白偶联受体、离子通道数据库。提供这些蛋白的基因、功能、结构、配体、表达图谱、信号转导机制、多样性等数据。DB-PABP/DB_PABP聚阴离子结合蛋白数据库。聚阴离子结合蛋白与聚阴离子的互作在胞内定位、运输、蛋白质折叠等生命过程中起重要作用,此外许多与神经衰退疾病相关的蛋白质均为聚阴离子结合蛋白。该数据库提供已被鉴定的聚阴离子结合蛋白的数据,与
46、NCBI蛋白数据库存在交叉应用。GLIDAhttp:/pharminfo.pharm.kyoto-u.ac.jp/services/glidaG蛋白偶联受体-配体数据库,提供G蛋白偶联受体-配体互作数据、配体数据、G蛋白偶联受体数据、同源受体关系网、保守识别区,为新药发现提供了支持。LOCATE.au哺乳动物蛋白质亚细胞定位数据库InterProhttp:/www.ebi.ac.uk/interpro蛋白质综合数据库,从大量的数据库中整合而成的包括蛋白质结构域、蛋白质家族、功能位点等信息的数据库。SWISS-2DPAGEhttp:/www.expa
47、/ch2d提供人类、小鼠、大肠杆菌、酿酒酵母、盘基网柄菌的2D-PAGE参考图。SysPIMP通过质谱技术建立的蛋白质突变数据库。当蛋白质某一氨基酸残基发生改变时,其质谱图也会发生改变,通过蛋白质质谱图的改变,检测与疾病相关的突变。Sys-BodyFluid/bodyfluid人体体液蛋白组研究数据库。提供人体各种体液的蛋白质组数据,包括血浆/血清、尿液、乳汁、泪、汗液、唾液、骨髓液、脑脊液、胃液等。BloodExpresshttp:/hscl.cimr.cam.ac.uk/bloodexpre
48、ss小鼠造血过程基因表达数据库CentrosomeDBhttp:/centrosome.dacya.ucm.es人体中心体蛋白数据库ConsensusPathDBhttp:/cpdb.molgen.mpg.de人类功能作用网络数据库,与多个数据库有交叉应用,提供蛋白质互作、生化反应、基因调控等作用网数据。NOPdbNOPdb3.0核仁蛋白组数据库HPRD人体蛋白文献数据库EndoNethttp:/endonet.bioinf.med.uni-goettingen.de细胞通讯网络数据库,提供激素、激素受体相关信息3DIDhttp:/3did.irbbarce
49、搜集3D结构已知的蛋白质的互作信息,可通过结构域名称、基序名称、蛋白质序列、GO编码、PDB ID、Pfam编码进行检索。DOMINE/cgi-bin/Domine结构域互作数据库。Binding MOAD提供蛋白质-配体晶体结构数据信息。提供结构已知的蛋白质的相关配体,并附有详细注释,同时提供由实验而得的亲和力数据。Phospho.ELM蛋白质磷酸化位点数据库SuperSitehttp:/bioinformatics.charit
50、e.de/supersite蛋白质中代谢物、药物结合位点数据库,提供结合机制、识别机制、保守结合位点等信息。STITCHhttp:/stitch.embl.de蛋白质-化合物作用网数据库Reactome人体生命活动路径与过程数据库,提供生化过程网络图,并对参与其中的蛋白质分子有详细注解,与其他数据库如UniPort、KEGG、OMIM等建立了广泛的交叉应用。PID由NCI和Nature共同创立,提供已知的人体细胞信号转导、调节活动及主要细胞生命过的蛋白质路径网,可通过输入某个分子名或代谢过程名称进行查询。Un
51、iHI人体蛋白-蛋白相互作用数据库,可根据蛋白质名称、代谢路径等进行查询。VirHostNethttp:/pbildb1.univ-lyon1.fr/virhostnet/index.php病毒-宿主分子互作网数据库,提供病毒-宿主蛋白质互作信息及这些蛋白质的相关注释。可通过输入基因、蛋白质、路径等关键词进行查询。Bionemoio.es搜集与生物降解代谢相关的蛋白质、基因数据,包括蛋白质序列、结构域、结构;基因序列、调控元件、转录单元等信息。除此之外还包括生物降解的代谢路径图、相关生化反应等。PMAP蛋白
52、质水解路径数据库PDB/pdb生物大分子结构数据库,提供蛋白质、核酸等生物大分子的三维结构数据、序列详细信息、生化性质等。SARST.tw/高效的蛋白质结构比对数据库CDD/Structure/cdd/cdd.shtml蛋白质保守结构域数据库,收集了大量保守结构域序列信息和蛋白质序列信息。Blocks蛋白家族保守区对比数据库CPDB.tw/cpdb蛋白质环形序列重组
53、基序数据库。MegaMotifbasehttp:/caps.ncbs.res.in/MegaMotifbase/index.html蛋白质基序家族、超家族数据库,提供已知基序的3D定位图、转角距等数据。Minimotif Miner蛋白质基序检测数据库,提供在蛋白质序列中寻找基序的服务。Pfamhttp:/www.sanger.ac.uk/Software/Pfam提供多序列比对服务和并提供共同的蛋白质结构域的隐马尔可夫模型。InterPreTShttp:/www.russell.embl.de/cgi-bin/interprets2提供通过三级结构预测蛋白质相互作用的服务,可输入两个蛋白质的序列信息进行查询。Predictome预测蛋白质间功能关系的数据库。这些蛋白质间的关系是基于将3种计算机预测法,即染色体相邻法、系统发育谱法、结构域融合法应用与44个基因组上而得到的。DPInteract/dpinteract/DNA和蛋白质相互作用数据库。rrnDB/index.php原核生物核糖体RNA操纵子拷贝变异数据库,提供与原核生物基因组中rRNA操纵子的拷贝数的相关信息。Gl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论