版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第四章生物分子数据库国际上已建立起许多公共生物分子数据库,包括图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。这些数据库由专门的机构建立和管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究最大限度地满足他们研究和应用的需要,为生物信息学研究服务。,他们负责收集、组织、提供大量有用的信息,第一节 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究迅速获得实验数据的要求。生物分子信息分析已经成为分子生物学研究必备的法。如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的
2、数据则是生物信息学的实验材料。数据库及其相关的信息学研究和应用的重要基础,也是分子生物学研究必备的工具。从数据库使用的角度来看,公共生物分子数据库应满足以下 5 个方面的主要需求:是生物(1)时间性对于新网。的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连(2)(3)注释支撑数据对于每一个基本数据(如序列),应附加一致的、次的辅助说明信息。在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供原始数据的方法。数据库中应包含原始数据,或者能够通过交叉索引据。实验数据库中的原始数(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和意见
3、。(5)集三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的的信息。、蛋白质序列、蛋白质结构,甚至得到蛋白质功能分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如 DNA 序列与蛋白质序列之间的联系,调控信息与表达数据之间的联系。因而实验数据之间就必然存在着关联,一个方面的相关数据可能会影响或促进另一个方面的研究工作。现有的各类数据库已经成为分子生物学各方面交叉研究
4、的桥梁。一般而言,生物分子数据库可以分为一级数据库和二级数据库。一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。生物分子数据库目前的发展状况有几个明显的特征:(1)生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量呈指数增长趋势。例如,核酸序列数据的年增长幅度为 100%。数据库使用频率增长更快。据统计,数据库的平均使用频率每年增长幅度为接近 500%。(2)(3)数据库的复杂程度不断增加(等. 1999)。数据库中除了基本数据之外,
5、还包括大量注释、参考文献等信息,例如在 SWISS-PROT 数据库中注释项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、相关疾病、序列等。(4)数据库网络化。几乎所有的数据库都可以在国际互联网问,并且公共数据库之间相互链接,使用户可以迅速得到大量的相关生物分子信息。有的系统则将多个生物分子数据库整合在一起,形成集成的数据库系统。面向应用。首先,各个数据库服务器除了提供数据之外,还提供许多分析工具,如核酸数据(5)库提供的序列搜索、识别程序等,生物大分子结构数据库提供的结构比较程序、结构模拟程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的
6、二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。(6) 先进的软硬件配置。从计算机硬件上来看,许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件上(如并行机)运行服务程序。而在系统方面,使用大型数据库管理系统,面象的数据库管理方法正在逐步取代旧的模式,数据库服务广泛采用服务器客户式结构。第二节 核酸序列数据库1、EMBL/Genb/ DDBJ核酸序列是了解生物体结构、功能、发育的出发点。国际上的核酸序列数据库有三个,分),别是欧洲分子生物学的EMBL(Stoesser et al., 2001;生 物 技 术 信 息 中 心 的GenB(
7、Benson遗传etal.,2001 ;)的DDBJ (Satoru, 2001;)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的 DNA 和 RNA 序列数据库,其数据来源于众多的研究机构和核酸式将核酸序列数据提交给这三个数据库系统(Tu小组,来源于科学文献。用户可以通过各种方t al., 1996)。数据库中的每条代表一个单独、连续、附有注释的 DNA 或 RN段。由于 DNA能力的极大提高,DNA 序列增长的速度也非常快,图 4.1 是上述三个数据库中近几年数据量的统计,这反应了 DNA 序列数据迅速
8、增长的趋势。图 4.1 核酸序列数据的增长趋势(纵轴代表总的核酸序列长度,:百万 bp)下面着重介绍 EMBL 数据库。EMBL 是最早的 DNA 序列数据库,于 1982 年建立。目前 EMBL 数据库按照每年 100%的速率增长。截止 2000 年 3 月底,EMBL 数据库中的核酸序列总长度达 70 亿个碱基,覆盖 2/3 的人类组序列。对于每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。而到 2001 年 8 月,数据中总的记录数达到 12,958,750 条,总的数据量近 140 亿 bp,数据的分类情况见图 4.2
9、。随着分子生物学技术的不断发展,数据的增长速度将会不断地提高。EMBL 的数据来源主要有两条途径。一是由序列发现者直接提交。几乎所有的国际生物学刊物都要求作者在文章之前将所测定的序列提交给EMBL、GenB或DDBJ,得到数据库管理系统所签发的登录号。二是从生物医学期刊上收录已经的序列资料。EMBL 核酸数据库由关系数据库管理系统(RDBMS)ORACLE 来,在 DEC alpha VMS 系统下运行,数据库中的每一个序列数据被赋予一个登录号,它是一个性的唯一标识。EMBL 的序列数据用外在的ASCII 文本文件来表示(见图 4.3),而每一个文件分为文件头和文件体两大部分。文件头由一系列的
10、信息描述行所组成,描述信息有序列的标示符,序列的功能,种属,参考文献等。每一行的起始位置有一个标志,该标志由两个字母组成,标志后面是相关的正文信息。“ID”为序列的标识符行,包括登录号、类型、分子的长度;“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和Other Vertebrateses Unclassified Synthetic STSRodents Prokaryotes Plants Bacteriophage Patentsanelles Other mammals Invertebrates HumanHTG HTC GSSsFungi ESTs012345图 4.2M
11、BL 中的数据分类情况(:Gigabases)(EST-Expressed sequence tags; STS-sequence tagged sites)(取自)更新日期行;“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”、“RP”、“RA”、“RT”、“RL”、“RC”分别描述参考文献的、页码、作者、题目、参考文献出处和注解;“RX”、“DR”行描述交叉开始符号;“FT”为特征表行。与 DNA 序列直接相关的信息或与特定域(信息;“FH” 为特征)相关的信息组织在特性表中,即FT 行。特定域的类型包括:执行
12、生物学功能,影响生物功能表达,与其它分子相互作用,影响序列,不同序列重组,重复的结构单元,具有特定的二级结构或空间结构,序列变异等。FT 行具体的信息有:序列的长度、序列来自于何种生物体、何种组织、在上的定位、蛋白质编码序列片段在整个序列中的位置、外显子和内含子的位置、与对应的蛋白质序列等。FT行主要有三项:(1)Feature Key,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息。文件头实际上对应于一个序列的注释(anno的行开始。序列结束的标记是“/”。ion)。文件体由序列本身所组成,由“SQ”标志
13、用户可以通过下面三种方式将有关的序列数据提交给 EMBL。编辑电子表格用任何正文编辑工具编辑固定格式的提交表格。编辑任务比较复杂,也容易出错,特别是对于没有经验的用户。另外,由于没有实时的数据校验,用户当时不能得到错误信息的反馈。利用Authorin 程序Authorin 是欧洲生物信息学(EBI)提供的一个交互的序列输入程序,它帮助用户填写提交表格,该程序可在Macosh 和IBM 兼容机上运行。Authorin 与用户交互,并进行数据有效性的检查。它最后根据用户的输入形成一个特定格式的文本文件,作为结果提交给 EMBL。(3)利用基于WWW 网络环境的序列提交系统这是一种基于ernet 网
14、 3W 服务器的序列数据提交系统,它使用户提交序列数据的过程更直接、容易、简便。对于用户端的要求是安装 3W 浏览器。这个系统具有很大的优点。首先,与单机输入程序相比,用户不必每次从 EBI 取回高版本的程序,用户总是使用服务器上版本的序列输入程序。第二,如果用户机器上已经安装了标准的 3W 客户端程序,则用户不必再花时间、精力和磁盘空间去安装单机输入程序。第三,由于直接和数据库所在的服务器相连,用户可以直接使用数据库资源,如查看数据库中已有的序列,查看期刊、作者等信息,以避免重复工作。每一个序列数据都能保证有较高的质量,在放入数据库之前,它们被仔细地,如果必要,直接与序列的提交者,澄清有关。
15、用户可以通过以下几条途径使用 EMBL。(1)CD-ROM 形式IDAB000888standard; RNA; HUM; 937 BP. XXACAB000888; XXNId1164607 XXDT07-OCT-1997 (Rel. 52, Created)DT07-OCT-1997 (Rel. 52, Last updated, Ver1)XXDEHomo sapiens mRNA for phosphatidic acid phosphatase 2a, complete DEcds.XXKWphosphatidic acid phosphatase 2a. XXOSHomo sapi
16、ens (human)OCEukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata; OCMammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN1RP1-937RAKai M.;RT;RLSubmitted (05-FEB-1997) to the EMBL/GenB/DDBJ databases.RLMasahiro Kai, Sapporo Medicaiversity, Department of Biochemistry; RLSouth-
17、1, West-17, Chuo-ku, Sapporo 060, Japan ( HYPERLINK mailto:kaisapmed.ac.jp :kaisapmed.ac.jp, RL:)XXRN2RAKai M., Wada I., Imai S., Sakane F., Kanoh H.;RTCloning and characterization of two human isozymes of Mg2+ independent RT phosphatidic acid phosphatases;RLJ. Biol. Chem. 272:24572-24578(1997). XXF
18、HKeyLocation/Qualifiers FHFTsource1.937FT/anism=Homo sapiensFT/sequenced_mol=cDNA to mRNAFT/cell_line=HepG2FTCDS48.902FT/codon_start=1FT/db_xref=:d1023461FT/note=similar to DDBJ AcNumber D84376 : mouseFTPAP-2FT/transl_table=1FT/translation=MFDKTRLPYVALDVLCVLLAGLPFDESIFTKYPYKEDTIPYALLGGIIIPLLHSNSFIRN
19、NYIATIYKAIGTFTFLFGAAASQSIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEGFTRLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYKFTHHWSDVLTGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTTLHETPTTGNHYPSNFTHQPFT/product=phosphatidic acid phosphatase 2a XXSQSequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other;AB
20、000888accgcagctcagtccatcgcccttgccgggcagcccgggcagagaccatgttcgacaaga cgcggctgccgtacgtggccctcgatgtgctctgcgtgttgctggctggattgccttttgatgcggatttcttcaaagaaagaacttcttttaaagaaagaaaagaggaggactctc aactctgcatgaaacaccaacaactgggaatcacccgagcaatcaccagccttgaaaggcagcagggtgcccaggtgaagctggcctgtt/图 4.3 EMBL 核酸数据库每个条目的文件格
21、式EMBL 数据库随时更新,但 CD-ROM 每隔三个月发布一个据,包括序列数据、相关的索引文件以及信息检索程序。的版本。CD-ROM 上包含了所有的数对用户计算机系统的要求是至少配置一个 CD-ROM 驱动器,但最好配置两个 CD-ROM 驱动器。如果仅有一个CD-ROM 驱动器,则系统要求有 150Mb 的空闲硬盘空间。ftp 服务器用户可以通过ftp 协议Gopher 服务器EBI,并相关的数据库及各种程序。用户也可以EBI 的Gopher 服务器,进而核酸序列数据库及相关程序,也可以通过 Gopher服务器EBI 的ftp 服务器。(4)WWW 服务器上述三种方式目前很少使用,通过 3
22、W 服务器EMBL 是目前最常用的一种形式,用户可以直接通过本地计算机上的 3W 浏览器查询 EMBL 的有关数据,并将所需要的数据取回。查询时,用户根据自己的要求,按照服务程序的提示填写查询条件,并将查询条件通过ernet 发送给 EMBL 的服务器。服务程序根据用户的查询条件搜索数据库,然后将满足查询条件的有关核酸序列数据传送给用户。下面所介绍的操作都是基于这种环境的。EMBL 提供一些与序列相关的检索操作:(1)序列查询最简单的查询就是通过序列的登录号(如 X58929)或序列名称(如SCARGC)直接查询。虽然这种方式需要用户事先知道登录项的标识,但这确实是从数据库取得序列的最快方式。
23、如果找到所查询的序列,则服务器将查询结果以 HTML 文件返回给用户。如果数据库中该序列有到 MEDLINE 的交叉索引,则系统同时返回与包含参考文献摘要等信息的 MEDLINE。如果该序列有到其它数据库的交叉索引,也返回相应的交叉索引行:。例如,登录号为 J00231 的核酸序列具有这样一个DRSWISS-PROT:P01860;GC3_HUMAN表示该核酸序列有一个到数据库 SWISS-PROT 的交叉索引,到其 P01860 文件。这时用户只要点击返回的超文本,就可以进一步SWISS-PROT 数据库中的相关数据。(2)核酸同源性搜索3W 服务器支持用户使用 FastA 程序进行核酸同源
24、搜索。FastA 根据给定的目标序列在数据库中搜索其同源序列。2、组数据库(GDB)组数据库 GDB(Letovsky et al., 1998; )于 1990 年建立于美国 Johns Hopkins 大学,该数据库中的内容主要是人类组计划所得到的图谱数据。GDB 的目的是为科学家提供一部关于人类组的百科全书。虽然 GDB 着重于图谱,但是随着人类组计划的顺利发展,人类组计划已从作图阶段发展到阶段,并进入到功能分析阶段,因而 GDB的内容也不断拓宽。目前正在扩展序列水平的组信息的表示。收集和组信息的工作量非常大,许多研究小组和学会被邀请提供他们的实验数据,或对数据库中的数据进行注释,或为各
25、个数据建立到其它相关数据库的连接。目前GDB 包含对下述三种对象的描述:(1)人类组区域,包括、克隆、PCR 标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类组中的变化,包括突变和多态性,加上等位频率数据。除GDB 之外,还有其它模式生物组数据库,如鼠组数据库 MGD(Blake et al., 2000;)、 酵 母组 数 据 库 SGD ( Cherry et al. , 1998 ;ccharomy/)等。3、人类人类
26、组数据库Ensembl组计划得到了人类序列的第一张草图,然而这样的序列并非是最终的序列,因为序列还存在错误的地方,还需要做进一步的工作。尽管如此,这为科学家提供了人类组序列的整体外貌。组的数据自然要进入核酸数据库,如 EMBL、GenB。这些数据是一些序列片段,长度一般小于 1000bp,需要将这些片段组装成较长的 DNA 序列。Ensembl (Butler, 2000;)试图所有人类组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的DNA 序列,搜索其中的,发现生物学家或医学工作者感的特征。Ensembl 包括所有公开的人类组 DNA 序列,通过注释形成的关于序列的特征。就
27、是一种特征,或者是通过实验发现的,或者是通过 Ensembl 的程序的。Ensembl 所用的预测程序为 GenScan。其他的特征包括单核苷酸多态性(SNP)、重复序列与其它序列高度相似(或同源)的序列。Ensembl 提供多种查询方式,如用 BLAST 进行相似序列的搜索,通过序列号进行查询,通过基因名称查询,通过遗传疾病查询。另一种更直观的方式是显示各,用户可以在水平上选择感的位点,然后逐层放大,从而浏览整个组,分析 DNA 序列,分析。4、表达序列标记数据库dbESTEST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法。在 1990 以前,关于
28、人类序列的数据主要来自于对单个的研究,EST 数据的出现是生物信息学发展历史上的一块里程碑。EST 序列大约覆盖了人类的 90%,由于 EST 序列中的信息,因此如何利用这些信息发现新的、阐明功能成了近几年的重要研究方向。DbEST (Boguski et al., 1993; 1994;)是 GenB的一个部分,该数据库包括不同生物的 EST 序列数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRN段。截止 2000 年三月底,该数据库含有 3,828,199 个登录项。通过 WEB 页面或者通过可以查询有关 EST 的数据和相关,也可以通过 FTP 得到 dbEST 数据库。ES
29、T 数据库的主要作用是通过搜索比较,给一个实验新得到的 cDNA 序列或组序列赋予公认的功能。通过对EST 数据库的逆向分析,能识别与疾病相联系的。EST 数据库作为一种重要的组数据库,已成为发现新、研究表达及重组蛋白表达的有力分子生物学工具。利用EST 数据库可以进行电脑克隆(等,2000)。作为电脑克隆的第一步,首先找到与待克隆相关的 EST。在 dbEST 中找到某一 EST 的最有效方法即通过序列同源查找,从核酸序列或氨基酸序列出发进行序列搜索,可以证实 dbEST 中是否存在与待查询项完全相同或相似的ESTs。待查询项既可以是组序列,以鉴定相应的转录本是否存在 (比如用于定位克隆计划
30、),也可以是一个已知的,以鉴定与该相关的序列的存在 (例如一个中的新成员)。如当查询到某一 EST 后 ,可以用该EST 所在克隆的克隆作为查询项,以期获取对应于该EST 的cDNA 克隆另一端的 EST 信息。EST 也是检查和分析 DNA 序列变异频率或转录序列多样性的有力工具。单核苷酸多态性是组变异最丰富的一种形式,也是对复杂遗传性状进行定位的重要源泉。可以利用 EST 数据库筛选 SNPs。从 EST 数据库中筛选 SNPs 的主要优点在于,这样筛选出来的单核苷酸多态性标记直接与的编码区相对应,即得到的往往是相关标记。5、序列标记位点数据库dbSTS STS ( Sequence Ta
31、gged(Sites )是序列标记位点 (Olson et al., 1989) 。 dbSTS)是 NCBI 的一个数据源,包含组短标记序列(STS)的组成和。可以通过BLAST 搜索STS 序列。6、面向聚类数据库UniGeneUniGene(Boguski, 1995; Schuler, 1996,1997; )数据库将 GenB中的序列进行自动分类,形成面向群的非冗余集合。每个 UniGene 群包含代表达的组织类型、定位图谱。除了基表一个唯一的多个序列,附有该相关的信息,如因的序列之外,还包括大量的 EST 序列。UniGene 既可以作为发现新的数据源,也可以作为生物学研究进行大规
32、模表达分析的辅助工具。需要的是,自动分类的过程还有待于进一步发展和完善。目前,UniGene 中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的 EST数据。第三节蛋白质序列数据库1、PIR(Protein Information Resource)历史上,蛋白质数据库的出现先于核酸数据库。在 1960 年左右,Dayhoff 和他的同事们搜集了当时所有已知的氨基酸序列,编著了蛋白质序列与结构图册(Dayhoff et al., 1965)。从这本图册中的数据,演化为后来的蛋白质信息资源数据库 PIR。PIR(Barker et al., 2000;) 是由生物医学NBRF(Natio
33、nal Biomedical Research Foundation)于 1984 年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。至 2001 年 8 月,PIR 数据库有 242631 个蛋白质的登录数据项,其中包括来自几十个完整组的蛋白质序列。所有序列数据都经过整理,超过 99%的序列已按蛋白质分类,一半以上还按蛋白质超进行了分类。PIR 提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。ENTRYG00016 #ty
34、pe fragmentTITLEFGF-receptor - common marmoset (fragment)ANISM#formal_name Callithrix jacchus #common_name common marmosetDATE13-Mar-1997 #sequence_revi13-Mar-1997 #text_change 18-Jul-1997ACSG00016REFERENCEH00018#authorsEinspanier, R.#submis submitted to the EMBL Data Library, December 1995 #acG0001
35、6#sus preliminary; translated from GB/EMBL/DDBJ #molecule_type mRNA#residues 1-157 #label EIN#cross-referenEMBL:Z68149; NID:g1279349CLASSIFICATION #superfamily basic fibroblast growth factor receptor 1; immunoglobulin homology; protein kinase homologyFEATURES1-157#protein kinase homology (fragment)
36、#label KINSUMMARY#length 157 SEQUENCE510152025301/E M E V M K M I G KI I N L L G A C T Q D G P L Y V I31 V E Y A S K G N L R E Y L R A R R P P G M E Y S Y D I N R V61 P E E Q M T F K D L V S C T Y Q L A R A M E Y L A S Q K C I91 H R D L A A R N V L V T E N N V M K I A D F G L A R D I N N121 I D Y Y
37、K K T T N G R L P V K W MA L F D R V Y T H Q151 S D V W S F G/Assoted Alignments:DA0934 protein kinase homologyDA1564 immunoglobulin homology - C2 typeDA1565 immunoglobulin homology - V-type, Ig V regionsFA1349 basic fibroblast growth factor receptor 1 - 555.0 1.0 M06341 basic fibroblast growth fact
38、or receptor 1 - 524.0 1.0Related Links (Superfamily classification and Alignment): Protein Classification for Entry=G00016 at MIPS, Germany. ProClass for Entry=G00016 at Univ. of Texas, USA.图 4.4 PIR 文件实例除了蛋白质序列数据之外,PIR 还包含以下信息:蛋白质名称、蛋白质的分类、蛋白质的来源;关于原始数据的参考文献;蛋白质功能和蛋白质的一般特征,包括序列中相关的位点、功能区域。表达、翻译后处理、
39、活化等;对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到 GenB、EMBL、DDBJ、GDB、MELINE 等数据库的索引。PIR 中一个具体的登录4.4 所示。PIR 提供三种类型的检索服务。一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA 等。三是结合序列相似性、注释信息和蛋白质息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。信2、SWISS-PROTSWISS-PROT (Bairoch, et al., 1997;Gasteiger, etal., 2001; Junker, et al., 1999 ;)
40、是由 Geneva 大学和欧洲生物信息学EBI)于 1986年联合建立的,它是目前国际上比较的蛋白质序列数据库。SWISS-PROT 中的蛋白质序列是经过注释的。SWISS-PROT 中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库 PIR 挑选出合适的数据;(3)从科学文献中摘录;(4)研究直接提交的蛋白质序列数据。SWISS-PROT 38.0 版本有 80000 序列登录项,包含摘自 64965 篇参考文献的29085265个氨基酸。与其它蛋白质序列数据库相比较,SWISS-PROT 有三个明显的特点:(1)注释在SWISS-PROT 中,数据分为数据和注
41、释两大类。对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:(a)(b)(c)(d)(e)(f)(g)(h)蛋白质的功能描述;翻译后修饰;域和功能位点,如钙结合区域、ATP 结合位点等;蛋白质的二级结构;蛋白质的四级结构,如同构二聚体、异构三聚体等;与其它蛋白质的相似性;由于缺乏该蛋白质而引起的疾病;序列的、变化等。(2)最小冗余对于给定的蛋白质,许多数据库根据不同的文献设置分立的登录项。而在 SWISS-PROT 中,尽量将相关的数据归并,降低数据库的冗余程度(ODonovan et al., 1999)。如果不同来源的原始数据
42、有,则在相应序列特征表中加以注释。(3)与其它数据库的连接SWISS-PROT 目前已经建立了与其它 30 多个相关数据库的交叉索引,即对于每一个 SWISS-PROT 的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。例如根据到蛋白质结构数据库的索引使用户不仅可以得到某个蛋白质的序列,还可以进一步得到其结构。现有的交叉索引有:到 EMBL 核酸序列数据库的索引,到 PROSITE 模式数据库的索引,到生物大分子结构数据库PDB 的索引等。与前面介绍的核酸序列数据库 EMBL 类似,每一个 SWISS-PROT 的条目用外在的 ASCII 文件表示,两者主要差别在于特
43、征表的不同。该数据库用 UNIX库管理系统的环境下。用户可通过下述几个方面操作SWISS-PROT 数据库提交序列数据用户可以通过两种方式将蛋白质序列数据提交给 SWISS-PROT。(a)编辑电子表格(b) 利用Authorin 程序使用SWISS-PROT可以通过以下几条途径使用SWISS-PROT。,今后将可能移植到关系数据(a)CD-ROM 形式(b)ftp 服务器(c)Gopher 服务器(d)WWW 服务器与序列相关的操作序列查询搜索同源蛋白质序列3W 服务器支持用户使用 BLITZ 程序(Brenner 1995;Pearson,1996)进行蛋白质同源搜索。BLITZ 根据给定
44、的目标序列在数据库中搜索其同源序列。3、TrEMBL大多数蛋白质序列不是直接由实验得到,而是通过DNA 序列而得到的。TrEMBL (Bairoch et al.,2000; Karp et al., 2001;) 是与SWISS-PROT 相关的一个数据库,包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到 SWISS-PROT 数据库中。TrEMBL 有两个部分,分别是 SP-TrEMBL 和REM-TrEMBL。SP-TrEMBL(SWISS-PROTTrEMBL)包含最终将要集成到SWISS-PROT 的数据,所有的 SP-TrEMBL
45、序列都已被赋予SWISS-PROT 的登录号。REM-TrEMBL(REMaining TrEMBL)包括所有备放入SWISS-PROT 的数据,因此这部分数据都没有登录号。TrEMBL(release 16,March 2001)根据 EMBL 的核酸数据库(release 65)建立,共有 489620 条序列,包括 141347364 个氨基酸。为了减少冗余,若根据核酸编码序列翻译的蛋白质序列已经出现在SWISS-PROT(release 40),则将对应的序列删除。第四节生物大分子结构数据库1、PDB(Protein Data B)目前,国际上著名的生物大分子结构数据库是Brookha
46、ven的大分子结构数据库PDB(Berman et al., 2000; )。PDB 中含有通过实验(X 射线晶体衍射,核磁NMR)测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖类和其它复合物的三维结构。截止 2001 年 8 月,PDB 数据库已含有约 16000 个结构。对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。PDB 中的每条 有两种序列信息,一种是显式序列信息(explicit sequence),一种是隐式序列信息(implicit sequence)。在 PDB 文件中,以关键字 SEQRES 作为显式序列标记,以该关键字
47、打头的每一行都是关于序列的信息。对于氨基酸残基,采用三字符的表示方式,这一点与其它序列数据库不一样;对于核酸序列,数据库中的序列方向为 3端到 5端。PDB 的隐式序列即为 PDB 数据库应与结构模型显示化学数据,包括每个原子的名称和原子的三维坐标。在实际应用中,结合起来。因为 PDB 的主要信息是三维结构,如果直接将三维结构信息以文本的形式返回给用户,那么用户难以分析这些结构信息,实用的方法是通过分子模型化以图形方式显示三维结构。这样的在ernet 网上有许多,如 RasMol、ChemView 等,这些能够以各种各样的模型显示生物大分子的三维结构,如结构骨架模型、棒状模型、球棒模型、空间填
48、充模型、带状模型等等。此外,在 PDB 中还说明蛋白质某些特定部位的二级结构类型,如螺旋和折叠。图 4.5 给出PDB 一个蛋白质的有关信息(不包括原子坐标,只包含注释)。PDB 和它的一些镜像站点提供由每个 PDB的所有文本信息索引的文本查询程序,可按一些专门的查询项目(如提交数据、作者、结构表达)进行检索。2、MMDB(Molecular Ming Database)分子模型MMDB (Ohkawa et al., 1995; Wanget al., 2000) 是生物技术信息中心(NCBI)所开发的生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于实验的生物大分子结
49、构数据。该数据 库实际上是生 物大分子 PDB 的一个编辑版本,它的 3W 地址为 。MMDB 运用标准的“残基词典”,其中了以氨基酸、核酸复合体形式存在、具有末端多样性的分子中所有原子和化学键的信息。与 PDB相比,对于数据库中的每一个生物大分子结构,MMDB 具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,另外还包括生物大分子之间关系的信息。此外,系统还提供生物大分子三维结构模型显示、结构分析和结构比较工具。MMDB 采用 ASN.1 的格式。格式,而非 PDB第五节其它生物分子数据库本章前三节介绍的是一些关于核酸和蛋白质分子信息的基本数据库,而目前国际上还有很多
50、实用的数据库,下面简单介绍其中的几个。1、单碱基多态性数据库dbSNP遗传学研究的一个重要方面是建立生物分子序列变化与可遗传表型之间的联系,其中最常见的HEADER HYDROLASE19-FEB-971ADZ TITLETHE SOLUTION STRUCTURE OF THE SECOND KUNITZOF TITLE2 TIE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1;COMPND2 MOLECULE: TIE FACTOR PATHWAY INHIBITOR;。COMPND8 BIOLOGICAL_UNI
51、T: MONOMER SOURCEMOL_ID: 1;。SOURCE 7 EXPRES _SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURESAUTHORM.J.M.BURGERING,L.P.M.ORBONS REVDAT1 25-FEB-98 1ADZ0JRNLAUTHM.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN,。REMARK1 REFERENCE 1REMARK1 AUTH M.T.STUIIREMARK1 TITL STRU
52、CTURAL ASPECTS OCTOR XA INHIBITION。REMARK 999 SEQUENCEREMARK 999 1ADZSWSP106461 -111 NOT IN ATOMS LIST REMARK 999 1ADZSWSP10646183 - 304 NOT IN ATOMS LIST REMARK 999 THE NINE RESIDUES ARE NOT PART OF THE TFOMAI REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ171 SWSP1064
53、6 TFPI_HUMAN112182SEQADV 1ADZ ASP1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR2 SWS P10646ILE 113 ENGINEEREDSEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CY
54、S SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHEHELIX 1 1 ASP 12 PHE 15 54HELIX 2 2 ASN 34 THR 36 53HELIX3 3 LEU57 ILE63 17SHEET1 A 2 ARG29 ASN33 0SHEET2 A 2 GLN38 PHE42 -1 N PHE42O A
55、RG29CRYST11.0001.0001.000 90.00 90.00 90.00 P 11ORIGX11.000000 0.000000 0.0000000.00000ORIGX20.000000 1.000000 0.0000000.00000ORIGX30.000000 0.000000 1.0000000.00000SCALE11.000000 0.000000 0.0000000.00000SCALE20.000000 1.000000 0.0000000.00000SCALE30.000000 0.000000 1.0000000.00000图 4.5 PDB 文件序列变化就是
56、单碱基多态性SNPs(Single nucleotide polymorphisms),大100 到 300 碱基长度范围内,就出现一次单碱基的变化。SNPs 对人类遗传学研究和医学应用具有重要的意义,无论对于人类种群遗传学的研究,还是对疾病性状分析或化医疗,都需要深入地研究 SNPs。找出人类组中所有的 SNPs 是疾病的致病因子,在组计划的一个组成部分。某些特定的 SNPs 等位被认为是人类遗传中筛选这类等位可以检查其对疾病的遗传易感性。SNPs 也可以作为遗。目前科学家在 SNPs 筛选和发现方面正在做大量的工传作图的遗传标记,帮助定位和鉴定功能作,由于大规模组序列分析及其相关技术(特别
57、是技术)的不断提高,同时也由于生物信息学及计算机技术的发展,使得检测和分析 SNPs 成为可能。单碱基多态性数据库 dbSNP(Smigielski et al., 2000; Sherry et al., 2000 ;),是由 NCBI 建立的,至 2001 年四月,有近 300 万个 SNP 数据。除了SNP 数据之外,dbSNP 还包括短序列和删除多态性数据。2、蛋白质结构分类数据库SCOP几乎对于任何一个蛋白质都能找到与其它一些具有相似结构的蛋白质,其中的一些蛋白质拥有一个共同的进化原始结构。这种关系对于了解蛋白质的进化和发展是非常关键的,同样对于分析基因组序列数据也是非常重要的。SC
58、OP 数据库 (Murzin et al., 1995;Hubbard et al., 1999;)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库 PDB中的所有条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB 的连接,序列,参考文献,结构的图像等。现有的结构比较工具尚不能识别所有蛋白质之间的结构和进化关系。SCOP 对蛋白质的分类主要是通过人工交互的方式,通过图形显示器观察和比较蛋白质结构,并借助于一些如同源序列搜索工具。工具进行分析,可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要
59、的层次是家族、超和折叠,这些层次之间的界限在一定程度上是人为的。进化分类是保守的,只要对进化关系存在疑问,就在或超层次上建立一个新的分类。这样,有些研究倾向于着重研究分类树的,在这些层次上,结构相似的蛋白质聚类在一起。在这样的层次结构中,有以下几个主要层次:(1):具有明显的进化关系具有明显进化关系的蛋白质到一个中,这意味着两个蛋白质之间的对等残基数超过30%。然而,在某些情况下,虽然两个蛋白质序列不相似,但它们具有相似的结构和相似的功能,表明属于同一个(2) 超。例如,许多球蛋白虽然序列相同只达到 15%,但确实形成一个:具有远源进化关系,具有共同的进化源。有些蛋白质,它们的序列等同部分短,
60、但结构和功能特征显示可能有一个共同的进化源,对于这些蛋白质将它们放入一个超中。例如,肌动蛋白,心白的腺苷三磷酸酶域以及 hexakinase形成一个超。(3) 折叠类:主相似如果蛋白质具有相同的主要二级结构并具有相同的拓扑连接,那么这些蛋白质具有共同的折叠。具有相同折叠的不同蛋白质通常有不同大小和不同构象的外周二级结构元素及转向区域。在某些情况下,这些不同的外周区域可能完整结构的一半。按照相同折叠放入同一个折叠分类中的蛋白质可能没有共同的进化源,结构相似性可能是由于蛋白质倾向于形成一定堆积和一定拓扑结构的物理和化学特性。3、 DSSPDSSP() 是一个二级结构推导数据库(Kabsch et
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 秋游活动总结
- 新教材高考地理二轮复习一8类识图技法专项训练技法7统计图判读含答案
- 新普惠自动气象站通讯协议
- 第二十六章 二次函数(15类题型突破)
- 第二十五章 图形的相似 综合检测
- 天津市和平区2024-2025学年高一上学期11月期中英语试题(含答案含听力原文无音频)
- 山西省榆社中学2024-2025学年高二上学期11月期中英语试题(含答案无听力原文及音频)
- 江西省上饶市新知学校2024-2025学年高二上学期十一月化学月考卷(含答案)
- 青海省海东市互助县2023-2024学年九年级上学期期中教育质量检测英语试题
- 2024年六年级英语秋季学期期中质量监测试题
- 国际贸易术语2020
- 国网新安规培训考试题及答案
- 第六单元测试卷-2024-2025学年统编版语文三年级上册
- 【课件】Unit4+Section+B+(Project)课件人教版(2024)七年级英语上册
- 青少年法治教育实践基地建设活动实施方案
- 绿化养护续签合同申请书范文
- 教科(2024秋)版科学三年级上册2.6 我们来做“热气球”教学设计
- 追要工程款居间合同范本2024年
- 2024至2030年中国氮化硅轴承球行业市场全景调查及投资前景分析报告
- 三年级上《时分秒》教材解读
- 公司培训工作报告6篇
评论
0/150
提交评论