生物学数据库及其检索_第1页
生物学数据库及其检索_第2页
生物学数据库及其检索_第3页
生物学数据库及其检索_第4页
生物学数据库及其检索_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物信息学生物信息学 Bioinformatics 生物学生物学数据库及其检索数据库及其检索 第一节第一节 生物学数据库简介生物学数据库简介 Chapter 2 一、什么是数据库?一、什么是数据库? 数据库(数据库(database) 是一类用于存储和管理数据的是一类用于存储和管理数据的 计算机文档,是计算机文档,是统一管理的相关数统一管理的相关数 据的集合据的集合,其储存形式有利于数据,其储存形式有利于数据 信息的检索与调用。信息的检索与调用。 二、生物学数据库二、生物学数据库 在生物信息学者们的努力下,人在生物信息学者们的努力下,人 类基因组序列数据连同其它多种模式类基因组序列数据连同其它

2、多种模式 生物的序列数据及各自相应的基因结生物的序列数据及各自相应的基因结 构与功能信息皆可供众多生物学家们构与功能信息皆可供众多生物学家们 免费接入与使用。免费接入与使用。 humanArabidopsis Thermotoga maritima Escherichia coli Buchnerasp. APS Rickettsia prowazekii Ureaplasma urealyticum Bacillus subtilis Drosophila melanogaster Thermoplasma acidophilum Plasmodium falciparum Helicoba

3、cter pylori mouse Caenorhabitis elegans ratBorrelia burgorferi Borrelia burgorferi Aquifex aeolicus Neisseria meningitidis Z2491 Mycobacteriu m tuberculosis 模式生物基因组计划模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约酵母、线虫、果蝇、细菌、拟南芥等共约 已完成,已完成,正在进行。目前总量已达正在进行。目前总量已达碱基对!碱基对! viruses plasmids bacteria fungi plants algae ins

4、ects mollusks reptiles birds mammals Genome sizes in nucleotide pairs (base-pairs) 10410810510610710111010109 bony fish amphibians 生物学数据库的分类生物学数据库的分类 根据数据存放类型:根据数据存放类型: 序列 (三维)结构 文献 序列特征 基因组图谱 表达谱 。 根据数据存储的根据数据存储的 具体内容:具体内容: 一级数据库 二级数据库 专用数据库 (一)一级数据库和二级数据库(一)一级数据库和二级数据库 一级数据库(一级数据库(Primary database

5、):库中的主要内 容来源于实验室操作所得到的原始数据(例如:测 序得到的序列、X射线晶体衍射所得到的三维结构 数据等),也包含一些基本的说明(序列所属的物 种、类型、序列发表的文献出处等)。核酸序列数 据库GenBank, EMBL, DDBJ及蛋白结构数据库PDB 就是典型的一级数据库。 二级数据库(二级数据库( Secondary database ):在 一级数据库的信息基础上进行计算机加工 处理并增加了许多的人为注释而构成的 (例如:NCBI的RefSeq数据库等)。 ATTGACTA Primary vs. Secondary Databases ACGTGC TTGACA CGTG

6、A ATTGACTA TATAGCCG ACGTGC ACGTGC ACGTGC TTGACA TTGACA TTGACA CGTGA CGTGA CGTGA ATTGACTA ATTGACTA ATTGACTA ATTGACTA TATAGCCG TATAGCCG TATAGCCG TATAGCCG GenBank TATAGCCGTATAGCCGTATAGCCGTATAGCCG AT GA C ATT GA GA ATT ATT C C GA GA ATT C C GA GA ATT ATT C C GA GA ATT C C Sequencing Centers GA GA ATT C

7、C GA GA ATT C C UniGene RefSeq Genome Assembly Labs Curators Algorithms TATAGCCG AGCTCCGATA CCGATGACAA (二)如何查找与研究相关的生物学资源(二)如何查找与研究相关的生物学资源 1 利用公共搜索引擎利用公共搜索引擎 2 了解重要的生物信息学门户站点了解重要的生物信息学门户站点 3 利用利用Nucleic Acid Research杂志每年的数据杂志每年的数据 库专辑、网络服务器专辑。库专辑、网络服务器专辑。 第二节第二节 常用数据库常用数据库 Chapter 2 n常用数据库常用数据库 类类

8、型型名名 称称网网 址址 核核 酸酸 序序 列列一次数据库一次数据库Genebank/Genbank/ EMBLhttp:/www.ebi.ac.uk/embl/ DDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/ 基因组基因组一次数据库一次数据库GDB/ 蛋蛋 白白 质质 序序 列列 一次数据库一次数据库 SWISS-PROT/sprot/ PIR/ TrEMBLhttp:/www

9、.ebi.ac.uk/trembl/ UniProt/index.shtml/ MIPShttp:/mips.gsf.de/ GenPept/pub/genpept/ NRL-3D/general/software/packages/nrl_3d/n rl_3d.html/ 复合数据库复合数据库 NRDBhttp:/www.nrdb.co.uk/ OWLhttp:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/ SWISS-PROT

10、TrEMBL http:/www.ebi.ac.uk/clustr/ 二次数据库二次数据库 PROSITE/prosite/ PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/ BLOCKS/ Pfamhttp:/pfam.sanger.ac.uk/ IDENTIFY/identify/ COGs/COG/ ProDomhttp:/www.toulouse.inra.

11、fr/prodom.html/ 结结 构构 一次数据库一次数据库 PDB/pdb/home/home.do MMDB/Structure/MMDB/mmdb.shtml/ 二次数据库二次数据库DSSPhttp:/www.sander.embl-heidelberg.de/dssp/ HSSPhttp:/www.sander.embl-heidelberg.de/hssp/ FSSPhttp:/www.ebi.ac.uk/dali/fssp/ PSdb/geigel/PSdb

12、/PSdb.html/ 结构分类结构分类SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/ CATH/latest/index.html/ PDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 分类分类二次数据库二次数据库ProtoMap 蛋白质组蛋白质组 蛋白质组蛋白质组 氨基酸索引氨基酸索引AAindexhttp:/www.genome.ad.jp/dbget/ 蛋白质间功能关蛋白质间功能关 系系 Predict

13、ome/ 蛋白质组分析蛋白质组分析Proteome Analysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/ 二维凝胶电泳二维凝胶电泳 GELBANK/ SWISS-2DPAGE /ch2d/ 酵母蛋白质定位酵母蛋白质定位YPL.dbhttp:/ypl.tugraz.at/ 模式生物蛋白质模式生物蛋白质 组组 Bioknowledge Librnary http:/www.biobase- 一、核酸数据库一、核酸

14、数据库 (一)核酸序列数据库(一)核酸序列数据库 目前,国际上主要有目前,国际上主要有Genbank、EMBL、 DDBJ三大核酸序列数据库,三大核酸数据库之三大核酸序列数据库,三大核酸数据库之 间每天相互交换数据,保持数据同步更新。间每天相互交换数据,保持数据同步更新。 GenBank Public free Available via Internet EMBL Data Library DDBJ (DNA Data Bank of Japan) 三大基因数据库之间的关系三大基因数据库之间的关系 Genbank库包含了所有已知的核酸序列和蛋白质序列, 以及与它们相关的文献著作和生物学注释。

15、它是由 美国国立生物技术信息中心(National Center of Biotechnology Information,NCBI)建立和维护的。 Genbank网址:/Genbank/ 1. Genbank uGenbank数据直接来源数据直接来源 测序工作者提交的序列、测序中心提交的大量测序工作者提交的序列、测序中心提交的大量EST序列、序列、 其它测序数据以及与其它数据机构协作交换的数据。其它测序数据以及与其它数据机构协作交换的数据。 uGenbank内容内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简所有已知的核酸序列和蛋白质

16、序列,还包括对序列的简 要描述、科学命名、物种分类名称、参考文献、序列特征表要描述、科学命名、物种分类名称、参考文献、序列特征表 等辅助信息。等辅助信息。 uGenbank对数据记录的处理对数据记录的处理 划分为划分为 细菌类、病毒类、灵长类、啮齿类,细菌类、病毒类、灵长类、啮齿类, EST数据、数据、 基因组测序数据、大规模基因组序列数据等基因组测序数据、大规模基因组序列数据等16类。类。 /Genbank/ Genbank由由 美国国立生物美国国立生物 技术信息中心技术信息中心 (NCBI)建立维建立维 护,其主页如护,其主页如 图所示。

17、图所示。 NCBI全称全称National Center of Biotechnology Information(美国国家生物技术信息中心)美国国家生物技术信息中心) NCBI是美国国立卫生研究院(是美国国立卫生研究院(NIH)的美国国)的美国国 立医学图书馆(立医学图书馆(NLM)的一个分支。)的一个分支。 1988年成立。年成立。 网址:网址:/ NCBI 简介简介 当今世界最大的基于当今世界最大的基于Internet的用于的用于 分子生物学研究的生物医学研究中心分子生物学研究的生物医学研究中心 2. EMBL核酸序列数据库核酸序列数据

18、库 1982年创建,由年创建,由欧洲生物信息学研究所欧洲生物信息学研究所(European Bioinformaties Institute, EBI)管理维护。使用序列管理维护。使用序列 提取系统提取系统(SRS)进行查询检索,利用基于网络的进行查询检索,利用基于网络的 WEBIN工具,或利用工具,或利用Sequin软件向软件向EMBL核酸序列核酸序列 数据库提交序列。数据库提交序列。 EMBL网址:网址: http:/www.ebi.ac.uk/embl/ SRS的网址:的网址: http:/srs.ebi.ac.uk/ WEBIN网址:网址: http:/www.ebi.ac.uk/we

19、bin- align/webinalign_help.html/ Sequin网址:网址: http:/www.ebi.ac.uk/Sequin/ 1986年创建,年创建,由日本国家遗传学研究所(由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理负责维护和管理 。使用。使用SRS工具进行数据检索和序列分析,利用工具进行数据检索和序列分析,利用 Sequin软件向该数据库提交序列。为方便检索软件向该数据库提交序列。为方便检索 DDBJ主页可进行日文和英文互换。主页可进行日文和英文互换。 DDBJ的日文版网址:的日文版网址: http:/www.ddbj

20、.nig.ac.jp/index-j.html/ DDBJ的英文版网址:的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html/ 3. DDBJ数据库数据库 国际上最权威的核酸序列数据库 日本国立遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html (二)基因组数据库(二)基因组数据库GDB 基因组数据库基因组数据库(GDB)创建于创建于1990年,是一个专门年,是一个专门 汇集汇集人类基因组数据人类基因组数据的数据库,的数据库,为人类基因组计 划(HGP)保存和处理基因组图谱数据。 GDB的网址是:的网址是

21、: / (一)蛋白质序列数据库(一)蛋白质序列数据库 常用的蛋白质序列数据库有常用的蛋白质序列数据库有SWISS-PROT 、PIR、TrEMBL、UniProt、GenPept等,分等,分 述如下。述如下。 1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查数据库提供蛋白质序列查 询及相似蛋白质序列搜索等服务。询及相似蛋白质序列搜索等服务。 二、蛋白质数据库二、蛋白质数据库 Swiss-Prot数据库网站主页数据库网站主页 SWISS-PROT数据库内容数据库内容 核心数据:包括蛋白质序列、引用文献、分类信核心数据:包括蛋白质序列、引用文献、

22、分类信 息等。息等。 注注 释:包括结构域、功能位点、跨膜区域、释:包括结构域、功能位点、跨膜区域、 二硫键位置、翻译后修饰、与其它蛋白质的相似二硫键位置、翻译后修饰、与其它蛋白质的相似 性等。性等。 SWISS-PROT将广泛收集的相关数据进行合并,将广泛收集的相关数据进行合并, 且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(PDB)等其他数据)等其他数据 库交互索引。库交互索引。 通过通过SWISS-PROT数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序 列,再通过交互引用从列,再通过交互引用从PDB数据库得到其结构。数据库得到其结构。 SWISS-PROT数据由数据行排列组成

23、,数据格式数据由数据行排列组成,数据格式 与与EMBL数据库数据格式基本相同。数据库数据格式基本相同。 2. PIR PIR的子数据库:的子数据库: 蛋白质序列数据库(蛋白质序列数据库(PIR-PSD) 蛋白质分类数据库(蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料数据库(非冗余的蛋白质参考资料数据库(PIR-NREF) PIR数据库按照数据性质和注释层次分四个部分:数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列;为尚未确定的冗余序列; PIR3序列既未检验,也未注释;序列既未检验,也未注

24、释; PIR4序列来自其它渠道,既未验证,也无注释。序列来自其它渠道,既未验证,也无注释。 美国国家生物医学研究基金会与国际蛋白质信息中心美国国家生物医学研究基金会与国际蛋白质信息中心 (PIR-InternationalPIR-International)共同维护。)共同维护。 PIRPIR是第一个蛋白质分类和功能注释数据库是第一个蛋白质分类和功能注释数据库 PIR作用:作用: 提供基于文本的交互式检索、序列相提供基于文本的交互式检索、序列相 似性似性 搜索以及结合序列相似性、注释信息搜索以及结合序列相似性、注释信息 和蛋白质家族信息的高级检索。和蛋白质家族信息的高级检索。 PIR网址:网址

25、:/ 3.TrEMBL 是一个经计算机注释的蛋白质数据库,采用是一个经计算机注释的蛋白质数据库,采用 SWISS-PROT数据库格式。数据库格式。 主要包含从主要包含从EMBL/ Genbank/DDBJ三大核三大核 酸数据库中根据编码序列翻译的、尚未集成酸数据库中根据编码序列翻译的、尚未集成 到到SWISS-PROT数据库中的蛋白质序列。数据库中的蛋白质序列。 TrEMBL为为SWISS-PROT数据库及时提供补数据库及时提供补 充。充。 TrEMBL网址:网址: http:/www.ebi.ac.uk/trembl/ 4. UniProt U

26、niProt将将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本三个数据库合并。通过文本 检索、序列相似检索以及检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。网站可获得蛋白质序列。 UniProt网站主页网站主页 UniProt包含包含UniProtKB、UniRef 和和UniParc 3个部个部 分:分: (1)UniProtKB数据库(数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉):蛋白质序列、功能、分类、交叉 引用等信息存取中心;引用等信息存取中心; (2)UniRef数据库(数据库(UniProt Refer

27、ence Clusters):为提高检索的速度,将紧密相关的蛋白):为提高检索的速度,将紧密相关的蛋白 质序列合并到同一条记录中。目前,根据序列相似程质序列合并到同一条记录中。目前,根据序列相似程 度可将度可将UniRef数据库分为数据库分为UniRef100、UniRef90和和 UniRef50 3个子库个子库 (3)UniParc(UniProt Archive):储存大量蛋白):储存大量蛋白 质研究的历史信息。质研究的历史信息。 UniProt网址:网址: /index.shtml 5. GenPept数据库数据库 GenPept数据库

28、特点数据库特点 由由Genebank数据库的核酸序列经翻译后产生。数据库的核酸序列经翻译后产生。 GenPept数据量大,随核酸数据库的更新而更新,数据量大,随核酸数据库的更新而更新, 但未经实验证实,也未有详细注释。但未经实验证实,也未有详细注释。 (二)蛋白质序列二次数据库(二)蛋白质序列二次数据库 1.PROSITE n PROSITE是蛋白质家族保守区域和功能位点数是蛋白质家族保守区域和功能位点数 据库,也是第一个蛋白质序列二次数据库,据库,也是第一个蛋白质序列二次数据库,收录蛋白收录蛋白 质家族中同源序列多重比对所确定的保守性区域质家族中同源序列多重比对所确定的保守性区域:如:如 酶

29、活性位点、配体结合位点、金属离子结合位点、其酶活性位点、配体结合位点、金属离子结合位点、其 它蛋白质结合位点等已知具有重要生物学功能蛋白质它蛋白质结合位点等已知具有重要生物学功能蛋白质 位点和序列模式。位点和序列模式。 n PROSITE数据库组成数据库组成 包含包含Prosite(数据文件)和(数据文件)和PrositeDoc(说明(说明 文件)两个文件数据库。文件)两个文件数据库。 PROSITE数据库主页数据库主页 / nPROSITE数据库作用数据库作用:可确定一段新蛋白质序列中:可确定一段新蛋白质序列中 包含的功能位点以及其归属的蛋白质

30、家族。包含的功能位点以及其归属的蛋白质家族。 nPROSITE的网址:的网址:http:/www.expasy.ch/prosite/ 或或 /prosite/ nPROSITE的中国镜像网址的中国镜像网址是:是: /prosite/ 2.PRINTS PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库将多个保守的将多个保守的 序列模式作为识别蛋白质家族的特征序列模式作为识别蛋白质家族的特征,与,与PROSITE 数据库的单个序列模式相比,数据库的单个序列模式相比,PRINTS具有更好的识具有更好的识 别率。别率。

31、 PRINTS 网址:网址: http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS / 3.BLOCKS u 序列模块(序列模块(block):):是通过序列比对得到是通过序列比对得到 的若干蛋白质序列中的若干蛋白质序列中具有较高相似性的序列片段具有较高相似性的序列片段。 u BLOCKS由通过自动检测由通过自动检测PROSITE数据库数据库 和和PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库中蛋白质家族高中蛋白质家族高 度保守区域产生的序列模块组成。度保守区域产生的序列模块组成。 u BLOCKS的网址:的网址:http:/blocks.fhcrc.o

32、rg/ (三)蛋白结构数据库(三)蛋白结构数据库 1.PDB PDB(Protein Data Bank)蛋白质结构数)蛋白质结构数 据库是国际上据库是国际上最完整的最完整的蛋白质、核酸、糖蛋白质、核酸、糖 类、蛋白质类、蛋白质-核酸复合物及病毒等核酸复合物及病毒等生物大分生物大分 子三维结构数据库。子三维结构数据库。 PDB数据库主页数据库主页/pdb/home/home.do n PDB数据库作用数据库作用 提供序列详细信息、原子坐标、三提供序列详细信息、原子坐标、三 维结构、交叉检索等与结构相关的信息。维结构、交叉检索等与结构相关的信息。 2. MMD

33、B(Molecular Modeling Database) n 是是Entrez的组成部分。的组成部分。 n 只收录通过只收录通过X射线晶体衍射和核磁共振实验测射线晶体衍射和核磁共振实验测 定的生物大分子结构数据。定的生物大分子结构数据。 n 增加了附加信息如增加了附加信息如:大分子的生物学功能及产大分子的生物学功能及产 生机制、分子进化历史、生物大分子之间关系等。生机制、分子进化历史、生物大分子之间关系等。 n 具有生物大分子三维结构模型展示、结构分具有生物大分子三维结构模型展示、结构分 析和结构比较等功能析和结构比较等功能 (四)蛋白质结构二次数据库(四)蛋白质结构二次数据库 1.DSS

34、P (Database of Secondary Structure of Protein) 是一个二级结构推导数据库,用于研究蛋白质序列与是一个二级结构推导数据库,用于研究蛋白质序列与 蛋白质结构的关系。蛋白质结构的关系。 针对针对PDB数据库中蛋白质的原子坐标,计算其各个数据库中蛋白质的原子坐标,计算其各个 氨基酸残基中氢键、二面角、二级结构类型等二级结氨基酸残基中氢键、二面角、二级结构类型等二级结 构构象参数,从而根据三维结构推导出其对应的二级构构象参数,从而根据三维结构推导出其对应的二级 结构。结构。 2.HSSP (Homology-Derived Secondary Structu

35、re of Protein) n是一个蛋白质同源序列比对数据库,将相似序列是一个蛋白质同源序列比对数据库,将相似序列 的蛋白质聚集成结构同源的家族,并隐含二级结构的蛋白质聚集成结构同源的家族,并隐含二级结构 和空间结构信息。和空间结构信息。 nHSSP用于分析蛋白质保守区域、确定序列模式用于分析蛋白质保守区域、确定序列模式 及蛋白的折叠、进化关系、分子设计等研究。及蛋白的折叠、进化关系、分子设计等研究。 nHSSP的网址是:的网址是:http:/www.sander.embl- heidelberg.de/hssp/ (五)蛋白质结构分类数据库(五)蛋白质结构分类数据库 1.SCOP (Structural Classific

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论