生物信息学资源检索_第1页
生物信息学资源检索_第2页
生物信息学资源检索_第3页
生物信息学资源检索_第4页
生物信息学资源检索_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第八章第八章 生物信息学资源检索生物信息学资源检索 12生物信息学数据库概述生物信息学数据库概述生物信息学数据库的类型生物信息学数据库的类型 生物信息数据收集与存贮生物信息数据收集与存贮 生物信息学数据库的查找生物信息学数据库的查找23一、生物信息学数据库的类型一、生物信息学数据库的类型文献数据库文献数据库 突变数据库突变数据库 图谱数据库图谱数据库 结构数据库结构数据库 序列数据库序列数据库 类型类型按收录信息内容分按收录信息内容分 34二、生物信息数据收集与存贮二、生物信息数据收集与存贮 (一)生物信(一)生物信息数据的收集息数据的收集 生物信息数据生物信息数据收集与存贮收集与存贮 (二)

2、生物信(二)生物信息数据的存贮息数据的存贮 45(一)生物信息数据的收集(一)生物信息数据的收集 数据库与数据库合作数据库与数据库合作数据库与测序中心合作数据库与测序中心合作数据库与期刊合作数据库与期刊合作 建库的初期建库的初期 4数据交换数据交换 3成批发送成批发送 2直接发送直接发送 1人工收集人工收集 56(二)生物信息数据的存贮(二)生物信息数据的存贮1记录格式记录格式主要有:主要有:EMBL格式、格式、GenBank格格式式存贮格式存贮格式2序列格式:序列格式: FASTA格式,格式,又称又称Pearson格式格式 6三、生物信息学数据库的查找三、生物信息学数据库的查找 v通过搜索引

3、擎查找通过搜索引擎查找 v通过专门的生物信息学数据库目录查询通过专门的生物信息学数据库目录查询 从2000年开始,Nucleic Acids Research 设立了一个数据库目录(/nar/database/c/)。 v通过生物信息学中心资源导航查询通过生物信息学中心资源导航查询 一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。 78核酸序列数据库核酸序列数据库vGenBank :由美国国家生物技术信息中心:由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核管理和维护大型、综

4、合性的公共核酸序列数据库,包括所有已知的核酸序列和酸序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物蛋白质序列,以及与它们相关的文献和生物学注释。学注释。 v网址:网址: /Genbank/index.html89国际核酸序列数据库协作体国际核酸序列数据库协作体 9GenBank检索检索 vEntrez是是NCBI生物信息学数据库集成检索系统,生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。可以检索以下生物信息学数据库。 10v例如,查找例如,查找H1N1流感病毒(流感病毒(H1N1 Flu Virus)

5、的核酸序列。其检索步骤是:的核酸序列。其检索步骤是: 11(1)进入)进入Entrez主页(主页(/gquery/),),在提问框输入在提问框输入H1N1 Flu Virus。 12 (2)点击)点击“GO”,得到各个数据库的检索结果。,得到各个数据库的检索结果。13(3)点击)点击“Nucleotide: Core subset of nucleotide sequence records”,得到,得到GenBank核酸序列数据库中的核酸序列数据库中的4801条记录简要格式(条记录简要格式(Summary)。)。14(4)点击记录的标题,即

6、可获取该记录的详细信息。)点击记录的标题,即可获取该记录的详细信息。1516蛋白质数据库蛋白质数据库 蛋白质序列数据库蛋白质序列数据库 蛋白质结构数据库蛋白质结构数据库 蛋白质功能数据库蛋白质功能数据库1617一、蛋白质序列数据库一、蛋白质序列数据库 (三)(三)TrEMBL (四)(四)GenPept (二)(二)SWISS-PROT (一)(一)PIR (五)(五)UniProt (六)(六)OWL 17(一)(一)PIR v 创建于创建于1984年。年。 v 1988年,美国年,美国NBRF、日本国际蛋白质信息数据库(、日本国际蛋白质信息数据库(Japan International P

7、rotein Information Database, JIPID)与)与德国的慕尼黑蛋白质序列信息中心(德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences, MIPS)合作成立国际蛋白质)合作成立国际蛋白质序列信息中心(序列信息中心(PIR-International)。)。v 第第75.03版的版的PIR数据库按照数据的性质和注释详略分成四个子库:数据库按照数据的性质和注释详略分成四个子库:PIR1、PIR2、PIR3和和PIR4。 PIR1中的序列已经验证,注释最为详尽; PIR2中包含尚未确定的冗余序列; P

8、IR3中的序列尚未加检验,也未加注释; PIR4包括其他渠道获得的序列,既未验证,也无注释。v 网址:网址:/18PIR主页主页19(二)(二)SWISS-PROTv 创建于创建于1986年年v 由瑞士生物信息学研究所(由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息研究所()和欧洲生物信息研究所(EBI)共同维护和管理。共同维护和管理。 v 1994年,年,SIB创建蛋白质专家分析系统创建蛋白质专家分析系统(Expert Protein Analysis System,ExPAS

9、y) (http:/www.expasy.Ch),除了开发、维护和管,除了开发、维护和管理理SWISS-PROT数据库外,还提供蛋白质序列、结构、数据库外,还提供蛋白质序列、结构、功能和蛋白质功能和蛋白质2D-PAGE图谱等蛋白质信息资源图谱等蛋白质信息资源v 到到2009年年10月,月,SWISS-PROT(57.11版)收录了版)收录了512994条序列,包含条序列,包含180531504个氨基酸。个氨基酸。v 网址:网址:/sprot/ 20(三)(三)TrEMBL v 创建于创建于1996年,意即年,意即“Translation of EMBL”,是计算

10、机,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中的中的cDNA序列翻译得到的。记录采用序列翻译得到的。记录采用SWISS-PROT数据库格数据库格式。式。v TrEMBL分为两个部分:分为两个部分:SP-TrEMBL和和REM-TrEMBL。 SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT。 REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。 v http:/www.ebi.ac.uk/t

11、rembl/ 21(四)(四)GenPept v由由GenBank中的中的cDNA序列翻译得到的蛋白质序列翻译得到的蛋白质序列数据库。序列数据库。 v网址:网址:/genbank/genpept/)22(五)(五)UniProt v 将将PIR 、SWISS-PROT和和TrEMBL3个蛋白质数据库个蛋白质数据库统一起来组建而成,包含统一起来组建而成,包含3个部分:个部分: (1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释; (2)UniRef (UniP

12、rot Non-redundant Reference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50; (3)UniParc(UniProt Archive),是UniProt存档库,收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。 v 网址:网址:/23(六)(六)OWL v1994年由英国里兹(年由英国里兹(Leeds)大学和)大学和Warrington的的Daresbur

13、y国家实验室合作创国家实验室合作创建并维护的一个复合型数据库。建并维护的一个复合型数据库。v数据来源于数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去等数据库,去重后整合而成的非冗余蛋白质序列数据库。重后整合而成的非冗余蛋白质序列数据库。v网址:网址:http:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/index.php 24小结:小结:v SWISSPROT的序列经过严格审核,注释完善,但数的序列经过严格审核,注释完善,但数量仍较少。量仍较少。v PIR数据量较大,但包含未经验证的序列,注

14、释也不完数据量较大,但包含未经验证的序列,注释也不完善。善。v TrEMBL和和GenPept的数据量最大,且随核酸序列数的数据量最大,且随核酸序列数据库的更新而更新,但是由于据库的更新而更新,但是由于TrEMBL和和GenPept均是均是由核酸序列经过计算机程序翻译生成的,这两个数据库中由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。的序列错误率较大,并存在较多的冗余序列。v OWL中的序列虽具有较好的代表性,但采用某些标准中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。取舍序列,导致某些数据不完整。v UniProt中的序列

15、具有较好的代表性,数据较完整。中的序列具有较好的代表性,数据较完整。 2526二、蛋白质结构数据库二、蛋白质结构数据库 (三)(三)DSSP (四)(四)HSSP (二)(二)MMDB (一)(一)PDB (五)(五)SCOP (六)(六)CATH 26(一)(一)PDBv创建于创建于1971年,是国际上最著名、最完整的蛋年,是国际上最著名、最完整的蛋白质三维结构数据库。白质三维结构数据库。v最先由美国最先由美国Brookhaven国家实验室负责维护国家实验室负责维护和管理,从和管理,从1998年开始,由结构生物信息学合年开始,由结构生物信息学合作研究协会作研究协会(RCSB)负责管理。负责管

16、理。v到到2009年年12月统计,月统计,PDB数据库已经收录了数据库已经收录了利用利用X线衍射、线衍射、NMR、电子显微镜实验数据或理、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质论计算得出的蛋白质、核酸、蛋白质/核酸复合核酸复合物等结构数据物等结构数据61808条,而且数据增长速度相当条,而且数据增长速度相当快。快。 27vPDB数据库以文本文件格式存放数据,每条记数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献物名称、原子坐标、结构提交者以及有关文献等基本注释信息。等基本

17、注释信息。v此外,还包括分辨率、结构因子,温度系数、此外,还包括分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。信息、二硫键位置等和结构有关的数据。v网址:网址:/pdb/home/home.do 28PDB主页主页293031三、蛋白质功能数据库三、蛋白质功能数据库 (三)(三)STRING (二)(二)DIP (一)(一)BOND (四)(四)KEGG 31(一)(一)BOND v BOND是生物分子网络数据库,创建于是生物分子网络数据库,创建于2005年,由

18、年,由Unleashed Informatics公司管理和维护。公司管理和维护。v 主要收录生物分子及其蛋白质序列、结构和相互作用等数主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包括蛋白质、据,其中生物分子包括蛋白质、DNA、RNA、配基、复、配基、复合体、基因、光子(合体、基因、光子(photon)等。)等。v BOND集成了多个重要数据库,如集成了多个重要数据库,如BIND(生物分子相互(生物分子相互作用网络数据库作用网络数据库)、SMID(小分子相互作用数据库)、(小分子相互作用数据库)、Genbank、GO(基因本体)、(基因本体)、OMIM、conserved

19、domains(保守功能域)、交叉参考数据库、完整基因(保守功能域)、交叉参考数据库、完整基因组等。组等。v 网址:网址:http:/ 32BOND主页主页33(二)(二)DIP v DIP专门存放实验确定的蛋白质之间相互作用的数据,既专门存放实验确定的蛋白质之间相互作用的数据,既包括经典实验手段确定的蛋白质相互作用,也包括高通量包括经典实验手段确定的蛋白质相互作用,也包括高通量实验手段确定的蛋白质相互作用数据。实验手段确定的蛋白质相互作用数据。v 数据要经过人工审核和采用计算方法自动验证后加入数据数据要经过人工审核和采用计算方法自动验证后加入数据库。数据的自动验证有库。数据的自动验证有3种指

20、标,即种指标,即EPR Index、PVM Score和和DPV Score。v 在目前缺乏蛋白质相互作用数据金标准的现实情况下,在目前缺乏蛋白质相互作用数据金标准的现实情况下,DIP为采用计算的方法自动验证高通量技术产生的蛋白质为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。相互作用数据做了开拓性的工作。v DIP还利用还利用XML技术专门开发了一种用来存放和交换蛋技术专门开发了一种用来存放和交换蛋白质相互作用数据的白质相互作用数据的xin格式。格式。v 网址:网址: /34(三)(三)STRING v STRI

21、NG不仅存贮实验确定的蛋白质相互作用数据,而不仅存贮实验确定的蛋白质相互作用数据,而且还存贮预测的蛋白质相互作用数据,并对各种预测方法且还存贮预测的蛋白质相互作用数据,并对各种预测方法的准确性给出了相应的权重,对于采用经典实验方法研究的准确性给出了相应的权重,对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义。蛋白质的功能、生物学意义具有非常重要的意义。v 数据来源有数据来源有4种,一是高通量实验技术产生的蛋白质相互种,一是高通量实验技术产生的蛋白质相互作用数据,二是由保守的共表达数据推导出的蛋白质功能作用数据,二是由保守的共表达数据推导出的蛋白质功能联系,三是文献搜索得到的蛋

22、白质相互作用数据,四是采联系,三是文献搜索得到的蛋白质相互作用数据,四是采用预测蛋白质相互作用的方法,根据基因组中基因的上下用预测蛋白质相互作用的方法,根据基因组中基因的上下文关系(文关系(genomic context)预测得到的蛋白质相互)预测得到的蛋白质相互作用数据。作用数据。v 目前目前STRING数据库已经包括数据库已经包括179个物种中的个物种中的736429个蛋白,覆盖率相当高。个蛋白,覆盖率相当高。 v 网址:网址:http:/string.embl.de/35(四)(四)KEGG v 京都基因和基因组百科全书京都基因和基因组百科全书(KEGG)是系统分析基因功能,是系统分析基

23、因功能,联系基因组信息和功能信息的知识库。联系基因组信息和功能信息的知识库。v 基因组信息存贮在基因组信息存贮在GENES数据库里,包括完整和部分测数据库里,包括完整和部分测序的基因组序列;序的基因组序列;v 功能信息存贮在功能信息存贮在PATHWAY数据库里,包括图解的细胞数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;同系保守的子通路等信息;v KEGG的另一个数据库是的另一个数据库是LIGAND,包含关于化学物质、,包含关于化学物质、酶分子、酶反应等信息。酶分子、酶反应等信息。v KEGG

24、提供了提供了Java的图形工具来访问基因组图谱,比较的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。较和通路计算的工具,可以免费获取。v 网址:网址:http:/www.genome.jp/kegg/ 36KEGG主页主页373839基因组数据库基因组数据库Entrez Gonomes Ensembl UCSC Genome Browser 其他基因组数据库其他基因组数据库 39一、一、Entrez Gonomes v NCBI提供的,是世界上最大、最完整的多物种的基因组提供的

25、,是世界上最大、最完整的多物种的基因组资源。目前已收录资源。目前已收录5937个物种的个物种的8500多条记录,多条记录,v 按生物体分成古细菌(按生物体分成古细菌(Archaea)、细菌()、细菌(Bacteria)、)、真核生物(真核生物(Eukaryotae)、病毒()、病毒(Viruses)、类病毒)、类病毒(Viroids)和质粒()和质粒(Plasmids)六大类。)六大类。v 提供了各种基因组图谱,包括完整的染色体、序列图谱、提供了各种基因组图谱,包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子(遗传图谱、物理图谱和连续子(contigs)图谱。)图谱。v 可以通过可以通过

26、Entrez进行关键词搜索,也可以通过进行关键词搜索,也可以通过Map Viewer进行浏览、检索及编辑。进行浏览、检索及编辑。 v 网址:网址: /sites/genome40Entrez Gonomes主页主页41(一)(一)Map Viewer vMap Viewer是一种从众多资源中汇集图谱和序是一种从众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水某有机体完整基因组信息,又允许用户在序列水平,通过浏览单个染色体图谱或某染色体上的特平,

27、通过浏览单个染色体图谱或某染色体上的特定区域,探查完整基因组信息。定区域,探查完整基因组信息。v对于每一个基因组,对于每一个基因组,Map Viewer从从4个层次揭个层次揭示其信息:示其信息: 生物体主页(Home Page) 基因组浏览(Genome View) 图谱浏览(Map View) 序列浏览(Sequence View) 42(二)(二)Map Viewer的使用的使用 Map Viewer主页43检索结果检索结果 4445鼠基因组数据库 人类基因组数据库 线虫基因组数据库 四、其他基因组数据库四、其他基因组数据库(一)(一)GDB(二)MDB (三)ACEDB 4546疾病基因数据库疾病基因数据库 OMIM Gene Expression Omnibus突变数据库突变数据库 单核苷酸多态性数据库单核苷酸多态性数据库 46GeneCardsOMIM概述概述 v“在线人类孟德尔遗传在线人类孟德尔遗传”(Online Mendelian Inheritance in Man,OMIM),是在美国),是在美国John Hopkins大学医学大学医学院院Vic

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论