基因组学理论课 第四节 数据库与数据检索_第1页
基因组学理论课 第四节 数据库与数据检索_第2页
基因组学理论课 第四节 数据库与数据检索_第3页
基因组学理论课 第四节 数据库与数据检索_第4页
基因组学理论课 第四节 数据库与数据检索_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四节数据库与数据检索一、重要生物信息中心简介1.分子生物信息数据库发展简史2.分子生物信息数据库分类3.核酸序列数据库4.蛋白质序列数据库5.疾病相关基因数据库1.分子生物信息数据库发展简史60年代初,Dr.MargaretOakleyDayhoff和她的同事们收集了所有当时已知的氨基酸序列,发表了《蛋白质序列及结构图谱》,建立了第一个生物信息数据库--这一蛋白质数据库后来成为蛋白质信息资源PIR。Dr.MargaretOakleyDayhoff(1925-1983)wasapioneerintheuseofcomputersinchemistryandbiology,beginningwithherPhDthesisprojectin1948.

Herworkwasmulti-disciplinary,andusedherknowledgeofchemistry,mathematics,biologyandcomputersciencetodevelopanentirelynewfield.

SheiscreditedtodayasafounderofthefieldofBioinformatics.

Thisfieldisdefinedastheuseofcomputersinsolvinginformationproblemsinthelifesciences,mainlyinvolvingthecreationofextensiveelectronicdatabasesonproteinsequencesandgenomes.

1982年,第一个DNA序列数据库在欧洲分子生物学实验室(EMBL)诞生,随即就开始了一个数据库爆炸的时代。不久,美国洛斯阿拉莫斯(LosAlamos)国家实验室建立了GenBank。1988年,美国组建了国家生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI),并正式接管了GenBank。日本的DNA数据库(DDBJ)于1984年在三岛市建成。GenBank、EMBL和DDBJ现在已组成国际核苷酸序列数据库合作体,每日进行数据交换。2.分子生物信息数据库分类基于数据类型:

储存DNA、RNA、EST和蛋白质等如NCBI中的UniGene数据库为DNA序列数据库。根据物种类型:

储存该物种基因组中有关结构和功能基因组信息人类基因组数据库(TheGDBHumanGenomeDatabase)水稻数据库、果蝇数据库、酵母数据库从数据库的数据来源:

可以分为一级数据库和二级数据库

(1)

型储存DNA、RNA、EST、蛋白质等:如NCBI中的UniGene数据库为DNA序列数据库。(2)根据物种类型

基因组数据库,如:人类基因组数据库水稻数据库果蝇数据库酵母数据库等等人类基因组数据库GDB()(3)从数据库的数据来源

--分为一级数据库和二级数据库

一级数据库:数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。如:序列数据库来自序列测定;基因组数据库来自基因组作图;结构数据库来自X射线衍射和核磁共振等结构测定。二级数据库:是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对核酸和蛋白质序列、基因组图谱、蛋白质结构及文献等数据进行进一步分析、整理、归纳、注释,而构建成的具有特殊生物学意义和专门用途的次级数据库,如GeneCard。3.核酸序列数据库GenBank

EMBL:欧洲分子生物学实验室(TheEuropeanMolecularBiologyLaboratory)DDBJ:日本的DNA数据库(DNADataBankofJapan)GenBank®istheNIHgeneticsequencedatabase,anannotatedcollectionofallpubliclyavailableDNAsequencesGeneticSequenceDataBankFebruary15,2008NCBI-GenBankFlatFileRelease164.0DistributionReleaseNotes82853685loci,85,759,586,764bases,from82,853,685reportedsequencesThereareapproximately106,533,156,756basesin108,431,692sequencerecordsinthetraditionalGenBankdivisionsand148,165,117,763basesin48,443,067sequencerecordsintheWGSdivisionasofAugust2009.

(1)Genbank美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation,NCBI)维护;内容:汇集了所有公开的核酸和蛋白质序列的数据库,并提供相关的文献目录和生物学注释数据来源:测序工作者直接提交、测序中心成批发送或与其它数据机构协作交换数据而来;GenBank、EMBL-Bank、DDBJ是国际主要的核苷酸数据库,都可以独立地接受数据提交,并每日交换信息。查询检索:可通过互联网上的序列提取系统(Entrez)完成;递交数据:直接递交。递交者可以通过NCBI提供的Sequin软件工具,把数据整理成一定的格式向GenBank递交数据;NCBI的数据库NCBIEntrez信息检索系统Entrez浏览器:是由美国国家生物技术信息中心(NCBI)构建的一套综合了数据库、索引和访问工具的服务器Genbank数据表序列数据结构每条Genbank序列数据记录包含了对序列的简要描述,如科学命名、物种分类名称、参考文献、序列特征表以及序列本身序列特征表里包含对序列生物学特征如编码区、转录单元、重复区域、突变位点或修饰位点等的注释所有数据记录分类保存,如真菌类、植物类、动物类、昆虫类、细菌类和病毒类等另外,为了满足特殊项目的需要,设立了EST(expressedsequencetags)、GSS(genomesurveysequences)和STS(sequencetaggedsites)等组别(2)EMBL是一个非盈利的科研组织,由分布于德国、法国、英国和意大利的五个分支机构的共80多个从事分子生物学研究的科研团队组成。EMBL的核酸序列数据库始建于1980年,现由欧洲生物信息学研究所维护。查询检索可以通过互联网上的序列提取系统(SRS)服务完成。向EMBL核酸序列数据库提交序列可以通过基于Web的WEBIN工具,也可以用Sequin软件来完成。(3)DDBJ日本DNA数据库(DDBJ)由日本国家遗传学研究所(theNationalInstituteofGenetics,NIG)于1986年建立,也是一个全面的核酸序列数据库;可以使用其主页上提供的SRS工具进行数据检索和序列分析,也可以用Sequin软件向该数据库提交序列。1.文献检索PUBMED美国国立卫生研究所(NationalInstitutesofHealth,NIH)下属美国国家医学图书馆(NationalLibraryofMedicine,NLM)开发的网络检索系统建立在国立生物医学信息中心(NCBI)平台上。能够对上世纪五十年代至今的发表在MEDLINE和其他生命科学期刊上的超过1500万条引文进行访问,并可以链接到相关的出版商网络站点的文献全文和其他相关资源三常见数据库的数据检索用Limit限定检索的出版日期、物种、出版物类型、特定领域、语种、性别、年龄组、或子集等Advancedresearch用ResearchBuilder菜单选择子集用History菜单浏览以前的检索查询

PubMed查询结果的显示选择框(Display)中有40种可选显示方式例:检索2008年1月到12月发表在Science杂志上的禽流感(Avianinfluenza)相关文献1)使用AdvancedResearch功能2)在Title/Abstract内查找,输入检索关键词“Avianinfluenza”;杂志为Science3)然后再启用Limit功能,将检索目标限定在2008年1月到12月

4)结果显示发表在“Science”杂志上与Avianinfluenza高度相关的文献1篇

PubMed查询结果的Abstract显示方式2.数据库检索--核酸序列检索Entrez(http:///Entrez/)是基于网络的综合性生物信息数据库检索系统利用Entrez系统,用户可以检索:

Genbank的核酸数据来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据;

来自分子模型数据库(MMDB)的蛋白质三维结构数据由PubMed获得Medline的文献数据等。

核酸序列检索1)在Entrez主页(http:///Entrez/)进入Nucleotide数据库,搜索目标数据库选择Nucleotide,用Advancedsearch检索用Entrez搜索引擎下载伤寒沙门氏菌(Salmonellatyphi)16SrRNA基因2)设置Organism为Salmonellatyphi

,GeneName为16SrRNA,即检索条件为:“Salmonellatyphi[Organism]AND16SrRNA[GeneName]”,点击Search按钮3)点击显示结果的相应条目(如ACCESSION为Z47544的伤寒沙门氏菌16SrRNA基因),显示结果见图4)若将结果以FASTA格式保存,则在Display框选择FASTA,系统将自动显示该基因的FASTA格式5)然后在Download框中选择不同的文件类型保存第五节核酸数据分析

核酸序列的基础分析序列比对

一、核酸序列的基础分析主要有:分子质量、碱基组成、碱基分布;序列变换(反向序列、互补序列、互补反向序列)、限制性酶切分析(限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性)、克隆测序的分析(测序峰图的查看、核酸序列中载体的识别和去除、其他人工序列的分析和去除)等等。用于核酸序列的基础分析的软件非常多,比如Bioedit,Emboss,DnaStar等二、序列比对作用:推测新序列的功能:通过比对(alignment),找到与新序列相似的已知序列,并根据相似性推测新序列的功能分子进化关系分析:过蛋白质或核酸序列之间的比对,寻找序列间的相似区域和保守性位点,分析可能的分子进化关系预测表达框架:把核酸序列与蛋白质序列相比对来破译核酸序列可能的表达框架蛋白质三维结构信息分析:把蛋白质序列与具有三维结构信息的蛋白质相比较,从而获得蛋白质可能的折叠类型的信息目前最常用的两两比对的工具是基本区域列阵搜索工具(BasicLocalAlignmentSearchTool,BLAST),多序列比对常用的软件是基于累进方法的CLUSTAL(http://www.ebi.ac.uk/clustalw/)。1.BLAST简介BLAST算法是由S.Altschul等人在20世纪90年代早期提出局部比对:早期的序列比对是全局的序列比较,但由于DNA序列的重组经常发生,使得核酸或蛋白质序列具有板块性质,因此局部比对会更加合理常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。

BLAST家族共有5个程序,可以进行核酸和氨基酸任意组合的查询,并在核酸和蛋白质数据库中对所有序列进行搜索。通常使用那一种BLAST程序是依据我们需要搜索的序列和你已经选择的数据库的类型。程序名搜索序列(query)数据库内容备注Proteinblast(Blastp)ProteinProtein比较氨基酸序列与蛋白质数据库Nucleotideblast(Blastn)NucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxTranslatednucleotide

Protein比较核酸双链序列理论上的六框架的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六框架结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxTranslatednucleotideTranslatednucleotide用于ESTs分析转译搜索序列与数据库序列2.BLAST应用

----blastn比较核苷酸序列和核苷酸库,查询相似序列的过程1)首先进入blast主页(http:///BLAST/),选择blastn,在窗口中输入要查询的序列,选择需要比对的数据库(如nr数据库),然后点击BLAST!按钮递交数据库内容描述nrAllGenBank+EMBL+DDBJ+PDBsequences(butnoEST,STS,GSS,orphase0,1or2HTGSsequences).Nolonger"non-redundant"monthAllneworrevisedGenBank+EMBL+DDBJ+PDBsequencesreleasedinthelast30dayspdbSequencesderivedfromthe3-dimensionalstructurefromBrookhavenProteinDataBankdbestDatabaseofGenBank+EMBL+DDBJsequencefromESTDivisionsyeastYeast(Saccharomyces

cerevisiae)genomicnucleotidesequences部分核苷酸序列数据库数据库名

内容描述

nrAllnone-redundantGenBankCDStranslation+PDB+SwissProt+PIR+PRFmonthAllneworrevisedGenBankCDStr

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论