生物信息学中基因数据库的发展_第1页
生物信息学中基因数据库的发展_第2页
生物信息学中基因数据库的发展_第3页
生物信息学中基因数据库的发展_第4页
生物信息学中基因数据库的发展_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学中基因数据库的发展生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学

Definition广义分子生物信息学MolecularBioinformatics狭义(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformation

systemformolecularbiologyandhasmanypracticalapplications生物信息学发展概要Compbiobioinformatiquebio-informaticsbioinformatics20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速发展前基因组时代基因组时代

1977年,最早获得的生物基因组全序列是噬菌体(53kb)1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测序1996年,Affymetrix生产出第一块基因芯片1998年,亚太生物信息学网络成立1999年,果蝇的基因组被完全测序

2001年2月12日,六国科学家和美国塞莱拉遗传公司联合公布人类基因组图谱及初步分析结果后基因组时代功能基因组蛋白质组生物信息学发展概要基因数据库英文名称:genedatabank,定义:含基因和基因组资料的DNA数据库。其主要任务是收集和保藏各种生物来源与人工构建的基因、基因元件、载体、基因组DNA、宿主细胞和工程细胞株等,目前已有保存物282株,并提供相关检索.生物分子数据

计算机技术

++基因数据库

DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化生物分子数据及其关系基因数据库:易于共享,冗余度小,数据间联系紧密核酸数据库数据《NucleicAcidsResearch》杂志每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第一期115种通用和专用数据库。至2007年,生物信息学数据库总数已达968个。比2006年增加110个。The2008updateincludes1078databases,110morethanthepreviousone.

生物信息数据库基因数据库的发展历史从历史上来看,蛋白质数据库是先于核苷酸数据库出现的。早在60年代初,Dayhoff和他的同事们收集了所有当时已知的氨基酸序列,这就是“蛋白质序列与结构图册”(Dayhoffetal.,1965)。这一蛋白质数据库后来成为PIR(Georgeetal.,1997)。这个在1965年可以很容易地存放在一张软盘上的数据集,是一小群人多年的工作成果。今天,任何一个DNA或蛋白质数据库每天增加的数据量都数倍于此。基因组数据库的发展历史DNA序列数据库最早于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项NIH与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。1988年“国际DNA序列数据库合作计划”之后三大数据库达成了一项协议,对数据库的记录采用共同的格式。现在三个中心都收集直接提交的数据,并在三者之间发布。GenBank数据库的发展历史建立GenBank的主要目标是收集世界范围内已发表和自行投送的核甘酸序列以从相关的文献资料,建立档案,以长期保存。1988一1989年:NCBI处于草创时期,隶属于NIH的国家医学图书馆。1990年:开始应用BLAST。BLAST是——种快速检索相似性序列的工具。1991年:开始应用Entrez。Entrez是一个整合的数据查询系统。1992年:GenBank正式移到NCBI;表达序列标签(expressedsequencetag,EST)技术开始应用,NCBI-dbEST数据库系统建立。1993年:开始应用Internet和3-DEntrez。GenBank由CD-ROM转换为网络系。1994年:NCBI-GenBank网页建立。1995年:开始应用Banklt。Banklt是基于互联网的DNA序列投送软件;将物种、系统发育信息与Entrez结合使用。1996年:开始应用UniGene数据库和GeneMap‘96系统,整合STS图谱、序列和UniGene簇数据,1997年:PubMed界面实现了Entrez软件系统与MEDLINE数据库的结合;EntrezStructures数据库、VAST(vectoralignmentsearcht001)算法和Cn3D结构浏览器开始用于蛋白质分析;GappedBLAST和PSI-BLAST开始用于快速序列相似性检索;COG(clus·tersoforthologousgroup)方法和系统开始用于基因组分析1998年:建立HTGS(高通量基因组序列)组,以适应人类基因组计划的进程;已经贮存两千亿以上的碱基对,其中超过一半来自人类基因组计划。1999年:随着人类基因组计划接近完成,NCBI将重点转移到人类基因组分析基因组数据库

蛋白质序列数据库

蛋白质结构&互作(功能)数据库

DDBJEMBLUniProtPDBPIR生物信息数据库的分类KEGGGenBankEntrzeSRS1.数据库之间链接2.数据库和应用程序结合3.特殊数据模型1.统一的用户界面2.高效的查询功能3.灵活的指针链接4.方便的程序接口5.开放的管理模式NCBI’sGenbank

(1982-)EBI’sEMBL(1982-)NIG’sDDBJ(1987-)数据格式GenBankEMBLDDBJGenBank格式EMBL格式DDBJ格式FASTA基因数据库的格式193条核酸序列4249条ESTs认识GenBank文件格式(头部)头部包含关于整个记录的信息(描述符)LOCUSRATOBESE539bpss-mRNAROD23-SEP-1995

LOCUS行中的日期是数据最后被公开的日期这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母,总长度不能超过10个字符。第二个字符以后可以是数字或字母,所有字符均要大写。LOCUS名称在以前是最为有用的,那时大多数DNA序列记录只表示一个基因座,这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB:人β-珠蛋白基因座,或SV40:猿猴病毒(拷贝之一,因为存在许多拷贝)。为了可用起见,LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了,所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称,所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码。序列长度,GenBank一般不接受50bp以下的记录生物分子的类型,这里是单链的mRNAGenBank分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的。这一代码的存在也是由于历史的原因。认识GenBank文件格式(特性表)FEATURESLocation/Qualifierssource1..539/organism="Rattusnorvegicus"/strain="OLETF,LETOandZucker"/dev_stage="differentiated"/sequenced_mol="cDNAtomRNA"/tissue_type="adipose"CDS30..533/partial/note="NCBIgi:995615"/codon_start=1/product="obese"/translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYQQILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDLSPEC"来源(source)是唯一一个必须在所有GenBank记录中出现的特性包含属和种的科学名称存在的或者潜在的编码区编码序列的翻译产物编码序列的gi号认识GenBank文件格式(序列)BASECOUNT121a167c133g118tORIGIN1ccaagaagaagaagaccccagcgaggaaaatgtgctggagacccctgtgccggttcctgt61ggctttggtcctatctgtcctatgttcaagctgtgcctatccacaaagtccaggatgaca121ccaaaaccctcatcaagaccattgtcaccaggatcaatgacatttcacacacgcagtcgg181tatccgccaggcagagggtcaccggtttggacttcattcccgggcttcaccccattctga241gtttgtccaagatggaccagaccctggcagtctatcaacagatcctcaccagcttgcctt301cccaaaacgtgctgcagatagctcatgacctggagaacctgcgagacctcctccatctgc361tggccttctccaagagctgctccctgccgcagacccgtggcctgcagaagccagagagcc421tggatggcgtcctggaagcctcgctctactccacagaggtggtggctctgagcaggctgc481agggctctctgcaggacattcttcaacagttggaccttagccctgaatgctgaggtttc//结束符号碱基统计信息序列开始序列主体选择fasta格式三大基因数据库Genbank

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。

NCBI的网址是:。EMBL核酸序列数据库

由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。

数据库网址是:http://www.ebi.ac.uk/embl/。

DDBJ数据库

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。

DDBJ的网址是:http://www.ddbj.nig.ac.jp/。主要的数据库资源数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等,蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等,三维结构数据库有PDB,NDB,BioMagResBank,CCSD等,蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等,与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等,文献数据库有Medline,Uncover等。1.2NCBI上常用的生物学资源常用的生物学资源主要有以下几种:1.2.1GeneBank数据库

GeneBank数据库由17个子库组成,存有超过105000个不同的生物体的核苦酸序列,每条GeneBank数据记录包含了对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身的碱基组成。1.2.2EST数据库对cDNA文库克隆的随机测序所得到的两端各200-400bp左右的序列被称为表达序列标记(EST)。在GeneBank等的EST数据库中有存有包括人、鼠、牛、猪、狗、线虫、水稻、果蝇等的大量的EST序列。1、NCBI数据库(NationalCenterforBiotechnologyinformation)

美国国家生物技术信息中心(NCBI)有一系列的生物信息学数据库.其集成系统Entrez包括:序列报告数据库Nucleotide

蛋白质信息数据库Protien

结构数据库Structure

基因组数据库Genoma

遗传信息知识库OMIM等

Entrez由美国NCBI开发,用于对文献摘要、序列、结构和基因组等数据库进行关键词查询,找出相关的一个或几个数据库条目。该系统目前主要包括核酸序列数据库、蛋白质序列数据库、基因组数据库、蛋白质结构数据库、生物医学文献摘要数据库、系统分类数据库、人类遗传疾病和遗传缺失在线数据库,以及基因信息数据库、种群亲缘关系核酸序列比对数据库、表达序列标签数据库等。Entrez系统

Entrez

是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。因此,可以从一个DNA序列查询到蛋白产物以及相关文献,而且,每个条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。Entrez系统

Entrez中核酸数据库为:GenBank,EMBL,DDBJ蛋白质数据库为:Swiss-Prot,PIR,PFR,PDB

PubMed基因组和染色体图谱资料Entrez中的数据库包括:Entrez系统检索领域:(SearchFields)在WWWEntrez检索系统中,检索内容被分为许多小的领域,每一个检索领域包含以下信息:进入(Accession):

包含进入号相关性(Affiliation):

包括该检索领域建立时的相关信息,原作者地址,有时亦有其他作者地址作者姓名(AuthorName):

包含文章作者清单E.C号(E.C.Number):

是酶学委员会命名的酶的编号特征词(FeatureKey):

描述DNA特征的关键词基因符号(GeneSymbol):

基因的标准名称杂志名(JournalTitle):为检索条目第一次发表时的杂志名,该杂志名是以缩写形式储存于数据库中,如果不清楚杂志是如何缩写的可采用ListTerms来查看关键词(Keywords):可以使用较特定的索引条目来检索以上数据库。类似于医学光盘检索MedlineUID:

是Medline对每一个条目给出的唯一识别标记MeSH主题词(MeSHTerms):

包括MeSH的主题词,下级主题词MeSH主要关键词(MeSHMajorTopic):为检索条目十分重要的MeSH词目Entrez系统修改日期(ModificationDate):

包含该条目进入Entrez的日期,与出版日期一样,以年/月/日形式出现页数(PageNumber):

该文章所在杂志的页码特性(Property):

一个或几个关键词,用来描述该序列的类型出版日期(PublicationDate):包含文章出版日期以及序列录入GenBank的日期PubMedID:PubMed对每一个条目给出的识别标记物种(Organism):

包含与该蛋白或核酸序列相关物种的学名和俗名蛋白质名称(Proteinname):SeqId:

与FASTA识别标记类似,为序列的一种识别标记物质(Substance):

与该条目相关的化学物质名称Entrez系统文字检索词(TextWords):包含文章中的所有词,其中:Medline词目:标题和文摘蛋白质词目:定义,评论,蛋白名称,蛋白描述核酸条目:定义,评论,基因名称,基因名称标题检索词(TitleWords):

在标题中出现的词,或在描述该条目时出现的词卷(Volume):

刊登该文章杂志所在卷使用MedlineUID,PubMedID和SeqID进行检索时,在栏目框中要输入数字。如要输入多个数字,中间要用空格或逗号隔开。并选择相对应的检索领域Entrez系统wwwEntrez可以采用几种不同途径的检索方式:

名词列表格式(listterm):当输入一检索词后,Entrez将列出与此相关的该领域中所有标准的检索词名称,此时,可选择一或多个标准名词去检索。

自动格式(automatic):当输入一个检索词后,即自动检索,如果输入的检索词超过一个,则Entrez会自动将之组合起来,如果无结果,则可尝试将这多个检索词用“”括起来。Entrez系统检索模式(SearchModes)

每一个文件都可以有数种阅读方式,目的各不相同。一般来说,“引文格式(citation)”最适合于阅读Medline形式的文件;“GenPept”格式适用于阅读蛋白质文件;“GenBank”格式用来阅读核酸文件。Entrez系统阅读文献(ViewingDocument)文字检索词(TextWords):包含文章中的所有词,其中:Medline词目:标题和文摘蛋白质词目:定义,评论,蛋白名称,蛋白描述核酸条目:定义,评论,基因名称,基因名称标题检索词(TitleWords):

在标题中出现的词,或在描述该条目时出现的词卷(Volume):

刊登该文章杂志所在卷使用MedlineUID,PubMedID和SeqID进行检索时,在栏目框中要输入数字。如要输入多个数字,中间要用空格或逗号隔开。并选择相对应的检索领域Entrez系统

每一个文件都可以有数种阅读方式,目的各不相同。一般来说,“引文格式(citation)”最适合于阅读Medline形式的文件;“GenPept”格式适用于阅读蛋白质文件;“GenBank”格式用来阅读核酸文件。Entrez系统阅读文献(ViewingDocument)1.2NCBI上常用的生物学资源BLAST家族

BLAST是目前最常用的DNA和蛋白质序列数据库搜索算法。BLASTP:比较一个查询蛋白序列和一个蛋白序列数据库BPASTN:比较一个核酸查询序列和一个核酸序列数据库BLASTX:比较一个查询核酸序列和一个蛋白序列数据库,能用此方法发现一个未知核酸序列的潜在翻译产物TBLASTN:比较一个查询蛋白序列和一个核酸序列数据库TBLASTX:将DNA查询序列和核酸序列库中的序列全部翻译成蛋白质序列,然后进行蛋白质序列比较4、数据库技术及数据挖掘数据库技术数据仓库虚拟数据库技术(VirtualDatabase,简称VDB)数据挖掘(datamining)又称作数据库中的知识发现(KnowledgeDiscoveryinDatabase),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析Entrez是面向生物学家的数据库查询系统,其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另外一个数据库Entrez的另一个特点是把数据库和应用程序结合在一起。例如,通过“Relatedsequence”工具,可以直接找到与查询所得蛋白质序列同源的其它蛋白质。查询得到的蛋白质三维结构,可以通过在用户计算机上安装的Cn3D软件直接显示分子图形。Entrez系统的开发基于特殊的数据模型NCBIANS.1(AbstractSyntaxNotation),在对于文献摘要中的关键字查询时,不仅考虑了查询对象和数据库中单词的实际匹配,而且考虑了意义相近的匹配。在查询文献数据库摘要得到结果后,可以通过点击“RelatedArticles”继续查找相关文献。现状及问题1.我国已有强大的DNA测序中心:

华大,北方,南方,..但我们需要运算速度远比现在计算速度快的机器或方法.

2.生物信息学处理系统处于初级规模.有一些Genbank,EMBL,GCG的镜象.

(1).没有自己的完善的系统(2).没有大量新算法的开发

3.后基因组:科研单位及制药工业并未完全吸收利用生物信息学的工具.基因组测序计划海量DNA序列数据DNA序列是生命的真谛,生命的源代码。人类基因组计划(HGP)1990年启动目标:测定人类基因组的全部DNA序列,了解基因及其功能国际大合作:美国、英国、日国、法国、德国、中国投入:30亿美元结果:2003年完成精细图,长度约为30亿个碱基人类基因组的组成

核基因组(nucleargenome):由大约30亿bp组成,分为24条线性DNA分子(55~250Mb),分别包含在24条不同的染色体中(22条常染色体和2条性染色体X、Y)

线粒体基因组(mitochondriongenome):长为16,569bp的环状DNA分子,位于产生能量的细胞器——线粒体中基因组测序完成生物及基因数目预测

生物基因组大小完成时间预计基因数目酵母12.1Mb19966,034线虫97Mb199819,099果蝇180Mb200013,061拟南芥125Mb200025,498人类3000Mb200126,000-38,000水稻460Mb200144,000-65,000150多个物种的基因组测序完成/正在进行中humanArabidopsis拟南芥ThermotogamaritimaEscherichiacoli大肠杆菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylori

mouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物基因组数据库GeneCard:人类基因的综合数据库GeneCards是人类基因的综合数据库,包括基因组,蛋白质组和转录组的信息,以及相关疾病,单核苷酸多态性,基因表达,基因功能等信息。UCSC’sHumanGenomeBrowser果蝇(常用模式生物)数据库

/

AceDB:线虫基因组数据库MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationII:FindingHomologsMajor

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论