生物信息学教学第1章课件_第1页
生物信息学教学第1章课件_第2页
生物信息学教学第1章课件_第3页
生物信息学教学第1章课件_第4页
生物信息学教学第1章课件_第5页
已阅读5页,还剩137页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学教学第1章课件生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他种类数据库。生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的生物信息学数据库分类

生物信息数据库种类繁多,就目前来看,大体可以分为四个大类:

1.基因组数据库;

2.核酸和蛋白质一级结构序列数库;

3.生物大分子(主要是蛋白质)三维空间结构数据库;

4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、专业数据库或专用数据库。一级数据库生物信息学数据库分类生物信息数据库种类繁多第二节核酸序列数据库

Section2NucleicAcidsequenceDatabases自20世纪80年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表达数据库、人类基因突变及疾病相关数据库、进化相关数据库及其他与核酸有关的数据库。第二节核酸序列数据库

Section2Nu三大核酸序列数据库GenBankEMBLDDBJ

三大核酸序列数据库GenBank特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)等。基因组相关数据库:人类基因组数据库(HGD);核酸三维结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。核酸三维结构数据库:核苷酸三维结构数据库(NDB);基因表达数据库:基因表达库(GEO);斯坦福微阵列数据库(SMD);ArrayExpress;CGED;GXD;BodyMap等。基因表达数据库:基因表达库(GEO);人类基因突变及疾病相关数库:人类基因变异数据库(HMGD)、人类遗传双等位基因序列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、国际单体型计划(HapMap)、人类单核苷酸多态性数据库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数据库(GAD)、癌症基因数据库(CGAP)、人类表观遗传数据库(HEP)、人类DNA甲基化与癌症数据库(MethylCancer)等。人类基因突变及疾病相关数库:人类基因变异数据库(HMGD)、一、GenBank数据库GenBank(/genbank/)是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。

一、GenBank数据库GenBank(http://GenBank是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressedsequencetag,EST)、基因组测序序列(genomesurveysequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。GenBank是具有目录和生物学注释的核酸序列综合数据库,由GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase,EMBL)和日本的DNA数据库(DNADataBankofJapanDDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据在NCBI(/)的主页上提供了进入GenBank的路径、相关检索和分析服务。通过NCBI的检索系统(Entrez)可以进入GenBank。Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务。

在NCBI(http://www.ncbi.nlm.nih.(一)GenBank数据库结构1.依据序列的物种来源分类2.Genbank记录和分类2.1表达序列标签(EST)2.2序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV)2.3高通量基因组(HTG)和高通量cDNA(HTC)序列2.4全基因组鸟枪测序序列(WGS)2.5转录组鸟枪组合序列(一)GenBank数据库结构1.依据序列的物种(一)GenBank数据库结构3.特殊记录类型3.1第三方注释(TPA)3.2GenBankCON记录较小记录组合记录(一)GenBank数据库结构3.特殊记录类型(二)构建数据库1.直接电子提交1.1使用BankIt提交1.2使用Sequin和tbl2asn提交1.3条形码序列提交2.序列标识符和记录号(二)构建数据库1.直接电子提交(三)检索GenBank数据1.Entrez系统(/sites/gquery)2.与测序计划检索相关的序列记录(//genomeprj)3.BLAST序列相似性搜索(/Blast.cgi)4.用FTP获取GenBank(/genbank)(三)检索GenBank数据1.Entrez系统二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http://www.edi.ac.uk/embl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。二、EMBL数据库EMBL建立于1980年,EMBL核苷序列三、DDBJ数据库日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。三、DDBJ数据库日本DNA数据库(DDBJ)是在亚洲四、其他重要的核酸序列数据库dbEST:dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。ncRNAdb:非编码RNA(non-codingRNAncRNA)数据库旨在提供非编码RNA的序列和功能信息。miRBase:miRBase序列数据库主要存放已发表的微小RNA(microRNAmiRNA)序列和注释的数据库。四、其他重要的核酸序列数据库dbEST:dbEST是GenB第三节蛋白质序列数据库

Section3ProteinSequenceDatabase

随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。

第三节蛋白质序列数据库

Section3常用的蛋白质序列数据库:PIRMIPSSwiss-Prot常用的蛋白质序列数据库:PIR蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART等蛋白质功能、结构域和蛋白质家族有关的数据库:PROSI蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等蛋白质三维结构相关数据库:PDB蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretixlinks蛋白质二维凝胶电泳数据库:WORLD-2DPAGE信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等信号传导及蛋白质-蛋白质相互作用相关数据库:DIPDNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质DNA和蛋白质相互作用数据库:DPInteract一、PIR数据库蛋白质信息库(PIR)(/pirwww/)是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。PIR是由美国国家生物医学基金会(NBRF)于1984年建立,帮助研究者确认和解释蛋白序列信息的数据库。PIR免费为科学界提供包括蛋白序列数据库(PSD)在内的蛋白数据库和分析工具。一、PIR数据库蛋白质信息库(PIR)(http://pirPIR信息库资源PIR信息库资源二、MIPS数据库慕尼黑蛋白质序列信息中心(MIPS)(http://www.helmholtz-muenchen.de/en/mips),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。

二、MIPS数据库慕尼黑蛋白质序列信息中心(MIPS)(ht三、其他重要的蛋白质序列数据库:PRINTSPfam三、其他重要的蛋白质序列数据库:PRINTS第四节NCBI与EBI

Section4NCBIandEBI一、NCBI的简介二、EBI简介第四节NCBI与EBI

Section4一、NCBI的简介作为一个国家分子生物学信息资源,NCBI的使命是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,NCBI肩负建立存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进研究方法。一、NCBI的简介作为一个国家分子生物学信息资源,NCBI的二、EBI简介欧洲生物信息学研究所(EMBL-EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBI维护世界上最广泛的分子数据库。EMBL-EBI是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,EMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。

二、EBI简介欧洲生物信息学研究所(EMBL-EBI),是欧三、通过EntrezGene从NCBI获取序列信息Entrez主要是用于NCBI数据库综合的、基于文本的搜索和检索系统。Entrez综合了科学文献、DNA和蛋白序列数据、3D蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。它用于搜索NCBI链接数据库的检索系统。三、通过EntrezGene从NCBI获取序列信息EnEntrez检索系统子数据库Entrez检索系统子数据库(一)EntrezGene检索EntrezGene检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在NCBI的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。EntrezGene用NCBI参考序列(RefSeqs)覆盖了基因组,还被整合到NCBI的Entrez和E-Utilities系统的索引、查询和检索中。

(一)EntrezGene检索EntrezNCBI检索首页检索窗口的数据库

选项下拉菜单NCBI检索首页检索窗口的数据库

选项下拉菜单检索栏(for)输入“IL-2human”

检索栏(for)输入“IL-2human”(二)EntrezGene记录显示格式当进行检索时,检索结果以摘要(summary)格式显示,每页可显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的Links可以关联到显示相关的Entrez记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。(二)EntrezGene记录显示格式当进行检索EntrezGene检索结果摘要格式显示页面

EntrezGene检索结果摘要格式显示页面EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(后部分)EntrezGene全文报告页面(后部分)

IL2mRNA的Nucleotide数据库记录检索结果显示界面

IL2mRNA的Nucleotide数据库(三)Nucleotide数据库记录显示格式

Nucleotide数据库记录的显示结果,可以GenBank、FASTA、Graphics和ASN.1格式显示,序列信息通常用FASTA和GenBank两种格式显示,FASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。(三)Nucleotide数据库记录显示格式Nucle四、通过SRS从EBI中获取蛋白质序列信息

SRS(http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?+quickSearch+-id+76e2D1aC0Ri)是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在EBI的数据库有300多个。SRS有三种检索方式:快速检索、标准检索和批量检索。四、通过SRS从EBI中获取蛋白质序列信息SRS(ht生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件>gi|224514618|ref|NT_077402.2|Homosapienschromosome1genomiccontig,GRCh37.p2referenceprimaryassemblyTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACCCTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCGCCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGACAACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGTTGCAAAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGGCGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGGCGCAGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAGGCGTGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGTCGCACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCA>gi|224514618|ref|NT_077402.2|生物信息学教学第1章课件tax_idGeneIDEnsembl_gene_identifierRNA_nucleotide_accession.versionEnsembl_rna_identifierprotein_accession.versionEnsembl_protein_identifier722730970FBgn0040373NM_130477.2FBtr0070108NP_569833.1FBpp0070103722730970FBgn0040373NM_166834.1FBtr0070107NP_726658.1FBpp0070102722730971FBgn0040372NM_130478.2FBtr0070063NP_569834.1FBpp0070062722730972FBgn0261446NM_130479.2FBtr0070106NP_569835.1FBpp0070101722730973FBgn0000316NM_057682.2FBtr0070065NP_477030.1FBpp0070064722730973FBgn0000316NM_166835.2FBtr0070064NP_726659.1FBpp0070063tax_id722730970FBgn00403生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件SRS开始页面SRS开始页面SRS快速文本检索窗口SRS快速文本检索窗口SRS检索结果页面显示的检索结果SRS检索结果页面显示的检索结果SRS蛋白质记录详细内容页面SRS蛋白质记录详细内容页面SRS蛋白质序列显示窗口SRS蛋白质序列显示窗口SRS标准检索页面SRS标准检索页面SRS标准检索页面检索基因名为“KRAS”蛋白序列输入示意图

SRS标准检索页面检索基因名为“KRAS”蛋白序列输入示意图SRS标准检索结果输出页面SRS标准检索结果输出页面小结本章介绍了生物信息学常用的数据库和重要网站,重点介绍了三大核酸数据库:GenBank数据库、EMBL数据库和DDBJ数据库。NCBI的EntrezGene将分类、基因组、图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起,为用户提供了便捷的检索方式。EBI的SRS检索系统是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS检索系统是个开放的系统,可以根据用户不同的需要安装不同的数据库,便于用户开发具有自己特性的操作平台,尤其在数据分析方面,对于检索的信息可以进行多种方式的分析处理。小结本章介绍了生物信息学常用的数据库和重要生物信息学教学第1章课件生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他种类数据库。生物信息学数据库生物信息学中的各类数据库几乎覆盖了生命科学的生物信息学数据库分类

生物信息数据库种类繁多,就目前来看,大体可以分为四个大类:

1.基因组数据库;

2.核酸和蛋白质一级结构序列数库;

3.生物大分子(主要是蛋白质)三维空间结构数据库;

4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、专业数据库或专用数据库。一级数据库生物信息学数据库分类生物信息数据库种类繁多第二节核酸序列数据库

Section2NucleicAcidsequenceDatabases自20世纪80年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表达数据库、人类基因突变及疾病相关数据库、进化相关数据库及其他与核酸有关的数据库。第二节核酸序列数据库

Section2Nu三大核酸序列数据库GenBankEMBLDDBJ

三大核酸序列数据库GenBank特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase;tRNAdb等。特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)等。基因组相关数据库:人类基因组数据库(HGD);核酸三维结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。核酸三维结构数据库:核苷酸三维结构数据库(NDB);基因表达数据库:基因表达库(GEO);斯坦福微阵列数据库(SMD);ArrayExpress;CGED;GXD;BodyMap等。基因表达数据库:基因表达库(GEO);人类基因突变及疾病相关数库:人类基因变异数据库(HMGD)、人类遗传双等位基因序列数据库(HGBASE)、人类孟德尔遗传在线(OMIM)、国际单体型计划(HapMap)、人类单核苷酸多态性数据库(dbSNP)、肿瘤基因数据库(TGDB)、疾病关联数据库(GAD)、癌症基因数据库(CGAP)、人类表观遗传数据库(HEP)、人类DNA甲基化与癌症数据库(MethylCancer)等。人类基因突变及疾病相关数库:人类基因变异数据库(HMGD)、一、GenBank数据库GenBank(/genbank/)是一个综合数据库,该数据库中包含了已经公开的30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。

一、GenBank数据库GenBank(http://GenBank是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressedsequencetag,EST)、基因组测序序列(genomesurveysequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。GenBank是具有目录和生物学注释的核酸序列综合数据库,由GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库(EuropeanMolecularBiologyLaboratoryNucleotideSequenceDatabase,EMBL)和日本的DNA数据库(DNADataBankofJapanDDBJ)进行数据交换,以保证数据库内容在全世界范围的同步性。GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据在NCBI(/)的主页上提供了进入GenBank的路径、相关检索和分析服务。通过NCBI的检索系统(Entrez)可以进入GenBank。Entrez检索程序整合了主要的DNA和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的PubMed的生物医学文献信息。BLAST程序提供GenBank和其他序列数据库中序列相似性搜索服务。

在NCBI(http://www.ncbi.nlm.nih.(一)GenBank数据库结构1.依据序列的物种来源分类2.Genbank记录和分类2.1表达序列标签(EST)2.2序列标签位点(STS)、基因组勘测序列(GSS)和环境样品序列(ENV)2.3高通量基因组(HTG)和高通量cDNA(HTC)序列2.4全基因组鸟枪测序序列(WGS)2.5转录组鸟枪组合序列(一)GenBank数据库结构1.依据序列的物种(一)GenBank数据库结构3.特殊记录类型3.1第三方注释(TPA)3.2GenBankCON记录较小记录组合记录(一)GenBank数据库结构3.特殊记录类型(二)构建数据库1.直接电子提交1.1使用BankIt提交1.2使用Sequin和tbl2asn提交1.3条形码序列提交2.序列标识符和记录号(二)构建数据库1.直接电子提交(三)检索GenBank数据1.Entrez系统(/sites/gquery)2.与测序计划检索相关的序列记录(//genomeprj)3.BLAST序列相似性搜索(/Blast.cgi)4.用FTP获取GenBank(/genbank)(三)检索GenBank数据1.Entrez系统二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http://www.edi.ac.uk/embl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ(Japan)和GenBank(USA)交换的数据。二、EMBL数据库EMBL建立于1980年,EMBL核苷序列三、DDBJ数据库日本DNA数据库(DDBJ)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于DDBJ每天将搜集的数据与EMBL-Bank/EBI和GenBank/NCBI进行交换,使得三个核酸数据库几乎在任何时候都享有相同数据。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。三、DDBJ数据库日本DNA数据库(DDBJ)是在亚洲四、其他重要的核酸序列数据库dbEST:dbEST是GenBank中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。ncRNAdb:非编码RNA(non-codingRNAncRNA)数据库旨在提供非编码RNA的序列和功能信息。miRBase:miRBase序列数据库主要存放已发表的微小RNA(microRNAmiRNA)序列和注释的数据库。四、其他重要的核酸序列数据库dbEST:dbEST是GenB第三节蛋白质序列数据库

Section3ProteinSequenceDatabase

随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。

第三节蛋白质序列数据库

Section3常用的蛋白质序列数据库:PIRMIPSSwiss-Prot常用的蛋白质序列数据库:PIR蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART等蛋白质功能、结构域和蛋白质家族有关的数据库:PROSI蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等蛋白质三维结构相关数据库:PDB蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretixlinks蛋白质二维凝胶电泳数据库:WORLD-2DPAGE信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等信号传导及蛋白质-蛋白质相互作用相关数据库:DIPDNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质DNA和蛋白质相互作用数据库:DPInteract一、PIR数据库蛋白质信息库(PIR)(/pirwww/)是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。PIR是由美国国家生物医学基金会(NBRF)于1984年建立,帮助研究者确认和解释蛋白序列信息的数据库。PIR免费为科学界提供包括蛋白序列数据库(PSD)在内的蛋白数据库和分析工具。一、PIR数据库蛋白质信息库(PIR)(http://pirPIR信息库资源PIR信息库资源二、MIPS数据库慕尼黑蛋白质序列信息中心(MIPS)(http://www.helmholtz-muenchen.de/en/mips),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。

二、MIPS数据库慕尼黑蛋白质序列信息中心(MIPS)(ht三、其他重要的蛋白质序列数据库:PRINTSPfam三、其他重要的蛋白质序列数据库:PRINTS第四节NCBI与EBI

Section4NCBIandEBI一、NCBI的简介二、EBI简介第四节NCBI与EBI

Section4一、NCBI的简介作为一个国家分子生物学信息资源,NCBI的使命是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,NCBI肩负建立存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进研究方法。一、NCBI的简介作为一个国家分子生物学信息资源,NCBI的二、EBI简介欧洲生物信息学研究所(EMBL-EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBI维护世界上最广泛的分子数据库。EMBL-EBI是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,EMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。

二、EBI简介欧洲生物信息学研究所(EMBL-EBI),是欧三、通过EntrezGene从NCBI获取序列信息Entrez主要是用于NCBI数据库综合的、基于文本的搜索和检索系统。Entrez综合了科学文献、DNA和蛋白序列数据、3D蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。它用于搜索NCBI链接数据库的检索系统。三、通过EntrezGene从NCBI获取序列信息EnEntrez检索系统子数据库Entrez检索系统子数据库(一)EntrezGene检索EntrezGene检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在NCBI的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。EntrezGene用NCBI参考序列(RefSeqs)覆盖了基因组,还被整合到NCBI的Entrez和E-Utilities系统的索引、查询和检索中。

(一)EntrezGene检索EntrezNCBI检索首页检索窗口的数据库

选项下拉菜单NCBI检索首页检索窗口的数据库

选项下拉菜单检索栏(for)输入“IL-2human”

检索栏(for)输入“IL-2human”(二)EntrezGene记录显示格式当进行检索时,检索结果以摘要(summary)格式显示,每页可显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的Links可以关联到显示相关的Entrez记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。(二)EntrezGene记录显示格式当进行检索EntrezGene检索结果摘要格式显示页面

EntrezGene检索结果摘要格式显示页面EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(后部分)EntrezGene全文报告页面(后部分)

IL2mRNA的Nucleotide数据库记录检索结果显示界面

IL2mRNA的Nucleotide数据库(三)Nucleotide数据库记录显示格式

Nucleotide数据库记录的显示结果,可以GenBank、FASTA、Graphics和ASN.1格式显示,序列信息通常用FASTA和GenBank两种格式显示,FASTA格式仅包括该序列的简要特征,并以G、A、T、C四种碱基列出核苷酸序列,简单明了。而GenBank格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。(三)Nucleotide数据库记录显示格式Nucle四、通过SRS从EBI中获取蛋白质序列信息

SRS(http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?+quickSearch+-id+76e2D1aC0Ri)是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。SRS检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在EBI的数据库有300多个。SRS有三种检索方式:快速检索、标准检索和批量检索。四、通过SRS从EBI中获取蛋白质序列信息SRS(ht生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件生物信息学教学第1章课件>gi|224514618|ref|NT_077402.2|Homosapienschromosome1genomiccontig,GRCh37.p2referenceprimaryassemblyTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACCCTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCTAAC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论