最新-第二章生物分子数据库-课件_第1页
最新-第二章生物分子数据库-课件_第2页
最新-第二章生物分子数据库-课件_第3页
最新-第二章生物分子数据库-课件_第4页
最新-第二章生物分子数据库-课件_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章生物分子数据库第二章生物分子数据库1第一节引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

第一节引言生物分子数据分子生物学建立生物分子数据库2

数据库记录(entry,item)通常包括两部分

原始数据(序列组成等)对这些数据进行的生物学意义的注释

一个数据库通常链接了多个相关数据库

核苷酸数据库-水稻抗病相关基因OsDR8

DQ176424Taxonomy数据库Pubmed数据库NCBI-Protein数据库其他数据库Cross-Reference数据库记录(entry,item)通常包括两部分原3最新-第二章生物分子数据库-课件4生物分子数据库分类

一级数据库(有冗余)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库(专业数据库)对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的生物分子数据库分类5最新-第二章生物分子数据库-课件6常用的生物分子数据库

三大核酸序列数据库:Genbank、EMBL、DDBJ

特殊类型的核酸序列数据库:非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、miRNA、tRNAdb蛋白质序列数据库:PIR、SWIS-PROT、MIPS核酸和蛋白质三维结构数据库:核苷酸三维结构数据库(NDB)、普纳大学核酸结构数据库(BNASDB)、蛋白质结构数据库(PDB,MMDB)基因组相关数据库:人类基因组数据库(HGD)、基因组序列数据库(GSDB)、基因组在线数据库(GOLD)基因表达数据库:基因表达库(GEO)、斯坦福微阵列数据库(SMD)、ArrayExpress常用的生物分子数据库7第二节核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL

embl-heidelberg.de

(2)美国生物技术信息中心的GenB/Web/Genbank/index.html

(3)日本遗传研究所的DDBJ

ddbj.nig.ac.jp/第二节核酸序列数据库国际上权威的核酸序列数据库8

信息资源共享,以天为基础进行数据库之间的序列数据交换,三个数据库中的数据基本一致,仅在数据格式上有所差别属于国际合作项目,这三个几乎一致的数据库称为国际核酸序列数据库(INSD)这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段

信息资源共享,以天为基础进行数据库之间的序列数据交换,三个9GenBank由美国国家医学图书馆的国家生物技术信息中心(NCBI)构建、维护和管理,NCBI位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressedsequencetag,EST)基因组测序序列(genomesurveysequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。一、NCBI简介/GenBank数据库GenBank由美国国家医学图书馆的国家生物技术信息中心(N10GenBank(/genbank/)数据库包含30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目

大约12%来源于Homosapiens排列前6的物种:Homosapiens、Musmusculus、Rattusnorvegicus、Bostaurus、Zeamays、Daniorerio(zebrafish)GenBank(/genba11最新-第二章生物分子数据库-课件12最新-第二章生物分子数据库-课件13GenBank核酸序列格式GenBank核酸序列格式14Locusname(位点名,座位名,同Accession)每条序列有三种专有标识符(identifier)和一个版本号GenInfoidentifier(GI)/NucleotideID(NID)Accessionnumber(登陆号,流水号,编号,注册号)10位字符属名第一字母+种名第一字母+6位字符的注册号2个字母+6个阿拉伯数字(presentform)Version(与登录号相同,后面有数字1,2,3…)Note:序列发生变化时,GI号改变,登录号不改变,

但是版本号会发生改变Locusname(位点名,座位名,同Accession)15最新-第二章生物分子数据库-课件16GenBank核酸序列检索GenBank核酸序列检索17NCBI检索首页检索窗口的数据库

选项下拉菜单NCBI检索首页检索窗口的数据库

选项下拉菜单18Entrez集成检索系统Entrez集成检索系统19检索栏(for)输入“IL-2human”

检索栏(for)输入“IL-2human”20EntrezGene检索结果摘要格式显示页面

EntrezGene检索结果摘要格式显示页面21EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(前部分)22EntrezGene全文报告页面(后部分)EntrezGene全文报告页面(后部分)23GenBank核酸序列提交GenBank核酸序列提交24最新-第二章生物分子数据库-课件25最新-第二章生物分子数据库-课件26最新-第二章生物分子数据库-课件27欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBIEMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。

二、EBI简介/

EBML数据库欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(EM28最新-第二章生物分子数据库-课件29SRS集成检索系统SRS集成检索系统30SRS快速文本检索窗口SRS快速文本检索窗口31SRS检索结果页面显示的检索结果SRS检索结果页面显示的检索结果32SRS蛋白质记录详细内容页面SRS蛋白质记录详细内容页面33三、DDBJ数据库日本DNA数据库DDBJ(DNADataBankofJapan),于1984年建立,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库。他们开发了SQmateh工具,用来搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了简便且易操作的SOAP(simpleobjectaeeessprotoco1)服务器。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。三、DDBJ数据库日本DNA数据库DDBJ(DNADat34最新-第二章生物分子数据库-课件35第三节蛋白质数据库随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。

第三节蛋白质数据库随着分子生物学的发展,人们获得了越来越多36常用的蛋白质序列数据库:PIRMIPSSwiss-Prot(trEMBL)

Present:UniProt数据库仓库

常用的蛋白质序列数据库:PIR37蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART等蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITE38蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等蛋白质三维结构相关数据库:PDB39蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretixlinks信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等蛋白质二维凝胶电泳数据库:WORLD-2DPAGE信号传导40Frequently-usedproteinsequencedatabaseUniProt:由EBI(EuropeanBioinformaticsInstitute)管理的数据库由两部分组成有详细注释的序列,数据来源于实验与40个数据库相互参照(cross-reference)Swiss-Prot/trEBMBFrequently-usedproteinsequen41UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt)

蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;(3)UniProtArchive(UniParc)资源库,记录所有蛋白质序列的历史。最新-第二章生物分子数据库-课件42最新-第二章生物分子数据库-课件43第四节常用的数据库第四节常用的数据库441、基因组数据库(GDB)

人类基因组计划所得到的图谱数据

目前GDB包含对下述三种对象的描述:(1)人类基因组区域

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;

(2)人类基因组图谱,

包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,

包括基因突变和基因多态性,加上等位基因频率数据。1、基因组数据库(GDB)人类基因组计划所得到的图谱数据45其它模式生物基因组数据库如:鼠基因组数据库MGD(/)酵母基因组数据库SGD(/Saccharomyces/)其它模式生物基因组数据库46Ensembl(/)人类基因组数据库EnsemblEnsembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征: 单核苷酸多态性(SNP)、重复序列等Ensembl(/)人类基因组数据库47Ensembl数据库结构图Ensembl数据库结构图482、表达序列标签数据库dbESTdbEST(/dbEST)是GenBank的一个部分,为GenBank的二级数据库EST(ExpressedSequenceTags)方法已被证明是识别转录序列的最有效方法,主要是从大量不同组织和器官得到的短mRNA片段,反转录成稳定的cRNA5’端或3’端的cDNA序列单轮测序获得EST,300-400bp

GenBank中大约56%的序列(65,255,769条序列,2019年)是EST,这些序列来源于>1370个物种

2、表达序列标签数据库dbESTdbEST(ncbi.nl493、蛋白质三维结构数据库3、蛋白质三维结构数据库50显示分子结构(RasMol,ChemView)显示分子结构(RasMol,ChemView)51Science309:1522(2019)转录RNA折叠形成pri-miRNApre-miRNAmiRNARISC携带有活性的miRNAmiRNAgenemicroRNA(miRNA)的形成4、miRNA数据库Science309:1522(2019)转录RNA折叠52

收集了10883条hairpinprecursormiRNA序列(2009.9)表达10581条maturemiRNA来源于115个物种可以通过miRNA名、关键词、染色体位置等检索数据库分析一条DNA序列中是否可能包含miRNA 收集了10883条hairpin53TheendTheend54第二章生物分子数据库第二章生物分子数据库55第一节引言生物分子数据高速增长分子生物学及相关领域研究人员迅速获得最新实验数据

建立生物分子数据库

第一节引言生物分子数据分子生物学建立生物分子数据库56

数据库记录(entry,item)通常包括两部分

原始数据(序列组成等)对这些数据进行的生物学意义的注释

一个数据库通常链接了多个相关数据库

核苷酸数据库-水稻抗病相关基因OsDR8

DQ176424Taxonomy数据库Pubmed数据库NCBI-Protein数据库其他数据库Cross-Reference数据库记录(entry,item)通常包括两部分原57最新-第二章生物分子数据库-课件58生物分子数据库分类

一级数据库(有冗余)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释二级数据库(专业数据库)对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的生物分子数据库分类59最新-第二章生物分子数据库-课件60常用的生物分子数据库

三大核酸序列数据库:Genbank、EMBL、DDBJ

特殊类型的核酸序列数据库:非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、miRNA、tRNAdb蛋白质序列数据库:PIR、SWIS-PROT、MIPS核酸和蛋白质三维结构数据库:核苷酸三维结构数据库(NDB)、普纳大学核酸结构数据库(BNASDB)、蛋白质结构数据库(PDB,MMDB)基因组相关数据库:人类基因组数据库(HGD)、基因组序列数据库(GSDB)、基因组在线数据库(GOLD)基因表达数据库:基因表达库(GEO)、斯坦福微阵列数据库(SMD)、ArrayExpress常用的生物分子数据库61第二节核酸序列数据库国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL

embl-heidelberg.de

(2)美国生物技术信息中心的GenB/Web/Genbank/index.html

(3)日本遗传研究所的DDBJ

ddbj.nig.ac.jp/第二节核酸序列数据库国际上权威的核酸序列数据库62

信息资源共享,以天为基础进行数据库之间的序列数据交换,三个数据库中的数据基本一致,仅在数据格式上有所差别属于国际合作项目,这三个几乎一致的数据库称为国际核酸序列数据库(INSD)这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段

信息资源共享,以天为基础进行数据库之间的序列数据交换,三个63GenBank由美国国家医学图书馆的国家生物技术信息中心(NCBI)构建、维护和管理,NCBI位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressedsequencetag,EST)基因组测序序列(genomesurveysequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。一、NCBI简介/GenBank数据库GenBank由美国国家医学图书馆的国家生物技术信息中心(N64GenBank(/genbank/)数据库包含30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目

大约12%来源于Homosapiens排列前6的物种:Homosapiens、Musmusculus、Rattusnorvegicus、Bostaurus、Zeamays、Daniorerio(zebrafish)GenBank(/genba65最新-第二章生物分子数据库-课件66最新-第二章生物分子数据库-课件67GenBank核酸序列格式GenBank核酸序列格式68Locusname(位点名,座位名,同Accession)每条序列有三种专有标识符(identifier)和一个版本号GenInfoidentifier(GI)/NucleotideID(NID)Accessionnumber(登陆号,流水号,编号,注册号)10位字符属名第一字母+种名第一字母+6位字符的注册号2个字母+6个阿拉伯数字(presentform)Version(与登录号相同,后面有数字1,2,3…)Note:序列发生变化时,GI号改变,登录号不改变,

但是版本号会发生改变Locusname(位点名,座位名,同Accession)69最新-第二章生物分子数据库-课件70GenBank核酸序列检索GenBank核酸序列检索71NCBI检索首页检索窗口的数据库

选项下拉菜单NCBI检索首页检索窗口的数据库

选项下拉菜单72Entrez集成检索系统Entrez集成检索系统73检索栏(for)输入“IL-2human”

检索栏(for)输入“IL-2human”74EntrezGene检索结果摘要格式显示页面

EntrezGene检索结果摘要格式显示页面75EntrezGene全文报告页面(前部分)EntrezGene全文报告页面(前部分)76EntrezGene全文报告页面(后部分)EntrezGene全文报告页面(后部分)77GenBank核酸序列提交GenBank核酸序列提交78最新-第二章生物分子数据库-课件79最新-第二章生物分子数据库-课件80最新-第二章生物分子数据库-课件81欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBIEMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。

二、EBI简介/

EBML数据库欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(EM82最新-第二章生物分子数据库-课件83SRS集成检索系统SRS集成检索系统84SRS快速文本检索窗口SRS快速文本检索窗口85SRS检索结果页面显示的检索结果SRS检索结果页面显示的检索结果86SRS蛋白质记录详细内容页面SRS蛋白质记录详细内容页面87三、DDBJ数据库日本DNA数据库DDBJ(DNADataBankofJapan),于1984年建立,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库。他们开发了SQmateh工具,用来搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了简便且易操作的SOAP(simpleobjectaeeessprotoco1)服务器。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。三、DDBJ数据库日本DNA数据库DDBJ(DNADat88最新-第二章生物分子数据库-课件89第三节蛋白质数据库随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。

第三节蛋白质数据库随着分子生物学的发展,人们获得了越来越多90常用的蛋白质序列数据库:PIRMIPSSwiss-Prot(trEMBL)

Present:UniProt数据库仓库

常用的蛋白质序列数据库:PIR91蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITEInterProPfamProDomSMART等蛋白质功能、结构域和蛋白质家族有关的数据库:PROSITE92蛋白质三维结构相关数据库:PDBBioMagResBankSWISS-MODELRepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等蛋白质三维结构相关数据库:PDB93蛋白质二维凝胶电泳数据库:WORLD-2DPAGEPhoretixlinks信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等蛋白质二维凝胶电泳数据库:WORLD-2DPAGE信号传导94Frequently-usedproteinsequencedatabaseUniProt:由EBI(EuropeanBioinformaticsInstitute)管理的数据库由两部分组成有详细注释的序列,数据来源于实验与40个数据库相互参照(cross-reference)Swiss-Prot/trEBMBFrequently-usedproteinsequen95UniProt包含3个部分:(1)UniProtKnowledgebase(UniProt)

蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProtNon-redundantReference(UniRef)数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度;(3)UniProtArchive(UniParc)资源库,记录所有蛋白质序列的历史。最新-第二章生物分子数据库-课件96最新-第二章生物分子数据库-课件97第四节常用的数据库第四节常用的数据库981、基因组数据库(GDB)

人类基因组计划所得到的图谱数据

目前GDB包含对下述三种对象的描述:(1)人类基因组区域

包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;

(2)人类基因组图谱,

包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,

包括基因突变和基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论