ncbi数据库检索课件_第1页
ncbi数据库检索课件_第2页
ncbi数据库检索课件_第3页
ncbi数据库检索课件_第4页
ncbi数据库检索课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2.1 2.1 综合性数据库综合性数据库 NCBINCBI 美国参议员美国参议员Claude Pepper率先意识到信息计算机化过程率先意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了在方法对指导生物医学研究的重要性,发起了在1988年年11月月4日日建立国立生物技术信息中心的立法建立国立生物技术信息中心的立法.(National Center for Biotechnology Information , NCBI). NCBI隶属于国立医学图书馆(隶属于国立医学图书馆( National Library of Medicing, NLM)。NLM在创立和维护生物医学数据库方面有

2、在创立和维护生物医学数据库方面有丰富的经验。丰富的经验。/ 开发新的信息技术开发新的信息技术,来帮助理解控制健康和疾病来帮助理解控制健康和疾病的基本分子和遗传过程的基本分子和遗传过程1 建立自动化系统用于储存和分析分子生物学建立自动化系统用于储存和分析分子生物学,生物化学和遗传学方面的知识生物化学和遗传学方面的知识2 为研究人员和医学团体使用这些数据库和软为研究人员和医学团体使用这些数据库和软件提供便利件提供便利3 在国家和国际范围内搜集先进的生物技术信在国家和国际范围内搜集先进的生物技术信息息,为分析生物重要分子的结构和功能提供先进为分析生

3、物重要分子的结构和功能提供先进的基于计算机的信息分析处理方案的基于计算机的信息分析处理方案1 全核苷酸数据库全核苷酸数据库2 蛋白质数据库蛋白质数据库3 基因组数据库基因组数据库4 结构数据库结构数据库Expression sequence tag ,EST,genome survey sequence,GSS,orenucleotide翻译翻译DNA所得所得PIR,SWISS-PROT PDB已测序物种的基因组视图已测序物种的基因组视图,染色体完整序列图染色体完整序列图,遗传图和物理图遗传图和物理图又称为分子模型数据库又称为分子模型数据库MMDB,包含从晶体结构和核磁包含从晶体结构和核磁共振

4、实验中确定下来的蛋白质等大分子结构信息共振实验中确定下来的蛋白质等大分子结构信息,主要主要来源于来源于PDB,使用软件浏览结构使用软件浏览结构5 5 三维结构域数据库三维结构域数据库6 6 保守域数据库保守域数据库7 uniSTS7 uniSTS数据库数据库8 8 基因数据库基因数据库包含来自包含来自Entrez结构数据库的蛋白质结构域结构数据库的蛋白质结构域蛋白质结构域数据库蛋白质结构域数据库,从从Pfam,SMART,COG数据数据库中获得数据库中获得数据.是一个整合的是一个整合的,非冗余的非冗余的STS数据库数据库可通过基因名称可通过基因名称,同义词同义词,编号编号,出版物出版物,染色体

5、号等属性染色体号等属性寻找基因寻找基因9 UniGene9 UniGene数据库数据库GenBank 中基因序列的集合中基因序列的集合10 SNP10 SNP数据库数据库11 PopSet 11 PopSet 用于存储包括单核苷酸替换用于存储包括单核苷酸替换,一两个碱基的插入一两个碱基的插入或缺失等多态性信息或缺失等多态性信息包含用于群体进化或变异研究的比对序列包含用于群体进化或变异研究的比对序列12 GEO12 GEO数据库数据库准确的基因表达谱数据和大规模的分子实验数据准确的基因表达谱数据和大规模的分子实验数据13 PubMed Central13 PubMed Central数据库数据库

6、14 MesH14 MesH 数据库数据库15 Bookshelf 15 Bookshelf 数据库数据库公众医学信息中心公众医学信息中心,是是NLM在生命科学领域在生命科学领域期刊文献的数字存档期刊文献的数字存档医学主题词数据库医学主题词数据库生物医学方面的书箱生物医学方面的书箱16 OMIM 16 OMIM 数据库数据库主要着眼于可遗传或遗传性的基因疾病主要着眼于可遗传或遗传性的基因疾病,包括文献包括文献,序列记录序列记录,染色体定位图谱及相关的数据库的链接染色体定位图谱及相关的数据库的链接 是一个全局的生物医学搜索引擎是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括它可以检查的数

7、据库主要包括3类类:文献数据库文献数据库:PubMed ,PubMedCentral,Journals,Books,OMIM,OMIA.序列数据库序列数据库:Nucleotide,Protein,Genome,Structure,SNP 其它数据库其它数据库:Taxonomy, Gene,UniGene,HomoloGene,Conserved Domains,3D Domains, UniSTS,PopSet,GEO Profiles, GEO Datasets, PubChem BioAssay, PubChem Compound,PubChem Substance,Cancer Chro

8、mosomes, Probe,MeSH,Journals,NLM Catalog 已知菜豆斑驳病毒已知菜豆斑驳病毒(bean pod mottle virus, BPMV)的的名字名字,查询查询BPMV的基因组信息的基因组信息,核酸序列信息核酸序列信息,蛋白序列信蛋白序列信息和结构信息息和结构信息BPMV1 Genome数据库查询结果数据库查询结果2核酸数据库查询结果核酸数据库查询结果3蛋白质数据库查询结果蛋白质数据库查询结果4 结构数据库查询结果结构数据库查询结果5序列的下载序列的下载2.2 2.2 综合性数据库综合性数据库EMBL- EBIEMBL- EBI EBI(欧洲生物信息学中心欧洲

9、生物信息学中心)全称是全称是European Bioinformatics Institute,是一个非盈利性的学术机构,是一个非盈利性的学术机构,是欧洲分子生物学实验室(,是欧洲分子生物学实验室(EMBL,全称是,全称是European Molecular Biology Laboratory)的一部分。它的主要)的一部分。它的主要任务是建立、维护和提供生物学数据库以及信息学服务,任务是建立、维护和提供生物学数据库以及信息学服务,从而支持生物学数据的存放和进一步挖掘从而支持生物学数据的存放和进一步挖掘,位于德国海德位于德国海德尔堡尔堡,是世界上著名的生命科学研究机构。是世界上著名的生命科学研

10、究机构。 提供免费数据和生物信息学服务提供免费数据和生物信息学服务生物信息学研究生物信息学研究提供生物信息学培训提供生物信息学培训将技术应用于产业将技术应用于产业1 1 核酸序列数据库核酸序列数据库2 UniProt Knowledgebase2 UniProt Knowledgebase3 3 大分子结构数据库大分子结构数据库与与GenBank DDBJ同步同步通用蛋白质资源数据库通用蛋白质资源数据库, 最全面的储最全面的储存蛋白质信息的数据库存蛋白质信息的数据库收集并储存大分子结构信息收集并储存大分子结构信息,部分来源于部分来源于PDB4 Ensembl4 Ensembl提供并及时更新后生

11、生物的全基因组序列以及最为精确的注释提供并及时更新后生生物的全基因组序列以及最为精确的注释.5 UniProtKBSwiss-prot5 UniProtKBSwiss-prot是一个蛋白质信息最为准确的蛋白质数据库是一个蛋白质信息最为准确的蛋白质数据库,它所提供的蛋白质信息有着最详尽的注释和它所提供的蛋白质信息有着最详尽的注释和最少的冗余最少的冗余. 已知已知BPMV的名字的名字,查询其基因组的信息查询其基因组的信息,核酸序核酸序列信息列信息,蛋白质序列信息和结构信息蛋白质序列信息和结构信息SRS系统每次只能查询一个数据库系统每次只能查询一个数据库 Genome数据库查询结果数据库查询结果 历

12、史原因:没有完全统一的数据库格式;历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性了解所用数据库格式的重要性 一般由两部分组成:一般由两部分组成: 文字注释文字注释 内容(序列,内容(序列,) EMBL和和GenBank数据库的主要内容和格式数据库的主要内容和格式 序列名称、长度、日期序列名称、长度、日期序列说明、编号、版本号序列说明、编号、版本号物种来源、学名、分类学位置物种来源、学名、分类学位置相关文献作者、题目、刊物、日期相关文献作者、题目、刊物、日期序列特征表序列特征表碱基组成碱基组成序列(每行序列(每行60个碱基)个碱基) 描述符描述符长度长度生物分子类型生物分子类型

13、形状形状分类码分类码数据第一次被公开的日期数据第一次被公开的日期简单的描述简单的描述检索号检索号版本号,序列改变,版本加版本号,序列改变,版本加1Geninfo identifier 基因信息号基因信息号序列来源的生物名称序列来源的生物名称参考文献参考文献作者及参考文献题目作者及参考文献题目期刊,及发表年份,卷及期、页码期刊,及发表年份,卷及期、页码评注评注特征表特征表关键字关键字BASE COUNT ?A ?C ?G ?TORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagca

14、gc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacga

15、ggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaac

16、gcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c/序列部分序列部分EMBL标识字标识字GenBank标识字标识字含义含义IDLOCUS序列名称序列名称DEDEFINITION序列简单说明序列简单说明ACACCESSION唯一的序列编号唯一的序列编号SVVERSION序列版本号序列版本号KWKEYWORDS与序列相关的关键词与序列相关的关键词OSSOURCE序列来源的物种名序列来源的物

17、种名OCORGANISM序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置DT建立日期建立日期RNREFERENCE相关文献编号或提交注册信息相关文献编号或提交注册信息RAAUTHORS相关文献作者或提交序列作者相关文献作者或提交序列作者RTTITLE相关文献题目相关文献题目RLJOURNAL相关文献刊物名或作者单位相关文献刊物名或作者单位RXMEDLINE相关文献相关文献Medline引文代码引文代码RCREMARK相关文献注释相关文献注释RP相关文献其它注释相关文献其它注释CCCOMMENT关于序列的注释信息关于序列的注释信息DR相关数据库交叉引用号相关数据库交叉引用号FHFEA

18、TURES序列特征表起始序列特征表起始FT序列特征表子项序列特征表子项SQBASE CONTENT序列长度、碱基数目统计数序列长度、碱基数目统计数空格空格ORIGIN序列序列/序列结束标志、空行序列结束标志、空行ID U00096 standard; circular genomic DNA; CON; 4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003 (Rel. 76, Last updated, Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia

19、 coli K12OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Escherichia; Escherichia coli.RN 1RP 1-4639221RX MEDLINE; 97426617.RX PUBMED; 9278503.RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,RT The complete genome sequence of Escherich

20、ia coli K-12;RL Science 277(5331):1453-1474(1997).DR GOA; O32528.DR REMTREMBL; AAC74436; AAC74436.DR SPTREMBL; O32530; O32530.DR SWISS-PROT; O32528; YPDI_ECOLI. CC This sequence was determined by the E. coli Genome Project at theCC University of Wisconsin-Madison (Frederick R. Blattner, director).CC

21、 Supported by NIH grants HG00301 and HG01428 (from the Human GenomeCC Project and NCHGR). The entire sequence was independentlyCC determined from E. coli K-12 strain MG1655. Predicted open readingCC frames were determined using GeneMark software, kindly supplied byFH Key Location/QualifiersFT source

22、 1.4639221FT /db_xref=taxon:83333FT /mol_type=genomic DNAFT /organism=Escherichia coli K12FT /strain=K12FT /sub_strain=MG1655FT promoter 71.99FT /note=factor Sigma70; predicted +1 start at 106FT CDS 190.255FT /codon_start=1FT /db_xref=GOA:P03059FT /db_xref=SWISS-PROT:P03059FT /note=o21; 100 pct iden

23、tical to LPT_ECOLI SW: P03059FT /transl_table=11FT /gene=thrLFT /function=leader; Amino acid biosynthesis: ThreonineFT /product=thr operon leader peptideFT /protein_id=AAC73112.1FT /translation=MKRISTTITTTITITTGNGAG“SQ Sequence 4639221 BP; 1142136 A; 1179433 C; 1176775 G; 1140877 T; 0 other; agctttt

24、cat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acagga

25、aaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaa

26、tatcag cgatgccgaa 540 tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639140 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221/PubMed 概述概述 PubMed是美国国家医学图书馆是美国国家医学图书馆(NLM)所属所属的国家生物技术信息中心的国家生物技术信息中心(NCBI)开发的因特网生开发的因特网生物医学信息检索系统,位于美国国立卫生研究院物医学信息检索系统,位于美国国立卫生研究院(NIH)的平台上。)的平台上。 PubMed覆盖了全世界覆盖了全世界70多个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论