二生物信息学数据库及检索_第1页
二生物信息学数据库及检索_第2页
二生物信息学数据库及检索_第3页
二生物信息学数据库及检索_第4页
二生物信息学数据库及检索_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、常用数据库简介常用数据库简介数据库(数据库(Database) 用于收集、整理、储存、加工、发布和检索数据的用于收集、整理、储存、加工、发布和检索数据的系统。系统。u 生物类的数据库种类很多生物类的数据库种类很多u 投稿文章首先要将核苷酸序列或蛋白质序列提交到投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中相应的数据库中u 数据库记录通常包括两部分数据库记录通常包括两部分v 原始数据原始数据v 对这些数据进行的生物学意义的注释对这些数据进行的生物学意义的注释u 一个数据库通常链接了多个相关数据库一个数据库通常链接了多个相关数据库 核苷酸数据库水稻抗病相关基因核苷酸数据库水稻抗病相关基

2、因OsDR8 DQ176424Taxonomy 数据库数据库Pubmed 数据库数据库NCBI-Protein 数据库数据库(一)数据库工具(一)数据库工具u 建立纯文本数据库建立纯文本数据库v GenBank 数据库、数据库、EMBL 核苷酸数据库核苷酸数据库 u MySQL 数据库工具数据库工具v SQL(结构化查询语言)是世界上流行的和(结构化查询语言)是世界上流行的和标准化的数据库语言标准化的数据库语言v 能够快速灵活存储记录文件和图像能够快速灵活存储记录文件和图像v 下载网址下载网址 http:/ AceDB 数据库工具数据库工具v AceDB:A C. elegans DataBa

3、se(线虫(线虫数据库)数据库)v 被广泛应用的管理和提供基因组数据被广泛应用的管理和提供基因组数据的工具的工具v 数据形式丰富数据形式丰富 遗传图谱遗传图谱 物理图谱物理图谱 新陈代谢途径新陈代谢途径 序列等序列等G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1044NBS119RM144Y6855RA0.00111 gggctccacc actagtaccc ctcactacag gtagccataa aaaaaatcga tcaccaaaac 61 ccattattag gttgtgtact gatacagaaa gttggg

4、aacc aatctcccag cacagaaaac 121 ggtacggttc attagcgcgt gattaattaa atatttacta ttttttaaaa aaaatagatc 181 aatatgattt ttaagcaact ttcgtataaa tactttttca aaaaaacaca ccgttttcta 241 gtttgaaaag cgtacacgcg tgaaatgagg gagaaaggtt ggaaacgtgg gattgcaaac (二)各种生物数据库(二)各种生物数据库1、核苷酸数据库、核苷酸数据库u DNA、mRNA、tRNA、rRNA序列序列u RN

5、A序列以序列以cDNA序列的形式收集序列的形式收集u 核苷酸序列直接来源于实验数据核苷酸序列直接来源于实验数据u 大量氨基酸序列大量氨基酸序列v 主要是非实验来源数据主要是非实验来源数据v coding sequence (CDS)u 数据库种类很多数据库种类很多v GenBank、EMBL核苷酸数据库、核苷酸数据库、DDBJ v 信息资源共享:以天为基础进行数据库之间的序列数信息资源共享:以天为基础进行数据库之间的序列数据交换据交换v 收集了专利的核苷酸序列收集了专利的核苷酸序列 United States Patent and Trademark Office (USPTO) Europe

6、an Patent Office (EPO) Japan Patent Office (JPO)u 三大核苷酸数据库三大核苷酸数据库u 国际核苷酸序列数据库合作协议国际核苷酸序列数据库合作协议(International Nucleotide Sequence Database Collaboration)收集的核苷酸来源收集的核苷酸来源(1)GenBank /genbank/u 美国美国NCBI的数据库,有部分蛋白质序列的数据库,有部分蛋白质序列u 数据每天更新,每年发行(数据每天更新,每年发行(release)六版)六版u Release

7、 185(2011.8.15)v 142284608 sequencesv 130671233801 basesv 142284608 loci 下载全部序列大概需要下载全部序列大概需要511 GBu 来源于来源于500,000多个物种多个物种u 大约大约12.2来源于来源于Homo sapiens在在GenBank数据库中序列最多的数据库中序列最多的20个物种个物种Growth of GenBank (1982-2009)Base pairs/1,000,000,000Entries/1,000,000v Locus name(位点名)(位点名)v Accession number (注册号

8、或登陆号)(注册号或登陆号)v GI(GenInfo identifier)NID(Nucleotide ID)u 每个序列有一个每个序列有一个flatfileu 每条序列有三个专有的编号或标识(每条序列有三个专有的编号或标识(identifier)u LOCUS line分支缩写分支缩写分支全称分支全称 PRI灵长类序列灵长类序列 (primate sequences)ROD啮齿类序列啮齿类序列 (rodent sequences)MAM其它哺乳类序列其它哺乳类序列 (other mammalian sequences)VRT其它脊椎动物序列其它脊椎动物序列 (other vertebrat

9、e sequences)INV无脊椎动物序列无脊椎动物序列 (invertebrate sequences)PLN植物、真菌和海藻类序列植物、真菌和海藻类序列 (plant, fungal, and algal sequences)BCT细菌序列细菌序列 (bacterial sequences)VRL病毒序列病毒序列 (viral sequences)PHG噬菌体序列噬菌体序列 (bacteriophage sequences)The divisions(分支)(分支)of GenBank分支缩写分支缩写分支全称分支全称SYN合成序列合成序列 (synthetic sequences)UNA

10、未注释的序列未注释的序列 (unannotated sequences)EST表达序列标签表达序列标签 (expressed sequence tags)PAT已专利的序列已专利的序列 (patent sequences)STS序列标签位点序列标签位点 (sequence tagged sites)GSS基因组序列基因组序列 (genome survey sequences)HTG高通量基因组序列高通量基因组序列 (high throughput genomic sequences)HTC高通量高通量cDNA序列序列 (high throughput cDNA sequences)The di

11、visions(分支)(分支)of GenBank(2)dbEST (Database of Expressed Sequence Tags) /dbEST/index.htmlu GenBank的二级数据库的二级数据库uEST cDNA 序列的一个片断(序列的一个片断(5端、端、3端、端、CDS)u 300400 bpSingle-pass sequenceu GenBank 中中64以上的序列是以上的序列是 EST(3)UniGene 数据库数据库 /UniGene/u NCBI 的另一

12、个核苷酸数据库的另一个核苷酸数据库u 来源于同一基因的非重复来源于同一基因的非重复 EST 组成基因序列群组成基因序列群v 人、大鼠、小鼠、斑马鱼、牛、蛙等人、大鼠、小鼠、斑马鱼、牛、蛙等v 拟南芥、水稻、小麦、大麦、玉米等拟南芥、水稻、小麦、大麦、玉米等v 共计共计97个物种个物种u UniGene主页输入关键词主页输入关键词检索检索(4)dbSTS (Database of Sequence Tagged Sites) /dbSTS/index.htmlu GenBank的二级数据库的二级数据库u 短序列(短序列(200-500 bp)u

13、 已定位于染色体上的、序列已知的单拷贝已定位于染色体上的、序列已知的单拷贝DNA短片段短片段u 检索:检索:GenBank主页主页选择选择UniSTS后输入关键词后输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容点击点击“mv”查看染色体定位查看染色体定位(5)dbGSS (Database of Genome Survey Sequences) /dbGSS/index.htmlcosmid / BAC / YACG1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63 L1

14、044NBS119RM144Y6855RA0.0011 The GSS division of GenBank is similar to the EST division, with the exception that most of the sequences are genomic in origin, rather than cDNA (mRNA).Genome Survey Sequences are typically generated and submitted to NCBI by labs performing genome sequencing and are used

15、, amongst other things, as a framework for the mapping and sequencing of genome size pieces included in the standard GenBank divisions.u GenBank的二级数据库的二级数据库The GSS division contains (but is not limited to) the following types of data: random single pass read genome survey sequences. cosmid/BAC/YAC e

16、nd sequences exon trapped genomic sequences Alu PCR sequences transposon-tagged sequences (6)HTG (High-Throughput Genomic Sequences) /HTGS/u GenBank 的二级数据库的二级数据库u 尚未完成测序的重叠群(尚未完成测序的重叠群( 2 kb)的序列)的序列u 新序列的增加速度很快新序列的增加速度很快cosmid / BAC / YACA typical HTG record might consist o

17、f all the first pass sequence data generated from a single cosmid, BAC, YAC, or P1 clone which together make up more than 2 kb and contain one or more gaps.abcabcdPhase 0Phase 1Phase 2Phase 3未知序列未知序列ecosmid / BAC / YAC(7)基因组数据库)基因组数据库 /entrez/query.fcgi?db=Genomeu NCBI 的另一个

18、数据库的另一个数据库u 测序完成和正在测序物种基因组序列、遗传图、物理图测序完成和正在测序物种基因组序列、遗传图、物理图等等u 序列收集在序列收集在GenBanku 数据形式丰富数据形式丰富u 已经完成测序的基因组已经完成测序的基因组Taxonomic coverage(8)dbSNP (Database of Single Nucleotide Polymorphisms) /SNP/u NCBI的数据库,创建于的数据库,创建于1998.9u 约每约每100300 bp 有一个有一个SNPu 数据种类数据种类Single nucleotid

19、e polymorphism(SNP)Short deletion-Insertion polymorphismInsertion/deletion (Indel)Deletion/insertion/substitution (DIS)u dbSNP主页输入关键词主页输入关键词检索到的条目检索到的条目每一条目详细内容每一条目详细内容代码代码碱基碱基互补代码互补代码MA或或CKRA或或GYWA或或TWSC或或GSYC或或TRKG或或TMVA、C或或GBHA、C或或TDDA、G或或THBC、G或或TVNG、A、T或或CN标准碱基多意代码标准碱基多意代码tyrosine kinase酪氨酸激酶(9

20、)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Databasev EBI (European Bioinformatics Institute) 管理管理v 主要是欧洲国家产生的主要是欧洲国家产生的 DNA 和和 RNA 序列序列v 序列数据序列数据文档文档格式与格式与 GenBank 不同不同数据库主页数据库主页http:/www.ebi.ac.uk/embl/Access/index.html输入关键输入关键词词检索到的检索到的条目条目每一条目每一条目详细内容详细内容(10)DDBJ (DNA Data

21、Bank of Japan)u 主要是日本产生的主要是日本产生的 DNA 和和 RNA 序列序列数据库主页数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html输入关键词输入关键词检索到的检索到的条目条目每一条目每一条目详细内容详细内容u 发表文章要提供发表文章要提供 Accession number(11)EPD (Eukaryotic Promoter Database) http:/www.genome.ad.jp/dbget/dbget2.htmlu 由由Weizmann Institute of Science in Rehovot (Israel)

22、 开创开创u 4806条真核生物启动子序列(条真核生物启动子序列(2010.11,release 105)u 人类基因组中的启动子大约人类基因组中的启动子大约19万个万个u 同一个基因具有多个启动子同一个基因具有多个启动子2、蛋白质数据库、蛋白质数据库(1)SWISS-PROTu 由由 EBI 和瑞士创办和瑞士创办u 有详细注释的序列,数据来源于实验有详细注释的序列,数据来源于实验u 与与44个数据库相互参照(个数据库相互参照(cross-reference)数据库主页数据库主页http:/www.ebi.ac.uk/swissprot/点击点击Access在在Database Access网

23、页网页选择数据库选择数据库、输入关键词、输入关键词检索到的检索到的条目条目(2)TrEMBL (Translation of EMBL) http:/www.ebi.ac.uk/swissprot/ u EBI 的数据库的数据库u 提交到提交到 EMBL 核苷酸数据库中所有核苷酸数据库中所有CDS 的氨基的氨基酸序列酸序列u UniProt (Universal Protein Resource)v 合并了合并了SWISS-PROT 和和 TrEMBL数据库数据库v 检索方法与检索检索方法与检索SWISS-PROT相同相同v 数据格式数据格式(3)PIR (Protein Informatio

24、n Resource) u 由由National Biomedical Research Foundation 创办创办u 可将蛋白质序列分类可将蛋白质序列分类u 结构域结构域(4)PRF (Protein Research Foundation) http:/www.prf.or.jp/u 由日本的由日本的 Protein Research Foundation 创办创办u 已发表在杂志上的蛋白质序列已发表在杂志上的蛋白质序列u 修饰位点、修饰位点、SS键等键等u 两月更新一次两月更新一次(5)PDBSTR (Re-Organized Prot

25、ein Data Bank)http:/www.genome.ad.jpu 蛋白质序列和二级结构蛋白质序列和二级结构u 螺旋结构螺旋结构(6)Prosite /prositeu 蛋白质家族蛋白质家族u 结构域结构域3、结构数据库、结构数据库(1)PDB (Protein Data Bank) u 由由 Brookhaven National Laboratories 创办创办v 蛋白质蛋白质v 核酸(核酸(DNA、RNA)v 其它(蛋白其它(蛋白-核酸复合物)核酸复合物)u 71516 个结构图(个结构图(2011.3

26、.1)u 可通过可通过 BLAST 系统检索系统检索u X 射线衍射图、射线衍射图、 核磁共振(核磁共振(NMR) 光谱图和电镜光谱图和电镜图(图(文字文字和和三维三维结构结构图图)TotalYearlyPDB Content Growth(2)NDB(Nucleic Acid Database) / 核酸的结构核酸的结构(3)DNA-Binding Protein Database /DNA 结合蛋白质的结合蛋白质的 X 射线衍射结构图射线衍射结构图(4)SWISS-3D IMAGE

27、http:/www.expasy.ch/sw3d/蛋白质的平面和立体图蛋白质的平面和立体图u 来源于实验结果来源于实验结果u 理论模型理论模型4、酶和代谢数据库、酶和代谢数据库(1)KEGG (Kyoto Encyclopedia of Genes and Genomes)u 各种代谢、遗传等路径图各种代谢、遗传等路径图u 可检索参于各种路径的基因可检索参于各种路径的基因KEGG主页主页http:/www.genome.ad.jp/kegg/点点击击“PATHWAY”“PATHWAY”网页点击任何代谢路径,如糖酵解网页点击任何代谢路径,如糖酵解/糖原糖原异生途径(异生途径(Glycolysis

28、/Gluconeogenesis)u 检索检索Genetic Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何遗传信息路径,如网页点击任何遗传信息路径,如 Protein export 路径路径可以查看参加这一路径蛋白质的信息可以查看参加这一路径蛋白质的信息u 检索检索Environmental Information ProcessingKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Environmental Information Processing 路径,如路径,如 MAPK si

29、gnaling pathway 路径路径可以查看与这一路径相连的可以查看与这一路径相连的其它信号路径其它信号路径或参加这一路径的或参加这一路径的蛋白质信息蛋白质信息u 检索检索Celluar ProcessesKEGG主页点击主页点击“PATHWAY”“PATHWAY”网页点击任何网页点击任何Cellular Processes 路路径,如径,如 Cell cycle 路径路径可以查看与这一路径相连的其它信号路径可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息或参加这一路径的蛋白质信息(2)PKR (Protein Kinase Resource) http:/www.kinas

30、/pkr/Welcome.do多种检索内容多种检索内容u 已知蛋白激酶的序列比较已知蛋白激酶的序列比较u 蛋白激酶分类蛋白激酶分类u 蛋白激酶的三维结构蛋白激酶的三维结构u 与疾病相关的蛋白激酶与疾病相关的蛋白激酶u 其它内容其它内容5、物种分类数据库、物种分类数据库u 物种分类物种分类界(界(Kingdom) 门(门(Phylum)纲(纲(Class) 目(目(Order) 科(科(Family) 属(属(Genus) 种(种(Species) 每一分类等级下可加设亚级(每一分类等级下可加设亚级(Sub-),如亚门、亚纲、),如亚门、亚纲、亚科等。亚科等。 每一分类等级上可加

31、设总级(每一分类等级上可加设总级(Super-),如总纲、总目),如总纲、总目、总科等。、总科等。动物界(动物界(Animal)脊索动物门(脊索动物门(Chordata) 脊椎动物亚门(脊椎动物亚门(Vertebrata)哺乳纲(哺乳纲(Mammalia)啮齿目(啮齿目(Rodentia) 鼠科(鼠科(Muridae) 小家鼠属(小家鼠属(Mus)小家鼠种(小家鼠种(musculus) 举例:举例:Mouse:Mus musculusHuman:Homo sapiensArabidopsis:Arabidopsis thaliana Poplars: Populus trichocarpa (

32、JGI)Pine(火炬忪火炬忪): Pinus taeda The Pine Genome Initiative(/)Eucalyptus(桉树桉树): Eucalyptus globulus (blue gum)The International Eucalyptus Genome Network (http:/www.fabinet.up.ac.za/eucagen)几个林木基因组几个林木基因组Papaya(番木瓜番木瓜) :Carica papaya /papaya/Tax

33、onomy /Taxonomy/taxonomyhome.htmlu 拟南芥拟南芥系谱(系谱(lineage)u 各个物种的系谱树各个物种的系谱树在在NCBI Entrez Taxonomy Homepage网页点网页点击击“tree”在在“tree”网页点击任一物种名,如网页点击任一物种名,如“Eukaryota”真核生物的真核生物的系谱树系谱树6、文献数据库、文献数据库u 各种杂志、书刊上发表的文章各种杂志、书刊上发表的文章u 大多数有摘要大多数有摘要(1)PubMed /PubMed/

34、u 美国国家医学图书馆的数据库美国国家医学图书馆的数据库u 医学医学u 分子生物学分子生物学u 基础生物学基础生物学u 4800 多种刊物,来源于多种刊物,来源于70多个国家多个国家u 刊物年限:刊物年限:60年代中期至今年代中期至今(2)OMIM (Online Mendelian Inheritance in Man)u NCBI 的数据库的数据库u 人类基因人类基因u 遗传疾病遗传疾病u 每天更新数据每天更新数据/Omim/检索网页检索网页(3)Agricola /u 美国农部农业图

35、书馆的数据库美国农部农业图书馆的数据库u 农业类刊物农业类刊物7、向数据库提交和修改核苷酸和蛋白质序列、向数据库提交和修改核苷酸和蛋白质序列提交:提交:Submission修改:修改:Update数据库中的数据由大家无偿提供,共同享用数据库中的数据由大家无偿提供,共同享用(1)向)向 GenBank提交或修改核苷酸序列提交或修改核苷酸序列u 用用 BankIt 功能功能提交提交序列序列v 网上直接提交,简单方便网上直接提交,简单方便v 提交后立刻得到临时编号提交后立刻得到临时编号v 一周内得到一周内得到 Accession numberu 用用Update 功能功能修改修改 GenBank 中

36、的序列和相关信息中的序列和相关信息v 修改一次,修改一次,version 的编号就进一位的编号就进一位u 用用 Sequin 方法提交序列方法提交序列v 可下载的电子表格可下载的电子表格v 自动确定自动确定 CDS、ORF 和查找重复序列和查找重复序列(2)向)向 SWISS-PROT 提交或修改蛋白质序列提交或修改蛋白质序列u 网上直接操作网上直接操作u 只接收用蛋白质直接测序的序列只接收用蛋白质直接测序的序列u 由核苷酸序列翻译得到的蛋白质序列由核苷酸序列翻译得到的蛋白质序列 将进入将进入TrEMBLJGIanimalsEnsembl数据库检索数据库检索检索数据库的方法检索数据库的方法 u

37、 用关键词或词组进行数据库检索用关键词或词组进行数据库检索 (Text-based database searching)u 用核苷酸或蛋白质序列进行数据库检索用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching)关键词或词组为基础的数据库检索关键词关键词名词、描述性词、词组名词、描述性词、词组序列注册号序列注册号 (Accession number)检索体系检索体系EntrezSequence Retrieval System (SRS)Integrated database retrieval system (DBGET)检索须知(检索须

38、知(1)u 连接词连接词 AND, OR, NOT rice AND enzyme rice AND enzyme NOT kinase retrotransposon OR retroelementu 用引号将两个单词组成一个词组用引号将两个单词组成一个词组 “disease resistance” disease resistance = disease AND resistance检索须知(检索须知(2)u wild card“*”放在单词后使检索范围扩大,放在单词后使检索范围扩大, 但专一性降低但专一性降低u Wan* = 所有以所有以 Wan 开头的单词开头的单词u enzyme*

39、= enzyme + enzymes1. Entrez/Entrez/NCBI 的检索体系的检索体系优点:三种检索体系中最容易操作的体系优点:三种检索体系中最容易操作的体系缺点:检索范围有限缺点:检索范围有限8大类大类35个与个与 Entreze 体系相连的数据库体系相连的数据库u Nucleotide Sequence Databases (8) CoreNucleotide, EST, GSS, SNP, Gene, HomoloGene, UniSTS, PopSet u Protein Sequence Databses (2) Pr

40、otein, Protein Clustersu Structure Databases (4) Structure, PubChem Compound, 3D Domains, CDD u Taxonomy Databases (1) Taxonomyu Genome Databases (2) Genomes, Genome Projectu Expression Databases (4) UniGene, GEO Profiles, GEO DataSets, GENSATu Literature Databases (9) PubMed, PubMed Central, Site S

41、earch, Books, OMIM, OMIA, Journals, NLM Catalog, MeSHu Other Databases (5)Probe, dbGaP, PubChem Substance, Cancer Chromosomes, PubChem BioAssayEntrez主页主页/Entrez/Entrez系统中部分系统中部分数据库之间的连接数据库之间的连接u 检索方法(检索方法(1):数据库之间检索):数据库之间检索NCBI主页主页选择选择“Entrez Home”或或Entrez主页,输主页,输入关键词入关键词各

42、个数据库中检索到的各个数据库中检索到的信息数量信息数量点击相应数据库点击相应数据库查看信息目录查看信息目录,每一条信息与其它数据库的,每一条信息与其它数据库的相关信息链接相关信息链接u 检索方法(检索方法(2):选择数据库检索):选择数据库检索NCBI主页主页选择数据库,输入关键词选择数据库,输入关键词检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接查看查看信息内容信息内容u 选择数据库后,可选择在这一数据库中的检索选择数据库后,可选择在这一数据库中的检索内容、时间范围、分子类型、基因位点等内容、时间范围、分子类型、基因位点等检索到的

43、检索到的信息目录信息目录点击点击“Limits”修改检索时间范围修改检索时间范围点击点击“Go”检索检索选择时间范围内选择时间范围内的数据的数据u 分子量检索分子量检索v 检索一个分子量为检索一个分子量为2002的蛋白质,输入的蛋白质,输入“2002MOLWT”,结果,结果目录目录,详细,详细内容内容v 与其他检索词相结合,如检索人类分子量为与其他检索词相结合,如检索人类分子量为2002的蛋白质,输入的蛋白质,输入“2002MOLWT AND humanORGN”u 其他专一检索其他专一检索v 关键词关键词栏目缩写或全名栏目缩写或全名,如,如“2002MOLWT或或2002molecular

44、weightv 检索在检索在“Keywords”栏目中出现栏目中出现“kinase”的蛋的蛋白质数据,输入白质数据,输入“kinaseKeyword”,结果,结果目目录录u 范围检索范围检索v 检索分子量在检索分子量在20022009之间的蛋白质,输入之间的蛋白质,输入“2002:2009 Molecular Weight ”,结果的详,结果的详细细内容内容v 检索核苷酸长短在检索核苷酸长短在30004000之间的之间的DNA,输,输入入“3000:4000SLEN”,结果,结果目录目录v 检索注册号在检索注册号在AF123456AF123478之间的核之间的核苷酸数据,输入苷酸数据,输入AF

45、123456:AF123478Accession number,结,结果果目录目录2. SRS (Sequence Reterieval System)SRS(http:/srs.ebi.ac.uk/)是一个开放的数据)是一个开放的数据库查询系统,不同的库查询系统,不同的SRS系统(版本)可以根系统(版本)可以根据需要安装不同的数据库据需要安装不同的数据库European Bioinformatics Institute (EBI) 的检的检索体系索体系优点:检索面宽优点:检索面宽缺点:操作复杂缺点:操作复杂17大类大类194个数据库与个数据库与 SRS 体系相连体系相连u Literatur

46、e, Bibliography and Reference databasesu Nucleotide sequence databasesu Uniprot Universal Protein Resourceu Other protein sequence databasesu Deprecated Protein Databasesu Nucleotide related databasesu Protein function databasesu Protein structure databasesu Enzymes, reactions and metabolic pathway

47、databases 17大类大类194个数据库与个数据库与 SRS 体系相连(续)体系相连(续)u Mutation and SNP databasesu Gene ontology resourcesu Biological Resources Cataloguesu Mapping databasesu Other databasesu User owned databasesu Application result databasesu EMBOSS result databasesSRS基本检索规则基本检索规则u 与常用检索规则不同的检索规则与常用检索规则不同的检索规则v 用用“|”代

48、表代表“OR”,用,用“&”代表代表“AND”,用,用“!”代表代表“NOT”u 数字和日期检索数字和日期检索v 片段长度检索时用片段长度检索时用“:”代表代表 或或,用,用“!”代代表表 ;如;如“12:”表示表示 12,“:12”表示表示 12,“!12:”表示表示12,“:!12”表示表示12,12:15表示表示 12而而 15v 可以识别两种日期格式:可以识别两种日期格式:YYYYMMDD或或DD-MMM-YYYY;如;如20020619或或19-Jun-2002u 索引检索(索引检索(index search)v 由数据库名、域名和检索词三部分组成,数据库和域名由数据库名、域名和检索

49、词三部分组成,数据库和域名之间用之间用“-”连接,域名与检索词之间用连接,域名与检索词之间用“:”(字符串检(字符串检索)或索)或“#”(范围检索)分开,如:(范围检索)分开,如: pir-des:elastase表示在蛋白质数据库表示在蛋白质数据库PIR的的des(description)域搜索关键词)域搜索关键词“elastase” swissprot-date#20010415:200220414表示在蛋白质数表示在蛋白质数据库据库SWISS-PROT中检索从中检索从2001年年4月月15日到日到2002年年4月月14日的所有记录日的所有记录 swissprot swissnew spt

50、rembl-des:kinase表示在表示在SWISS-PROT、SWISSNEW和和SPtrEMBL三个数据库三个数据库中的中的des域搜索关键词域搜索关键词“kinase”u 检索方法(检索方法(1):快速检索):快速检索v 操作简单,检索数据库有限操作简单,检索数据库有限v 适用于目标明确的检索适用于目标明确的检索在在SRS主页主页选择数据库种类,输入关键词选择数据库种类,输入关键词检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接查看查看信息内容信息内容u 检索方法(检索方法(2):深入检索):深入检索v 操作稍微复杂,可以检索

51、所有数据库操作稍微复杂,可以检索所有数据库v 适用于范围广泛的检索适用于范围广泛的检索在在SRS主页主页点击点击“Library Page”在在“Library Page”网页网页选择数据库选择数据库,然后点击,然后点击“Query Form”在在“Query Form”网页网页输入关键词检索输入关键词检索检索到的检索到的信息目录信息目录,每一条信息,每一条信息与其它数据库的相关信息链接与其它数据库的相关信息链接3. DBGET (Integrated database retrieval system)http:/www.genome.ad.jp/dbget/日本的检索体系日本的检索体系优点:与优点:与 Kyoto Encyclopedia of Genes and Genomes (KEGG) database 相连相连 操作简单操作简单缺点:检索面较缺点:检索面较 SRS 和和 Entrez 窄窄DBGET与与41个数据库相连个数据库相连u 检索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论